2. Estadística
.
La estadística es una ciencia formal que estudia la recolección, análisis e
interpretación de datos de una muestra representativa, ya sea para ayudar
en la toma de decisiones o para explicar condiciones regulares o irregulares
de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o
condicional.
Sin embargo, la estadística es más que eso, es decir, es la herramienta
fundamental que permite llevar a cabo el proceso relacionado con la
investigación científica.
3.
Es transversal a una amplia variedad de disciplinas, desde la física
hasta las ciencias sociales, desde las ciencias de la salud hasta el
control de calidad.
Se usa para la toma de decisiones en áreas de negocios o
instituciones gubernamentales.
La estadística se divide en dos grandes áreas:
•
La estadística descriptiva, se dedica a la descripción,
visualización y resumen de datos originados a partir de los
fenómenos de estudio. Los datos pueden ser resumidos numérica o
gráficamente. Ejemplos básicos de parámetros estadísticos son: la
media y la desviación estándar. Algunos ejemplos gráficos son:
histograma, pirámide poblacional, gráfico circular, entre otros.
•
La estadística inferencial, se dedica a la generación de los
modelos, inferencias y predicciones asociadas a los fenómenos en
cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se
usa para modelar patrones en los datos y extraer inferencias acerca
de la población bajo estudio. Estas inferencias pueden tomar la forma
de respuestas a preguntas si/no (prueba de hipótesis), estimaciones
de unas características numéricas (estimación), pronósticos de
futuras observaciones, descripciones de asociación (correlación) o
modelamiento de relaciones entre variables (análisis de regresión).
Otras técnicas de modelamiento incluyen anjova, series de tiempo y
minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística
aplicada.
4.
Población:
El concepto de población en estadística va más allá de lo que comúnmente se conoce
como tal. Una población se precisa como un conjunto finito o infinito de personas u
objetos que presentan características comunes.
"Una población es un conjunto de todos los elementos que estamos estudiando,
acerca de los cuales intentamos sacar conclusiones". Levan & Rubín (1996).
"Una población es un conjunto de elementos que presentan una característica
común". Cadenas (1974).
Ejemplo:
Los miembros del Colegio de Ingenieros del Estado Cojedes.
El tamaño que tiene una población es un factor de suma importancia en el proceso
de investigación estadística, y este tamaño vienen dado por el número de elementos
que constituyen la población, según el número de elementos la población puede ser
finita o infinita. Cuando el número de elementos que integra la población es muy
grande, se puede considerar a esta como una población infinita, por ejemplo; el
conjunto de todos los números positivos. Una población finita es aquella que está
formada por un limitado número de elementos, por ejemplo; el número de
estudiante del Núcleo San Carlos de la Universidad Nacional Experimental Simón
Rodríguez.
Cuando la población es muy grande, es obvio que la observación de todos los
elementos se dificulte en cuanto al trabajo, tiempo y costos necesario para hacerlo.
Para solucionar este inconveniente se utiliza una muestra estadística.
Es a menudo imposible o poco práctico observar la totalidad de los individuos, sobre
todos si estos son muchos. En lugar de examinar el grupo entero llamado población
o universo, se examina una pequeña parte del grupo llamada muestra.
5.
Población estadística, en estadística, también llamada universo o
colectivo, es el conjunto de elementos de referencia sobre el que se
realizan unas de las observaciones. Población (‘populación’) es el
conjunto sobre el que estamos interesados en obtener conclusiones
(hacer inferencia). Normalmente es demasiado grande para poder
abarcarlo.
Población en epidemiología
En epidemiología una población es un conjunto de sujetos o
individuos con determinadas características demográficas, de la que
se obtiene la muestra o participantes en un estudio epidemiológico a
la que se quiere extrapolar los resultados de dicho estudio (inferencia
estadística). La estadística es comúnmente considerada como una
colección de hechos numéricos expresados en términos de una
relación sumisa, y que han sido recopilado a partir de otros datos
numéricos. Kendall y Buckland (citados por Gina V. Glas / Julián C.
Stanley, 1980) definen la estadística como un valor resumido,
calculado, como base en una muestra de observaciones que
generalmente, aunque no por necesidad, se considera como una
estimación de parámetro de determinada población; es decir, una
función de valores de muestra.1
Población estadística
El número de elementos o sujetos que componen una población
estadística es igual o mayor que el número de elementos que se
obtienen de ella en una muestra (n).
6. Muestra estadística
En estadística una muestra estadística (también llamada muestra aleatoria o simplemente
muestra) es un subconjunto de casos o individuos de una población estadística.
Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la
población, para lo cual deben ser representativas de la misma. Para cumplir esta
característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En
tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con
mayor rapidez y menor coste (véanse las ventajas de la elección de una muestra, más abajo).
Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la
población porque el manejo de un menor número de datos provoca también menos errores
en su manipulación. En cualquier caso, el conjunto de individuos de la muestra son los
sujetos realmente estudiados.
El número de sujetos que componen la muestra suele ser inferior que el de la población,
pero suficiente para que la estimación de los parámetros determinados tenga un nivel de
confianza adecuado. Para que el tamaño de la muestra sea idóneo es preciso recurrir a su
cálculo.
7. Espacio muestra
el espacio muestra se toma una muestra concreta está formado por el conjunto de
todas las posibles muestras que se pueden extraer de una población mediante una
determinada técnica de muestreo.
parámetro o estadístico muestra
un parámetro estadístico o simplemente un estadístico muestra es cualquier valor
calculado a partir de la muestra, como por ejemplo la media, varianza o una
proporción, que describe a una población y puede ser estimado a partir de una
muestra. valor de la población.
estimación
una estimación es cualquier técnica para conocer un valor aproximado de un
parámetro referido a la población, a partir de los estadísticos muéstrales
calculados a partir de los elementos de la muestra.
nivel de confianza
el nivel de confianza de una aseveración basada en la inferencia estadística es una
medida de la bondad de la estimación realizada a partir de estadísticos
muéstreles.
ejemplo
la descripción de una muestra, y los resultados obtenidos sobre ella, puede ser del
tipo mostrado en el siguiente ejemplo:
dimensión de la población: ej. 222.222 habitantes
probabilidad del evento: ej. hombre o mujer 50%
nivel de confianza:
ej. 96%
desviación tolerada:
ej. 5%
resultado
ej. 196
tamaño de la muestra:
ej. 270
8. Definición de variable
Una variable estadística es cada una de las características o cualidades
que poseen los individuos de una población.
Tipos de variable estadísticas
Variable cualitativa
Las variables cualitativas se refieren a características o cualidades que
no pueden ser medidas con números. Podemos distinguir dos tipos:
Variable cualitativa nominal
Una variable cualitativa nominal presenta modalidades no numéricas
que no admiten un criterio de orden.
Ejemplo:
El estado civil, con las siguientes modalidades:
soltero, casado, separado, divorciado y viudo.
Variable cualitativa ordinal o variable cuasi cuantitativa
Una variable cualitativa ordinal presenta modalidades no numéricas, en
las que existe un orden.
Ejemplos:
La nota en un examen: suspenso, aprobado, notable, sobresaliente.
Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...
9. Medallas de una prueba deportiva: oro, plata, bronce.
Variable cuantitativa
una variable cuantitativa es la que se expresa mediante un número, por
tanto se pueden realizar operaciones aritméticas con ella. Podemos
distinguir dos tipos:
variable discreta
una variable discreta es aquella que toma valores aislados, es decir no
admite valores intermedios entre dos valores específicos.
Ejemplo:
el número de hermanos de 5 amigos: 2, 1, 0, 1, 3.
Variable continua
una variable continua es aquella que puede tomar valores comprendidos
entre dos números.
Ejemplos:
la altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.
En la práctica medimos la altura con dos decimales, pero también se
podría dar con tres decimales.
10. VARIABLE CUALITATIVA
Las variables cualitativas se refieren a características o
cualidades que no pueden ser medidas con números. Podemos
distinguir dos tipos:
Variable cualitativa nominal
Una variable cualitativa nominal presenta modalidades no
numéricas que no admiten un criterio de orden. Por ejemplo:
El estado civil, con las siguientes modalidades: soltero, casado,
separado, divorciado y viudo.
Variable cualitativa ordinal o variable cuasi cuantitativa
Una variable cualitativa ordinal presenta modalidades no
numéricas, en las que existe un orden. Por ejemplo:
La nota en un examen: suspenso, aprobado, notable,
sobresaliente.
Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...
Medallas de una prueba deportiva: oro, plata, bronce.
11. VARIABLE CUANTITATIVA
Una variable cuantitativa es la que se expresa mediante un
número, por tanto se pueden realizar operaciones aritméticas
con ella. Podemos distinguir dos tipos:
Variable discreta
Una variable discreta es aquella que toma valores aislados, es
decir no admite valores intermedios entre dos valores
específicos. Por ejemplo:
El número de hermanos de 5 amigos: 2, 1, 0, 1, 3.
Variable continua
Una variable continua es aquella que puede tomar valores
comprendidos entre dos números. Por ejemplo:
La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.
En la práctica medimos la altura con dos decimales, pero
también se podría dar con tres decimales.
12. Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece un determinado
valor en un estudio estadístico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al número total de datos, que
se representa por N.
Para indicar resumidamente estas sumas se utiliza la letra griega Σ
(sigma mayúscula) que se lee suma o sumatoria.
13. Ejemplo
durante el mes de julio, en una ciudad se han registrado las
siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30,
30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
En la primera columna de la tabla colocamos la variable ordenada de
menor a mayor y en la segunda anotamos la frecuencia absoluta.
xi
fi
27
1
28
2
29
6
30
7
31
8
32
3
33
3
34
1
31
14. Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de
un determinado valor y el número total de datos.
La frecuencia relativa se puede expresar en tantos por ciento y se
representa por ni.
La suma de las frecuencias relativas es igual a 1.
Ejemplo
Durante el mes de julio, en una ciudad se han registrado las
siguientes temperaturas máximas:
32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30,
30, 29, 29, 30, 30, 31, 30, 31, 34, 33, 33, 29, 29.
17. Diagrama de sectores
Un diagrama de sectores se puede utilizar para todo tipo de variables,
pero se usa frecuentemente para las variables cualitativas.
Los datos se representan en un círculo, de modo que el ángulo de cada
sector es proporcional a la frecuencia absoluta correspondiente.
El diagrama circular se construye con la ayuda de un transportador de
ángulos.
Ejemplo:
En una clase de 30 alumnos, 12 juegan a baloncesto, 3 practican la
natación, 9 juegan al fútbol y el resto no practica ningún deporte.
19. Diagrama de barras
Se utiliza para representar los caracteres cualitativos y cuantitativos
discretos. En el eje horizontal, o eje de abscisas, se representan los datos o
modalidades; en el eje vertical o de ordenadas, se representan las
frecuencias de cada dato o modalidad.
Sobre el eje horizontal se levantan barras o rectángulos de igual base (que
no se superpongan) cuya altura debe ser proporcional a la frecuencia que
representan.
Grafiquemos el ejemplo anterior de los deportes preferidos, usando la
actividad Social Calca:
20. Rápidamente podemos ver que el fútbol es el deporte preferido, por
la longitud de la barra.
La actividad Social Calca nos realiza este tipo de gráficos, aunque
sólo en color gris. Podemos realizar una captura de pantalla (con las
teclas "alta" y "1"), luego desde el diario retomar la imagen con la
actividad Pintar y colorear las barras.
Las barras también pueden ser horizontales:
21. Intervalo de clase
Los intervalos de clase se emplean si las variables toman un número grande de
valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud
denominados clases. A cada clase se le asigna su frecuencia correspondiente.
Límites de la clase
Cada clase está delimitada por el límite inferior de la clase y el límite superior
de la clase.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el límite superior e inferior de la
clase.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es el valor que
representa a todo el intervalo para el cálculo de algunos parámetros.
Construcción de una tabla con Intervalos de clase
3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26,
20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
1º se localizan los valores menor y mayor de la distribución. En este caso son 3
y 48.
2º Se restan y se busca un número entero un poco mayor que la diferencia y
que sea divisible por el número de intervalos de queramos poner.
Es conveniente que el número de intervalos oscile entre 6 y 15.
En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10
intervalos.
Se forman los intervalos teniendo presente que el límite inferior de una clase
pertenece al intervalo, pero el límite superior no pertenece intervalo, se cuenta
en el siguiente intervalo.
23. Marca de clase
La marca de clase es el punto medio de cada intervalo.
La marca de clase es el valor que representa a todo el intervalo para el cálculo
de algunos parámetros como la media aritmética o la desviación típica.
Se representa por si o xi.
Ejemplo
xi
fi
xi · fi
xi2 · fi
[10, 20) 15
1
15
225
[20, 30) 25
8
200
5000
[30,40)
10
350
12 250
[40, 50) 45
9
405
18 225
[50, 60) 55
8
440
24 200
[60,70)
65
4
260
16 900
[70, 80) 75
2
150
11 250
42
1 820
88 050
35
24. Histograma
Un histograma es una representación gráfica de una variable en forma de barras,
donde la superficie de cada barra es proporcional a la frecuencia de los valores
representados. En el eje vertical se representan las frecuencias, y en el eje horizontal
los valores de las variables, normalmente señalando las marcas de clase, es decir, la
mitad del intervalo en el que están agrupados los datos.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura
de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores
continuos. En los casos en los que los datos son cualitativos (no-numéricos), como
sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que
en ciencias naturales y exactas. Y permite la comparación de los resultados de un
proceso.
Ejemplo:
25. Marca de clase o valor medio
Se determina calculando el promedio entre los límites inferior y superior. La
marca de clase representa a todos los datos pertenecientes al intervalo de clase
correspondiente.
26. Polígonos de frecuencias
Variables discretas
Los polígonos de frecuencias se realizan trazando los puntos que representan
las frecuencias y uniéndolos mediante segmentos.
Ejemplo
Las temperaturas en un día de otoño de una ciudad han sufrido las siguientes
variaciones:
Hora
Temperatura
6
7º
9
12°
12
14°
15
11°
18
12°
21
10°
24
8°
27. Variables continuas o datos agrupados
Los polígonos de frecuencias se realizan trazando los puntos formados las
marcas de clase y las frecuencias, y uniéndolos mediante segmentos.
También se puede construir el polígono de frecuencia uniendo los puntos
medios de cada rectángulo de un histograma.
Ejemplo
El peso de 65 personas adultas viene dado por la siguiente tabla:
ci
fi
Fi
[50, 60)
55
8
8
[60, 70)
65
10
18
[70, 80)
75
16
34
[80, 90)
85
14
48
[90,
100)
95
10
58
[100,
110)
110
5
63
[110,
120)
115
2
65
65
28. Medidas de dispersión
Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores
de la distribución.
Las medidas de dispersión son:
Rango o recorrido
El rango es la diferencia entre el mayor y el menor de los datos de una distribución
estadística.
Desviación media
La desviación respecto a la media es la diferencia entre cada valor de la variable
estadística y la media aritmética.
Di = x - x
La desviación media es la media aritmética de los valores absolutos de las
desviaciones respecto a la media.
La desviación media se representa por
Ejemplo
Calcular la desviación media de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
29. Desviación media para datos agrupados
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la
desviación media es:
Ejemplo
Calcular la desviación media de la distribución:
xi
fi
xi · fi
|x - x|
|x - x|
· fi
[10,
15)
12.5
3
37.5
9.286
27.858
[15,
20)
17.5
5
87.5
4.286
21.43
[20,
25)
22.5
7
157.5
0.714
4.998
[25,
30)
27.5
4
110
5.714
22.856
[30,
35)
32.5
2
65
10.174
21.428
21
457.5
98.57
30. Varianza
La varianza es la media aritmética del cuadrado de las desviaciones respecto a
la media de una distribución estadística.
La varianza se representa por .
Varianza para datos agrupados
31. Rango (estadística)
En estadística descriptiva se denomina rango estadístico (R) o recorrido
estadístico al intervalo a la diferencia entre el valor máximo y el valor mínimo; por
ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de
los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto.
Por ejemplo, para una serie de datos de carácter cuantitativo, como lo es la estatura
medida en centímetros, tendríamos:
es posible ordenar los datos como sigue:
donde la notación x(i) indica que se trata del elemento i-pésimo de la serie de datos. De este modo, el
rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:
En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30.
32. Desviación respecto a la media
La desviación respecto a la media es la diferencia en valor absoluto entre
cada valor de la variable estadística y la media aritmética.
Di = |x - x|
Desviación media
La desviación media es la media aritmética de los valores absolutos de las
desviaciones respecto a la media.
La desviación media se representa por
Ejemplo:
Calcular la desviación media de la distribución:
9, 3, 8, 8, 9, 8, 9, 18
33. Desviación media para datos agrupados
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de
la desviación media es:
Ejemplo:
Calcular la desviación media de la distribución:
xi
fi
xi · fi
|x -x|
|x - x|
· fi
[10,
15)
12.5
3
37.5
9.286
27.85
8
[15,
20)
17.5
5
87.5
4.286
21.43
[20,
25)
22.5
7
157.5
0.714
4.998
[25,
30)
27.5
4
110
5.714
22.85
6
[30,
35)
32.5
2
65
10.71
4
21.42
8
21
457.5
98.57