2. Iniciando por los datos y sus tipos puede decirse que los datos son los
valores que adoptan las variables en cada caso particular, las variables no
son más que aquello que estudiamos en cada individuo de la muestra, como
por ejemplo: estatura, edad, sexo, peso, antigüedad en el puesto, etc. Ya
habiendo definido dato y variable, se pueden clasificar en dos grandes tipos
según lo que se observe en ellos:
Cuantitativos: que se pueden expresar de forma numérica, los cuales a su
vez pueden ser de dos tipos:
Discretos: los cuales producen respuestas numéricas, pero en números
enteros, generalmente producto de un conteo, no pueden tener valores
intermedios en un rango, por ejemplo: número de empleados o número de
puestos que ha ocupado una persona en una compañía, los cuales no
pueden ser 450.3 empleados o 3 puestos y medio.
Continuos: que si puede adoptar cualquier valor numérico intermedio en
un rango, generalmente producto de una medición, por ejemplo: edad de los
empleados o sueldo de los ejecutivos, que puede ser medido de manera
precisa, como una edad de 38 años, 6 meses y 18 días o un sueldo de Q.
4,529.33.
3.
4. Cualitativos: También denominados como categóricos por algunos autores, ya que
clasifican cada caso en una o varias categorías, como por ejemplo: Como le parece
la comida de la cafetería de la empresa? Que puede tener varias categorías tales
como: buena, regular y mala. En este grupo se encuentran aquellos que producen
respuestas con solo dos opciones probables como por ejemplo: Tiene usted empleo
actualmente?, que solo admite si o no, también pueden ser de dos tipos :
Ordenables: Aquellas que sugieren una ordenación. Por ejemplo, la graduación
militar, el nivel de estudios, etc.
No ordenables: Aquellas que sólo admiten una mera ordenación alfabética, pero no
establece orden por su naturaleza. Por ejemplo, el color de pelo, sexo, estado civil,
etc.
5. Población: Es el conjunto de todos los elementos que cumplen ciertas propiedades y
entre los cuales se desea estudiar un determinado fenómeno (pueden ser hogares,
número de tornillos producidos por una fábrica en un año, lanzamientos de una
moneda, etc. ). Llamamos población estadística o universo al conjunto de referencia
sobre el cual van a recaer las observaciones.
Muestra: es el subconjunto de la población que es estudiado y a partir de la cual se
sacan conclusiones sobre las características de la población. La muestra debe ser
representativa, en el sentido de que las conclusiones obtenidas deben servir para el
total de la población.
Las muestras pueden ser probabilísticas o no probabilísticas. Una muestra
probabilística se elige mediante reglas matemáticas, por lo que la probabilidad de
selección de cada unidad es conocida de antemano. Por el contrario, una muestra no
probabilística no ser rige por las reglas matemáticas de la probabilidad. De ahí que,
mientras en las muestras probabilísticas es posible calcular el tamaño del error
muestral, no es factible hacerlo en el caso de las muestras no probabilísticas. Ejemplos
de éstas últimas son la muestra accesible (que está conformada por personas de fácil
acceso para el investigador como ser colegas o alumnos de su clase.) y la muestra
voluntaria (donde los sujetos de la muestra no han sido seleccionados
matemáticamente).
6. La modalidad más elemental de muestra probabilística es la muestra aleatoria simple,
en la que todos los componentes o unidades de la población tienen la misma
oportunidad de ser seleccionados.
Otro procedimiento similar de muestreo aleatorio es el llamado muestreo aleatorio
sistemático en el cual se escoge uno de cada x componentes del listado de la
población. El investigador selecciona al azar un punto de partida y un intervalo
muestral. Así si el punto de partida fuera el 11 y el intervalo el 6 se elegirían el 11, 16,
21,16 hasta completar la lista.
Siempre que se desee adecuar la representación de diferentes subconjuntos hay que
recurrir a una muestra estratificada. Las características de las submuestras (estratos
o segmentos) pueden contemplar casi cualquier tipo de variables: edad, sexo,
religión, niel de ingresos, etc. Los estratos pueden así definirse mediante un número
prácticamente ilimitado de características. Puede ser un muestreo estratificado
proporcional o no proporcional.
7. Ejemplo:
Se tiene una población de 222.222 habitantes y se quiere conocer cuantos de ellos son
hombres y cuantos de ellos son mujeres. Se conjetura que cerca del 50% son mujeres y
el resto hombres, pero se quiere seleccionar una muestra para determinar cuantos
hombres y mujeres hay en la muestra y a partir de ahí inferior el porcentaje exacto de
hombres y mujeres en la población total. La descripción de una muestra, y los resultados
obtenidos sobre ella, puede ser del tipo mostrado en el siguiente ejemplo:
La interpretación de esos datos sería la siguiente:
La población a investigar tiene 222.222 habitantes y queremos saber cuántos son
hombres o mujeres.
Estimamos en un 50% para cada sexo y para el propósito del estudio es suficiente un
90% de seguridad con un nivel entre 90 - 5 y 90 + 5.
Generamos una tabla de 280 números al azar entre 1 y 222.222 y en un censo
numerado comprobamos el género para los seleccionados.
8. En estadística, un parámetro es un número que resume la gran cantidad de datos que
pueden derivarse del estudio de una variable estadística. El cálculo de este número está
bien definido, usualmente mediante una fórmula aritmética obtenida a partir de datos de
la población.
Parámetros muestrales
Los Parámetros muestrales son resúmenes de la información de la muestra que nos
"determinan" la estructura de la muestra.
Los Parámetros muestrales no son constantes sino variables aleatorias pues sus valores
dependen de la estructura de la muestra que no es siempre la misma como
consecuencia del muestreo aleatorio. A estas variables se les suele llamar estadísticos.
Los estadísticos se transforman en dos tipos: estadísticos de centralidad y estadísticos
de dispersión.
9. Estadísticos de centralidad:
Son medidas de la tendencia central de la variable. los más conocidos son:
La media aritmética
Es el valor esperado de las observaciones de la muestra calculado como si la muestra
fuera una variable completa, es decir, multiplicando observaciones por frecuencias y
sumando.
Si x1, x2,.., xn representan una muestra de tamaño n de la población, la media aritmética
se calcula como:
La media aritmética es la medida de la tendencia central que posee menor varianza.
Engloba en ella toda la información de la muestra; esto, con ser una ventaja, supone
una cierta desventaja pues los valores muy extremos, en muestras pequeñas afectan
mucho a la media.
La media de la media aritmética es igual a la de las observaciones (μ) y su varianza
es igual a la de las observaciones partida por n. En poblaciones normales, la
distribución de la media es normal,
10. Si la población no es normal, pero la muestra es grande (n ≥ 30), por el teorema
central del límite la distribución de la media será asintóticamente normal.
11. La mediana
En una variable se define como el punto para el cual la función de distribución alcance el
valor 0.5; en una muestra la mediana es el valor central.
Para calcularla se ordenan las observaciones de menor a mayor. Si n es impar, la
mediana es la observación central
Si n es par, la mediana se define como la media de las dos observaciones centrales
En resumen, podríamos decir que la mediana es el valor que es mayor o igual que el
50% de las observaciones de la muestra y menor o igual que el otro 50%.
No tiene por qué ser igual a una de las observaciones de la muestra.
Es más fácil de calcular que la media aritmética y apenas se afecta por observaciones
extremas; sin embargo tiene mayor varianza que X y sólo toma en cuenta la información
de los valores centrales de la muestra.
12. La moda
Es el valor más frecuente.
Su cálculo es el más simple de los tres correspondientes a estadísticos de centralidad
pero la moda es el estadístico de mayor varianza.
La moda puede no existir y cuando existe no es necesariamente única. No tiene sentido
en muestras pequeñas en las que la aparición de coincidencias en los valores es con
gran frecuencia más producto del azar que de otra cosa.
La media es el estadístico de centralidad más usado cuando uno espera que la
población tenga una distribución más o menos simétrica, sin estar clasificada en grupos
claramente diferenciados.
En el caso de distribuciones muy asimétricas, con una cola muy larga, la mediana es,
normalmente, el valor de elección dado que la media suele estar desplazada respecto al
núcleo principal de observaciones de la variable. En estos casos, la mediana es el valor
que mejor expresa el punto donde se acumulan mayoritariamente las observaciones de
la variable.
En el caso de poblaciones o muestras subdivididas en grupos claramente definidos la
media y la mediana carecen, normalmente, de sentido y los valores que más claramente
reflejan el comportamiento de las observaciones de la variable son las modas.
13. Los Cuantiles o Percentiles
Un percentil X, PX, es un valor de la distribución muestral o poblacional de la variable
que es mayor o igual que el X% de las observaciones de la variable P(Y ≤ PX) = X%.
Existe un tipo especial de cuantiles llamados cuartiles.
Los cuartiles son tres valores que dividen la distribución en cuatro partes equivalentes
porcentualmente.
o El primer cuartil es el valor que es mayor o igual que el 25% de las observaciones
de la muestra y menor o igual que el 75%.
o El segundo cuartil es la mediana.
o El tercer cuartil es mayor o igual que el 75% de las observaciones de la muestra y
menor o igual que el 25%.
14. Estadísticos de dispersión
Los estadísticos de dispersión son parámetros muestrales que expresan la dispersión
de los valores de la variable respecto al punto central, es decir, su posición relativa. Los
más importantes son:
El rango
Es la diferencia entre las dos observaciones extremas, la máxima menos la mínima.
Expresa cuantas unidades de diferencia podemos esperar, como máximo, entre dos
valores de la variable.
El rango estima el campo de variación de la variable.
Se afecta mucho por observaciones extremas y utiliza únicamente una pequeña parte de
la información
La varianza
Es la desviación cuadrática media de las observaciones a la media muestral.
Su concepto es análogo al de la varianza poblacional. No obstante esta expresión de
cálculo de la varianza muestral no se utiliza mucho pues sus valores tienden a ser
menores que el de la auténtica varianza de la variable (debido a que la propia media
muestral tiene una varianza que vale un enésimo de la de las observaciones) Para
compensar esta deficiencia y obtener valores que no subestimen la varianza poblacional
(cuando estamos interesados en ella y no en la varianza muestral) utilizaremos una
expresión, esencialmente igual que la anterior salvo que el denominador está disminuido
en una unidad.
15. La desviación típica
Es la raíz cuadrada positiva de la varianza y, por tanto, se expresa en las unidades de
medida de la variable.
Su concepto es análogo al de la desviación típica poblacional.
Coeficiente de variación
Es el cociente entre la desviación típica y la media aritmética muestrales y expresa la
variabilidad de la variable en tanto por uno, sin dimensiones.
Permite comparar muestras de variables de distinta naturaleza o muestras de la misma
variable en poblaciones en las que el orden de magnitud de las observaciones sea muy
diferente.
16. Se entiende por medición al proceso de asignar el valor a una variable de un elemento en
observación. Este proceso utiliza diversas escalas: nominal, ordinal, de intervalo y de razón.
Las variables de las escalas nominal y ordinal se denominan también categóricas, por otra parte las
variables de escala de intervalo o de razón se denominan variables numéricas. Con los valores de las
variables categóricas no tiene sentido o no se puede efectuar operaciones aritméticas. Con las
variables numéricas sí.
La escala nominal sólo permite asignar un nombre al elemento medido. Esto la convierte en la
menos informativa de las escalas de medición.
Los siguientes son ejemplos de variables con este tipo de escala:
Nacionalidad.
Uso de anteojos.
Número de camiseta en un equipo de fútbol.
Número de Cédula Nacional de Identidad.
A pesar de que algunos valores son formalmente numéricos, sólo están siendo usados para identificar
a los individuos medidos.
17. La escala ordinal, además de las propiedades de la escala nominal, permite establecer un orden
entre los elementos medidos.
Ejemplos de variables con escala ordinal:
Preferencia a productos de consumo.
Etapa de desarrollo de un ser vivo.
Clasificación de películas por una comisión especializada.
Madurez de una fruta al momento de comprarla.
La escala de intervalo, además de todas las propiedades de la escala ordinal, hace que tenga
sentido calcular diferencias entre las mediciones.
Los siguientes son ejemplos de variables con esta escala:
Temperatura de una persona.
Ubicación en una carretera respecto de un punto de referencia (Kilómetro 85 Ruta 5).
Sobrepeso respecto de un patrón de comparación.
Nivel de aceite en el motor de un automóvil medido con una vara graduada.
Finalmente, la escala de razón permite, además de lo de las otras escalas, comparar mediciones
mediante un cociente.
Algunos ejemplos de variables con la escala de razón son los siguientes:
Altura de personas.
Cantidad de litros de agua consumido por una persona en un día.
Velocidad de un auto en la carretera.
Número de goles marcados por un jugador de básquetbol en un partido.
18. RAZON
Se denomina razón (“ratio”) a todo índice obtenido al dividir dos cantidades. En la razón ninguno o
solo algunos elementos del numerador están incluidos en el denominador. Ej.
PROPORCION
Se denomina proporción a una razón tal que el valor del numerador está incluido en el denominador.
La proporción indica, en tantos por uno, la parte que el numerador representa del denominador. Si se
multiplican por 100 se obtienen porcentajes o tantos por cien. P= a/(a+b)
Con los datos de casos diagnosticados de Legionelosis en 2004 podemos calcular
19. TASA
La tasa mide la magnitud de cambio de un parámetro por unidad de cambio de otro. Es un tipo
especial de razón o de proporción que incluye una medida de tiempo en el denominador
En las tasas usadas en epidemiología, la magnitud Y del numerador es el número de sujetos con una
determinada característica y la magnitud X del denominador es el tiempo.
Por tanto, la Tasa es una medida de cambio que permite pedir el “ritmo” de aparición de un evento
Al ser difícil el cálculo de la “tasa instantánea”, normalmente se habla de “tasa media”
Con estos datos de casos de legionelosis podemos calcular las siguientes tasas:
20. LA FRECUENCIA: es la cantidad de veces que se repite un suceso en un rango de un
espacio muestral dado.
Por ejemplo, una profesora en su informe anual, señalará que para el curso de 35
alumnos, la frecuencia de notas es la siguiente.
Tabla 1: Ejemplo Frecuencia Estadística
De la tabla 1 se observa que: 3 alumnos obtuvieron nota bajo 4.0, y el resto
tienen nota igual o superior a 4.0, resaltándose que la mayoría de los
escolares están en el rango 5.0 a 5.9, y sólo uno sobresaliente con la nota 7.0.
21. "De los datos, Variables,Cualitativa,Cuantitativa, Discreto y Continuo"
Angel Oswaldo Rosales G
http://estadisticaparaadministracion.blogspot.com/2012/05/de-los-datos-variables-cualitativa.html
"Conceptos Básicos de Población y Muestra"
Santa Cruz de Tenerife, Cruz del Señor
http://www.aprobar.info/Clases%20Particulares%20Universitarias/Clases%20Particualres%20Estadistica
/1.html
"Parámetros y estadísticos"
UCM
http://pendientedemigracion.ucm.es/info/genetica/Estadistica/estadistica_basica%202.htm#Parámetros
y estadísticos
"Escala de Medición"
UCV
http://www.ucv.cl/web/estadistica/cb_esc_medic.htm
"Medidas de frecuencia"
Sameens
http://sameens.dia.uned.es/Trabajos6/Trabajos_Publicos/Trab_3/Astillero%20Pinilla_3/Razon.htm