2. Organización de datos
Estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de
dato, de acuerdo a escalas de medidas, mediante tablas y mediante
representaciones gráficas.
1. Organización de datos de acuerdo al tipo
Como se ilustra en la figura existen dos tipos de datos: categóricos
(o cualitativos) y numéricos (cuantitativos).
3. 2. Organización de datos de acuerdo a escalas de medidas
Los datos también se pueden clasificar según la escala de medición o el
procedimiento que los generó. Cuatro tipos de escalas de medición usados
en estadística son las escalas nominal, ordinal, de intervalo y de razón.
Datos de nivel nominal
Un dato nominal se crea cuando se utilizan nombres para establecer categorías
con la condición de que cada dato pertenezca única y exclusivamente a una de
estas categorías.
Existen escalas nominales tanto para los datos numéricos como categóricos. Una
escala nominal para datos numéricos asigna números a las categorías.
Una escala nominal para datos categóricos es un agrupamiento no ordenado de
los datos en categorías discretas, donde cada dato puede incluirse solamente en
uno de los grupos.
4. Datos de nivel ordinal
Los datos medidos en una escala nominal ordenada de alguna
manera se denominan datos ordinales. Una escala ordinal coloca
las medidas en categorías, cada una de las cuales indica un nivel
distinto respecto a un atributo que se está midiendo. La lista de
datos ordinales comprende:
1. Clasificaciones por letra: A, B, C y D; estos grados indican
categorías de perfeccionamiento,
así como los niveles alcanzados.
2. Rangos académicos: Doctor, magister, especialista y
licenciado.
3. La evaluación de un maestro: insuficiente, aceptable, bueno y
excelente.
4. Los grados de la escuela: primero, segundo, tercero, etc.
5. Datos de nivel de intervalo
Los datos medidos en una escala ordinal para los cuales pueden
clasificarse las distancias entre valores, se llaman datos de
intervalos. La distancia entre dos valores es importante y los datos
de intervalo son numéricos por necesidad; una escala de intervalo
no siempre tiene un punto cero (es decir, un punto que indique la
ausencia de lo que se quiere medir). La lista de datos de intervalo
comprenden:
1. Puntajes en las pruebas de inteligencia.
2. Temperaturas Celsius.
3. Fechas.
6. Datos de nivel de razón
Los datos medidos en una escala de intervalo con un punto cero que significa
“ninguno”, se llaman datos de razón. Con datos medidos en una escala de razón,
podemos determinar cuántas veces es mayor una medida que otra. Las escalas de
razón incluyen salarios, unidades de producción, peso, altura, etc. El dinero nos da
una buena ilustración. Si usted tiene cero pesos, entonces, no tiene dinero. El peso
es otro ejemplo.
Si la aguja marca cero en la escala, entonces, hay una completa ausencia de peso
(sin importar si se utiliza distintas escalas de razón como kilogramos, gramos o
libras). Las escalas de razón también incluyen escalas usadas comúnmente para
medir unidades como pies, libras, centímetros, etc. Los resultados de contar
objetos también son datos de razón como, por ejemplo, diez peras es el doble que
cinco.
7. Análisis de datos
Proceso de transformación de datos para obtener información útil
1. Análisis cuantitativo
Es la técnica de análisis estadístico, que permite evaluar o examinar los
datos de forma numérica.
Existen varios pasos para realizar este proceso:
I. Depuración
II. Eliminación
III. Selección
IV. Aplicación
V. Interpretación
8. Confiabilidad o Fiabilidad
La fiabilidad de un instrumento se refiere a la capacidad para ofrecer los mismos
resultados, cuando se aplica otras veces en situaciones similares. Se
interpretan, como dice Bisquerra, como un coeficiente de correlación.
Para la estimación de la confiabilidad por consistencia interna existen una gran
variedad de métodos como por ejemplo : la confiabilidad por mitades y el
coeficiente alfa de Cronbach.
El coeficiente α fue propuesto en 1951 por Cronbach como un estadístico para
estimar la confiabilidad de una prueba, o de cualquier compuesto obtenido a
partir de la suma de varias mediciones. Este coeficiente estima el valor de la
correlación, al evaluar la consistencia interna del conjunto de ítems o partes del
compuesto; en este sentido, se corresponde con un coeficiente de equivalencia
(Lord, 1955) y, por lo tanto, estima la varianza que en los puntajes observados
corresponde a factores comunes de los diferentes ítems (Cronbach, 1951;
Cotton, Campbell & Malone, 1957; Streiner, 1993; Schmidt et al., 2003).
9. Como criterio general, George y Mallery sugieren las
recomendaciones siguientes para evaluar los coeficientes de alfa
de Cronbach:
Coeficiente alfa >.9 es excelente
Coeficiente alfa >.8 es bueno
Coeficiente alfa >.7 es aceptable
Coeficiente alfa >.6 es cuestionable
Coeficiente alfa >.5 es pobre
Coeficiente alfa <.5 es inaceptable
10. Validez
Grado en que el método cumple lo que se pretende que cumpla o mide
lo que se pretende que mida. Se trata, por lo tanto, de un requisito
necesario para la utilización de cualquier instrumento; diríamos más, la
validez es la garantía de que estamos recogiendo los elementos que
buscamos y no otros. En este sentido, se entiende por validez el grado
en que el instrumento refleja con exactitud el rasgo o dimensión que se
pretende medir.
11. Regresión lineal simple y correlación
El concepto de análisis de regresión se refiere a encontrar la mejor relación entre Y y x
cuantificando la fuerza de esa relación, y empleando métodos que permitan predecir los
valores de la respuesta dados los valores del regresor x. En muchas aplicaciones habrá
más de un regresor, es decir, más de una variable independiente que ayude a explicar a
Y.
Modelo de regresión lineal simple
En la cual β0 y β1 son los parámetros
desconocidos de la intersección y la pendiente,
respectivamente, y ɛ es una variable aleatoria
que se supone está distribuida con E(ɛ) = 0 y
Var(ɛ) = σ2. Es frecuente que a la cantidad σ2 se le
denomine varianza del error o varianza residual.
En el modelo anterior hay varias cuestiones
evidentes. La cantidad Y es una variable
aleatoria, ya que ɛ es aleatoria. El valor x de la
variable regresora no es aleatorio y, de hecho, se
mide con un error despreciable. La cantidad ɛ,
que a menudo recibe el nombre de error
aleatorio o alteración aleatoria, tiene varianza
constante
12. COVARIANZAY COEFICIENTE DE CORRELACION
Supongamos que X y Y son un par de variables aleatorias dependientes, Seria
deseable disponer, en tal caso, de una medida para la naturaleza de la relación
entre ellas. Esto es difícil de conseguir, puesto que pueden estar relacionadas de
maneras muy distintas (por ejemplo, lineal, cuadrática, exponencial, etc.) Para
simplificar, limitaremos nuestra atención a la posibilidad de una relación lineal.
Sea X,Y dos variables aleatorias cualesquiera con varianzas finitas
a) −1 ≤ 𝐶𝑜𝑟𝑟(𝑋, 𝑌) ≤ 1
b) Si X,Y son independientes, entonces el reciproco no es cierto.
c) Para fines descriptivos, la relación se propone como
fuerte si 𝐶𝑜𝑟𝑟(𝑋, 𝑌 ≥ 0,8
moderada si 0,5< 𝐶𝑜𝑟𝑟(𝑋, 𝑌) < 0,8 y
débil si 𝐶𝑜𝑟𝑟(𝑋, 𝑌 < 0,5
𝐶𝑜𝑟𝑟 𝑋, 𝑌 = 0,
13. Coeficiente de determinación
El coeficiente de correlación representa la proporción de la
variación explicada por el modelo de regresión, es decir, 𝑟2.
Expresa la proporción de la variación total en los valores de la
variable Y que pueden explicar mediante la relación lineal con
los valores de la variable aleatoria X.
15. Conceptos de la prueba de hipótesis
1. Hipótesis estadísticas.
a) HIPÓTESIS ESTADÍSTICA: afirmación sobre uno o más parámetros de una o más
poblaciones.
b) LA HIPÓTESIS NULA H0: la hipótesis que se debe comprobar.
c) LA HIPÓTESIS ALTERNATIVA H1: se establece como el “complemento” de H0.
2. Comentarios.
a) H0 siempre se refiere a un valor específico del parámetro de población (como, por
ejemplo, μ), no al estadístico muestral (como 𝑋).
b) H0 siempre debe contener un signo igual respecto al valor especificado del parámetro
poblacional (por ejemplo, H0 : μ = 36, H0 : μ ≤ 36 o H0 : μ ≥ 36).
c) H1 nunca debe contener un signo igual respecto al valor especificado de parámetro de
población (por ejemplo, H1 : μ ≠ 36, H1 : μ < 36 o H1 : μ > 36).
Decisión sobre 𝐻0 𝐻0 es verdadera 𝐻0 es falsa
No se rechaza 𝐻0
Decisión correcta
1 − 𝛼 se llama grado de confianza
Error de tipo II
Probabilidad = β
Rechazar 𝐻0
Error de tipo I
α se llama nivel de significancia
Decisión correcta
1 – β se llama potencia
3. Errores de tipo I y de tipo II.
16. 4. Estadístico de prueba y región crítica.
Un estadístico de prueba es un estadístico (es decir, una función que sólo depende de la
información muestral) que se utiliza para determinar si se rechaza, o no, la hipótesis nula.
La región crítica es el conjunto de todos los valores del estadístico de prueba para los
cuales la hipótesis nula será rechazada.
Entonces, la hipótesis nula será rechazada si y sólo si el valor observado o calculado del
estadístico de prueba se ubica en la región de rechazo.
5. Valor P o p-valor.
El p-valor o valor p es el mínimo nivel de significancia bajo la cual H0 es rechazada.
Tenemos que
a) P-valor ≤ α Rechazar 𝐻0 al nivel α.
b) P-valor > α No rechazar 𝐻0 al nivel α.
Cola izquierda Dos colas Cola derecha
17. 6. Comentarios acerca de los términos “no rechazar” y “rechazar”.
Al “no rechazar” una hipótesis nula, no estamos asegurando necesariamente que
haya mucho en su favor. Una afirmación más precisa, aunque más pedante, sobre
la situación puede ser “los datos disponibles no proporcionan suficiente evidencia
para rechazar la hipótesis nula, dado que queremos fijar en la probabilidad de
rechazar una hipótesis nula que es cierta”.
Por esta razón, algunos autores prefieren la frase “no se rechaza la hipótesis nula”
en lugar de “se acepta la hipótesis nula”.
La situación es muy similar a la de un tribunal de justicia, donde el acusado, al
principio, goza de la presunción de inocencia, y la acusación debe presentar
evidencia contraria lo suficientemente clara como para conseguir un veredicto de
culpabilidad.
En el contexto de la prueba de hipótesis clásica, la hipótesis nula se considera
cierta inicialmente. La tarea de persuadirnos de lo contrario corresponde a los
datos de la muestra.