SlideShare una empresa de Scribd logo
1 de 55
Descargar para leer sin conexión
Dr. Ing. Oscar Rafael Guillen Valle PhD.
Mail :ingraguiva@gmail.com móviles 990573292 – 992505092 fijo (00511) 2615918
Empresa Ando Educando S.A.C.
Jr. Ayacucho 443 Apart. 101 Block A – Magdalena del Mar - Referencia 30 y 31 Av. Brazil
PRUEBAS ESTADISTICAS
Principios básicos
Dr. Ing. Oscar Rafael Guillen Valle PhD.
Mail :ingraguiva@gmail.com móviles 990573292 – 992505092 fijo (00511) 2615918
Doctor of Philosophy in Education, PhD
de la Cambridge International
University, Doctorado en Educación de
la Universidad Alas Peruanas,
Candidato a Doctorado en Educación
de la Universidad José Carlos
Mariátegui – Moquegua.
Master of Arts in Management and
Strategic Management and Education
M.A. de la Cambridge International University, Maestría en Docencia Universitaria y Gestión
Educativa de la Universidad Alas Peruanas y Maestría en Gestión de la Calidad en Instituciones
Educativas de la Universidad Privada Norbert Wiener
Ingeniero Químico de la Universidad Nacional del Callao, premiado Doctor Honoris Causa en
Investigación Científica en Ciencias de la Educación Superior por la Universidad de los Pueblos de
Europa, Doctor Honoris Causa en Educacion por The National University of Criminal and Security
Sciences – NUCSS, Premiación Internacional por la Escuela de Enfermería del Valle del Cauca –
Colombia. Honoris Causa por el Frente nacional AFROCOLOMBIANO CARMO.
Empresa Ando Educando SAC.
Jr. Ayacucho 443 Apart. 101 Block A – Magdalena del Mar - Referencia 30 y 31 Av. Brazil
Móviles (051)992505092 (051)990573292 Fijo (0511) 2615918
Contenido
PRUEBAS PARAMETRICAS...................................................................................................................4
PRUEBA DE ALFA DE CRONBACH....................................................................................................4
Contexto.....................................................................................................................................................4
Formulación...............................................................................................................................................5
A partir de las varianzas.....................................................................................................................5
A partir de las correlaciones entre los ítems ................................................................................5
Interpretación de la formulación.........................................................................................................5
Interpretación ...........................................................................................................................................6
Condiciones para hacer Alpha..............................................................................................................6
Análisis........................................................................................................................................................ 7
PRUEBA DE NORMALIDAD .................................................................................................................. 7
PRUEBA DE HOMOCEDASTICIDAD .................................................................................................8
Causas frecuentes de ausencia de homocedasticidad....................................................................9
Variables independientes que posean un gran recorrido con respecto a su propia media
...................................................................................................................................................................9
Omisión de variables importantes dentro del modelo a estimar............................................9
Cambio de estructura .........................................................................................................................9
Utilizar variables no relativizadas..................................................................................................9
Estimar en presencia de heterocedasticidad....................................................................................9
Cálculo incorrecto de las varianza y parámetros ineficientes.................................................9
Invalidación de los contrastes de significancia ......................................................................... 10
PRUEBAS PARAMETRICAS..................................................................................................................11
PRUEBA DE T DE STUDENT.................................................................................................................11
Desapareada..........................................................................................................................................13
Apareada................................................................................................................................................13
Cálculos ................................................................................................................................................ 14
Prueba t para muestra única ............................................................................................................... 14
Pendiente de una regresión lineal.................................................................................................. 14
Prueba t para dos muestras independientes ...............................................................................15
Prueba t dependiente para muestras apareadas.........................................................................17
Prueba T2 monomuestral .................................................................................................................18
Prueba T2 bimuestral.........................................................................................................................18
PRUEBA DE ANOVA CON UN FACTOR .........................................................................................18
Introducción.............................................................................................................................................18
Visión genera.......................................................................................................................................20
Supuestos previos.............................................................................................................................. 21
Tipos de modelo...................................................................................................................................... 21
Modelo I: Efectos fijos ...................................................................................................................... 21
Modelo II: Efectos aleatorios (componentes de varianza)..................................................... 21
Grados de libertad..................................................................................................................................22
Pruebas de significación.......................................................................................................................22
Tablas ANOVA.......................................................................................................................................22
PRUEBA DE CORRELACION DE R DE PEARSON......................................................................23
Definición .................................................................................................................................................23
PRUEBAS NO PARAMETRICAS.........................................................................................................25
PRUEBA DE X2 BONDAD DE AJUSTE..............................................................................................26
PRUEBA DE U MANN WITHNEY .....................................................................................................27
Planteamiento de la prueba.................................................................................................................27
Cálculo del estadístico..........................................................................................................................27
Distribución del estadístico[editar] .................................................................................................28
PRUEBA DE KRUSKAL WALLIS........................................................................................................28
Método......................................................................................................................................................28
PRUEBA DE WILCONXON..................................................................................................................29
Planteamiento .........................................................................................................................................29
Suposiciones............................................................................................................................................30
Método......................................................................................................................................................30
PRUEBA DE Q DE COCHRAM............................................................................................................30
Antecedentes...........................................................................................................................................30
Región crítica ...........................................................................................................................................31
Supuestos..................................................................................................................................................32
Pruebas relacionadas.............................................................................................................................32
PRUEBA DE MC NEMAR ......................................................................................................................32
PRUEBA DE FRIEDMAN .......................................................................................................................34
Método......................................................................................................................................................34
PRUEBA DE SPEARMAN.......................................................................................................................35
Determinando la significación estadística......................................................................................35
PRUEBA BINOIMIAL ..............................................................................................................................36
Experimento binomial..........................................................................................................................37
Características analíticas.....................................................................................................................37
Ejemplo.................................................................................................................................................37
Propiedades..............................................................................................................................................37
Relaciones con otras variables aleatorias........................................................................................38
Propiedades reproductivas..................................................................................................................38
PRUEBA ANDERSON - DARLING.....................................................................................................38
PRUEBA DE COHEN KAPPA ...............................................................................................................39
Cálculo ......................................................................................................................................................39
PRUEBA DE FISHER............................................................................................................................... 40
PRUEBA DE KENDALL........................................................................................................................... 41
En pruebas estadísticas ........................................................................................................................ 41
Fórmula para el cálculo ........................................................................................................................ 41
Pasos........................................................................................................................................................... 41
Importancia..............................................................................................................................................42
PRUEBA DE KOLMOGOROV - SMIRNOV.....................................................................................42
Estadístico................................................................................................................................................42
PRUEBA DE KUIPER...............................................................................................................................42
PRUEBA DE MEDIANA..........................................................................................................................43
PRUEBA DE SPEARMAN.......................................................................................................................43
Determinando la significación estadístic ....................................................................................... 44
TABLAS DE CONTIGENCIA.................................................................................................................45
Estudio de diferencia de proporciones.............................................................................................46
TABLAS DE WALD - WOLFOWITZ.................................................................................................46
Dr. Ing. Oscar Rafael Guillen Valle PhD.
Mail :ingraguiva@gmail.com móviles 990573292 – 992505092 fijo (00511) 2615918
USO ESTADISTICO DE PRUEBAS USANDO EL SPSS
Fuente: Guía de Estadística para la formación de investigadores - Dr. Oscar Rafael Guillen Valle PhD. Pag. 15
TIPO DE
INVESTIGACION
VARIABLES
GRUPO
MUESTRAL
PROBLEMA OBJETIVOS DISENO
SPSS 22
ESTADISTICOS
DESCRIPTIVOS 1 O MAS 1 O MAS DESCRIPTIVO
DESCRIPTIVO O
PUEDE
OBVIARSE
DESCRIPTIVO
 MEDIDAS DE TENDENCIA CENTRAL
 MEDIDA DE ANALISIS DE
FRECUENCIA
DESCRIPTIVA
COMPARATIVA
1 O MAS 2 O MAS COMPARATIVO COMPARATIVO
DESCRIPTIVO
COMPARATIVO
 T DE STUDENT
 U DE MANN WHITNEY
 Z DE COMPARACION DE
PROPORCIONES
 ANOVA
 H. DE KRUSKAL WALLIS
DESCRIPTIVA
COMPARATIVA
2 O MAS 1 CORRELACIONAL CORRELACIONAL
DESCRIPTIVO
CORRELACIONAL
 R DE PEARSON
 RHO DE SPERAMAN
 CHI CUADRADO
EXPERIMENTAL 2 O MAS 2 O MAS
CAUSAL O
EXPLICATIVO
CAUSAL O
EXPLICATIVO
DISENOS
EXPERIMENTALES
O DIVERSOS
 T DE STUDENT
 U DE MANN WHITNY
 Z DE CONPARACION DE
PROPORCIONES
 ANOVA
 H DE KRUSKAL WALLIS
CAUSAL
COMPARATIVO
2 O MAS 2 O MAS CAUSAL CAUSAL
EX POST FACTO
CAUSAL
COMPARATIVO
 T DE STUDENT
 U DE MANN WHITNY
 Z DE CONPARACION DE
PROPORCIONES
 ANOVA
 H DE KRUSKAL WALLIS
CORRELACION
CAUSAL
2 O MAS 1 CAUSAL CAUSAL
EX POST FACTO
CORRELACIONAL
CAUSAL
 CORRELACION CANONICA
 MODELO DE ECUACIONES
ESTRUCTURALES
Dr. Ing. Oscar Rafael Guillen Valle PhD.
Mail :ingraguiva@gmail.com móviles 990573292 – 992505092 fijo (00511) 2615918
Para iniciar a leer esta guía debemos de recordar las siguientes definiciones:
Contraste de hipótesis: Test de hipótesis
Correlación: Medida de la relación existente entre dos variables. Su valor está comprendido
entre –1 y 1. Si es negativo la relación entre las variables es inversa, es decir, a medida que
aumentan los valores de una decrecen los de la otra. Si es positivo la asociación es directa,
es decir, los valores de una variable aumentan con la otra. Un valor de cero indica ausencia
de relación. Cuando las variables son continuas y tienen una relación lineal, el coeficiente de
correlación lineal de Pearson es una medida de asociación adecuada. Cuando las variables no
son continuas se utilizan otros coeficientes de correlación.
Desviación típica: Valor mayor o igual a cero que mide la dispersión de una característica
de los individuos alrededor de la media del grupo. Los sujetos serán más parecidos u
homogéneos entre sí cuanto más próxima a cero esté la desviación típica. Su unidad de
medida coincide con la unidad de medida de la variable original. Es la raíz cuadrada de la
varianza.
Diseño de experimentos: Método estadístico cuyo objetivo es estudiar cómo cambian los
valores de una variable respuesta cuando se modifican los valores de una o varias variables
independientes, denominadas factores experimentales. Un experimento bien diseñado puede
ser el punto de partida para establecer relaciones causales entre las variables estudiadas.
Estadística: Ciencia que estudia los fenómenos aleatorios. Es un área de conocimiento
específico de las Matemáticas que comenzó a desarrollarse a mediados del siglo XVII. Sus
técnicas permiten resumir grandes cantidades de información, estudiar la relación entre
variables, investigar la causa de algunos sucesos o predecir la evolución de un fenómeno en
el tiempo y en el espacio, entre otras cosas.
Estimador: Valor numérico extraído de las observaciones de una muestra que se aproxima
en mayor o menor medida al parámetro de la población sobre el que se quiere investigar. Así,
la edad media de un grupo de individuos elegidos aleatoriamente de una población es un
estimador de la verdadera edad media de la población.
Error alfa (α): Valor comprendido entre 0 y 1 que mide cuánto se equivoca el investigador
al aceptar como verdadera la hipótesis alternativa de un test de hipótesis. Cuanto más
próximo a cero esté, menor será el riesgo de establecer hipótesis falsas en la población de
estudio. Su valor se fija a priori, antes de comenzar la investigación, para conocer el número
de individuos necesario para llevar a cabo el estudio. Cuanto más pequeño sea el error alfa
mayor será el tamaño de la muestra y, por tanto, más precisos serán los resultados.
Habitualmente este error se fija en 0.05, aunque puede variar dependiendo del tipo de
investigación.
Error beta (β): Valor comprendido entre 0 y 1 que mide cuánto se equivoca el investigador
al aceptar como verdadera la hipótesis nula de un test de hipótesis. Cuanto más próximo a
cero esté, menor será el riesgo de establecer hipótesis falsas en la población de estudio. Su
valor se fija a priori, antes de comenzar la investigación, para conocer el número de
individuos necesario para llevar a cabo el estudio. Cuanto más pequeño sea el error beta
mayor será el tamaño de la muestra y, por tanto, más precisos serán los resultados.
Habitualmente este error se fija en 0.20, aunque puede variar dependiendo del tipo de
investigación.
Error estándar: Variabilidad del estimador cuando se obtiene a partir de muestras
diferentes, resultando un valor distinto en cada muestra. El error estándar siempre es mayor
que cero. Cuanto más pequeño sea mayor es la precisión de la estimación realizada.
Especificidad: Probabilidad de que una prueba diagnóstica proporcione un resultado
negativo cuando el sujeto no está afectado por la enfermedad investigada. Lo ideal es que
esta probabilidad sea 1 siempre que la prueba diagnóstica se aplique en el grupo de población
libre de enfermedad. Sin embargo, no siempre es así. Cualquier prueba puede fallar
mostrando un resultado positivo en un individuo sano. La especificidad es, por tanto, la
capacidad de la prueba diagnóstica para detectar la ausencia de la enfermedad estudiada.
Falso negativo: Probabilidad de que una prueba diagnóstica proporcione un resultado
negativo cuando el sujeto realmente tiene la enfermedad investigada. Es el valor
complementario a la sensibilidad.
Falso positivo: Probabilidad de que una prueba diagnóstica proporcione un resultado
positivo cuando el sujeto no está afectado por la enfermedad investigada. Es el valor
complementario a la especificidad.
Hipótesis nula: Afirmación establecida por el investigador sobre la población de estudio
cuando realiza un test o contraste de hipótesis. Esta hipótesis siempre se asume verdadera a
menos que los datos de la muestra proporcionen evidencia de lo contrario. Se suele formular
mediante una negación o una igualdad. Así, la hipótesis nula de un estudio sobre cirrosis
hepática puede establecer que no existe relación entre el consumo habitual de alcohol y la
cirrosis o, de forma equivalente, que el porcentaje de personas con cirrosis es igual en
bebedores y no bebedores.
Hipótesis alternativa: Aseveración opuesta a la hipótesis nula en un test o contraste de
hipótesis. Así, la hipótesis alternativa de un estudio sobre cirrosis hepática puede establecer
que existe relación entre el consumo habitual de alcohol y la cirrosis o, de forma equivalente,
que el porcentaje de personas con cirrosis es diferente en bebedores y no bebedores.
Inferencia estadística: Procedimiento que permiten extrapolar o generalizar a la población
los resultados obtenidos en el análisis de una muestra. Las técnicas utilizadas para ello
incluyen los intervalos de confianza y los tests de hipótesis.
Intervalo de confianza: Rango de valores que, con una cierta confianza, contiene al
parámetro poblacional que se pretende conocer. El intervalo de confianza se construye a
partir de la información de la muestra y es una de las herramientas utilizadas para extrapolar
los resultados a la población.
Media: Valor numérico en torno al cual se sitúan los valores de una característica de los
individuos. Es un representante del grupo de sujetos analizado.
Muestra: Grupo de individuos extraídos aleatoriamente de la población de estudio. La
información proporcionada por estos sujetos se almacena en una base de datos para analizarla
posteriormente. Los resultados obtenidos en este análisis son una aproximación a lo que
realmente ocurre en toda la población. La inferencia estadística permite extrapolar los
resultados de la muestra a la población y conocer el error cometido en estas estimaciones.
Nivel de confianza (1-α): Probabilidad de que el intervalo de confianza obtenido a partir de
los datos de la muestra contenga al parámetro de la población que se pretende estimar.
Aunque puede tomar cualquier valor entre 0 y 1, el más usual es 0.95 (95%).
Nivel de significación (α): Error alfa.
Población: Todos los individuos sobre los que se desea realizar una investigación o estudio.
Cuando la información necesaria para el estudio ha sido extraída de todos y cada uno de los
individuos de la población se habla de censo de población. Si por el contrario no es posible
acceder a todos los sujetos por falta de recursos se procede a tomar una muestra aleatoria de
la población de estudio.
Potencia (1-β): Valor comprendido entre 0 y 1 complementario al error beta. Mide el grado
de acierto del investigador cuando acepta como verdadera la hipótesis nula de un test de
hipótesis. Su valor se fija a priori, antes de comenzar la investigación, para conocer el número
de individuos necesario para llevar a cabo el estudio. Cuanto mayor sea la potencia, mayor
será el tamaño de la muestra y, por tanto, más precisos serán los resultados obtenidos.
Habitualmente este error se fija en 0.80, aunque puede variar dependiendo del tipo de
investigación.
Probabilidad: Medida adimensional que cuantifica la ocurrencia de los fenómenos
producidos por azar. Sus valores son números comprendidos entre 0 y 1. Cuando la
probabilidad es cero, el suceso no ocurrirá nunca. Si la probabilidad es uno, ocurrirá con total
certeza. Los valores intermedios miden el gradiente de certidumbre.
Prueba diagnóstica: Procedimiento destinado a detectar la presencia o ausencia de una
enfermedad en el individuo. Su capacidad de discriminación está determinada por la
sensibilidad y la especificidad, características propias de cada prueba o test diagnóstico.
Regresión: Técnicas estadísticas que permiten determinar la ecuación matemática que
relaciona un efecto (variable dependiente o respuesta) con una o varias causas (variables
independientes o predictoras).
Sensibilidad: Probabilidad de que una prueba diagnóstica proporcione un resultado positivo
cuando el sujeto tiene realmente la enfermedad. Lo ideal es que esta probabilidad sea 1
siempre que la prueba diagnóstica se aplique en el grupo de población afectado por la
enfermedad. Sin embargo, no siempre es así. Cualquier prueba puede fallar mostrando un
resultado negativo en un individuo enfermo. La sensibilidad es, por tanto, la capacidad de la
prueba diagnóstica para detectar la presencia de la enfermedad estudiada.
Tamaño de muestra: Número de sujetos necesario para llevar a cabo una investigación, de
manera que los resultados obtenidos a partir de ellos se aproximen a los resultados que se
hubieran obtenido al estudiar a toda la población. El error cometido en esa extrapolación de
resultados es conocido y prefijado antes de comenzar la investigación. El tamaño de muestra
será mayor cuanto más pequeño sea el error que se desee cometer.
Test de hipótesis: Técnica estadística utilizada para decidir si una afirmación establecida por
el investigador sobre la población de estudio es compatible con los resultados observados en
una muestra. Cualquier test de hipótesis se compone de una hipótesis nula, formulada en
términos de igualdad o negación, y una hipótesis alternativa.
Test diagnóstico: Prueba diagnóstica
Valor P: Valor comprendido entre 0 y 1 que mide el grado de acuerdo entre la información
que proporciona la muestra y la hipótesis nula del test de hipótesis. Cuanto más próximo a
cero esté, menor será el acuerdo entre ambas. Así, la hipótesis nula será rechazada en favor
de la alternativa siempre que el Valor P sea muy pequeño, inferior al nivel de significación
preestablecido.
Valor predictivo negativo: Probabilidad de que un individuo no padezca la enfermedad
cuando la prueba diagnóstica aplicada proporcione un resultado negativo. Este valor depende
tanto de la especificidad y de la proporción de falsos negativos de la prueba como del número
de personas enfermas registrado en la población a la que pertenece el individuo. Por este
motivo, el valor predictivo negativo puede ser diferente dependiendo del país o región en que
se calcule, aún utilizando la misma prueba diagnóstica.
Valor predictivo positivo: Probabilidad de que un individuo padezca la enfermedad cuando
la prueba diagnóstica aplicada proporcione un resultado positivo. Este valor depende tanto
de la sensibilidad y de la proporción de falsos positivos de la prueba como del número de
personas enfermas registrado en la población a la que pertenece el individuo. Por este motivo,
el valor predictivo positivo puede ser diferente dependiendo del país o región en que se
calcule, aún utilizando la misma prueba diagnóstica.
Variable: Cualquier característica de los individuos que componen la muestra que toma un
valor diferente para cada uno de ellos. La edad y el sexo son variables habituales en muchas
investigaciones.
Variable cualitativa: Característica que recoge una cualidad de los individuos de la muestra.
Una variable cualitativa no puede medirse con un instrumento ni lleva asociada una unidad
de medida. La gravedad de un accidente es una variable cualitativa ordinal, ya que registra
una cualidad que pueden ordenarse de forma natural de menor a mayor severidad. El sexo,
en cambio, es una variable cualitativa nominal porque sus categorías, masculino y femenino,
no tienen un orden natural preestablecido.
Variable cuantitativa: Característica de los individuos de la muestra que puede medirse con
un instrumento y lleva asociada una unidad de medida. El peso es una variable cuantitativa,
ya que puede medirse con una báscula y su unidad de medida es el gramo. Además, esta
variable es continua, ya que el valor del peso asignado a cada individuo puede tener tantos
decimales como admita la precisión de la báscula. Otras variables cuantitativas, como el
número de hijos, se denominan discretas porque sus valores solo pueden ser números enteros,
sin decimales.
Varianza: Valor mayor o igual a cero que mide la dispersión de una característica de los
individuos alrededor de la media del grupo. Los sujetos serán más parecidos u homogéneos
entre sí cuanto más próxima a cero esté la varianza. Su unidad de medida es la unidad de
medida de la variable original elevada al cuadrado. Su valor coincide con el cuadrado de la
desviación típica.
PRUEBAS PARAMETRICAS
La estadística paramétrica es una rama de la estadística inferencial que comprende los
procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos
reales. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo,
si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos
cuál es la media y la desviación de dicha normal. La media y la desviación típica de la
desviación normal son los dos parámetros que queremos estimar. Cuando desconocemos
totalmente que distribución siguen nuestros datos entonces deberemos aplicar primero un test
no paramétrico, que nos ayude a conocer primero la distribución.
La mayoría de procedimientos paramétricos requiere conocer la forma de distribución para
las mediciones resultantes de la población estudiada. Para la inferencia paramétrica es
requerida como mínimo una escala de intervalo, esto quiere decir que nuestros datos deben
tener un orden y una numeración del intervalo. Es decir nuestros datos pueden estar
categorizados en: menores de 20 años, de 20 a 40 años, de 40 a 60, de 60 a 80, etc, ya que
hay números con los cuales realizar cálculos estadísticos. Sin embargo, datos categorizados
en: niños, jóvenes, adultos y ancianos no pueden ser interpretados mediante la estadística
paramétrica ya que no se puede hallar un parámetro numérico (como por ejemplo la media
de edad) cuando los datos no son numéricos.
PRUEBA DE ALFA DE CRONBACH
En psicometría, el Alfa de Cronbach es un coeficiente que sirve para medir la fiabilidad de
una escala de medida, y cuya denominación Alfa fue realizada porCronbach en 1951, aunque
sus orígenes se encuentran en los trabajos de Hoyt (1941) y de Guttman (1945).
Contexto
Un investigador trata de medir una cualidad no directamente observable (por ejemplo, la
inteligencia) en una población de sujetos. Para ello mide n variables que sí son observables
(por ejemplo, n respuestas a un cuestionario o un conjunto de n problemas lógicos) de cada
uno de los sujetos.
Se supone que las variables están relacionadas con la magnitud inobservable de interés. En
particular, las n variables deberían realizar mediciones estables y consistentes, con un
elevado nivel de correlación entre ellas.
El alfa de Cronbach permite cuantificar el nivel de fiabilidad de una escala de medida para
la magnitud inobservable construida a partir de las n variables observadas.
Formulación
El alfa de Cronbach no deja de ser una media ponderada de las correlaciones entre las
variables (o ítems) que forman parte de la escala. Puede calcularse de dos formas: a partir de
las varianzas (alpha de Cronbach) o de las correlaciones de los ítems (Alpha de Cronbach
estandarizado). Hay que advertir que ambas fórmulas son versiones de la misma y que pueden
deducirse la una de la otra. El alpha de Cronbach y el alpha de Cronbach estandarizados,
coinciden cuando se estandarizan las variables originales (items).
A partir de las varianzas
A partir de las varianzas, el alfa de Cronbach se calcula así:
donde
 es la varianza del ítem i,
 es la varianza de los valores totales observados y
 es el número de preguntas o ítems.
A partir de las correlaciones entre los ítems
A partir de las correlaciones entre los ítems, el alfa de Cronbach estandarizado se calcula así:
donde
 es el número de items
 es el promedio de las correlaciones lineales entre cada uno de los ítems (se
tendrán pares de correlaciones).
Interpretación de la formulación
Lo deseable para crear una escala fiable es que los ítems estén muy correlacionados entre sí.
El nivel máximo de correlación se alcanza cuando los ítems son todos iguales.
En tal caso, por las propiedades de la varianza, y , por lo que
el valor del alfa es, simplificando, igual a 1.
Si los ítems fuesen independientes entre sí (por lo que no podrían constituir conjuntamente
una escala fiable), entonces se tendría que y el valor de alfa sería 0.
Hay que advertir que el alfa de Cronbach puede llegar a alcanzar valores negativos de existir
parejas de ítems negativamente correlacionados.
Interpretación
El alfa de Cronbach no es un estadístico al uso, por lo que no viene acompañado de ningún p-
valor que permita rechazar la hipótesis de fiabilidad en la escala. No obstante, cuanto más se
aproxime a su valor máximo, 1, mayor es la fiabilidad de la escala. Además, en determinados
contextos y por tácito convenio, se considera que valores del alfa superiores a 0,7 o 0,8
(dependiendo de la fuente) son suficientes para garantizar la fiabilidad de la escala..
Condiciones para hacer Alpha
Este alfa siempre se hará por escalas de tal manera que, a modo de ejemplo, en el test STAI
de ansiedad rasgo y ansiedad estado publicado por TEA, se llevarían a cabo dos índices de
consistencia (el alfa correspondiente a ansiedad rasgo y el alfa correspondiente a ansiedad
estado). Ahora bien, para poder calcular la fiabilidad de un test, este debe cumplir con dos
requisitos previos:
1. Estar formado por un conjunto de ítems que se combinan aditivamente para hallar una
puntuación global (esto es, la puntuaciones se suman y dan un total que es el que se
interpreta).
2. Todos los ítems miden la característica deseada en la misma dirección. Es decir, los ítems
de cada una de las escalas tienen el mismo sentido de respuesta (a mayor puntuación, más
ansiedad, por ejemplo; este sentido de respuesta viene especificado en el manual del test).
A modo de ejemplo, ocurre que cuando se redacta un test con respuestas
tipo Likert (pongamos 0=nada a 3=mucho), se observan ítems de la siguiente forma:
-"Me siento calmado" → contestar con 3 significaría poca ansiedad (a más puntuación,
menos ansiedad).
-"Me siento tenso" → contestar con 3 significaría mucha ansiedad (a más puntuación, más
ansiedad).
El segundo ítem es el que se corresponde con el sentido de respuesta especificado en el
manual, pero como el primero no cumple esa relación, deberá ser invertido para que el test
así tenga todos los ítems con el mismo sentido y se pueda, pues, calcular el índice de
consistencia o Alfa de Cronbach. (Este proceso de cambio de sentido se llevaría a cabo, en
el SPSS, programa estadístico más popular entre los psicólogos, mediante una recodificación
de datos).
Análisis
Para el análisis de resultados, se recomienda lanzar los estadísticos. Al hacerlo, obtendremos
dos tipos de resultados: los estadísticos de los ítems y de la escala y los estadísticos de los
ítems en relación con el valor total. Estas dos tablas de resultados serán fundamentales para
la interpretación y posible reformulación del test. Para ello es necesario explicar dos
conceptos:
a. Coeficiente de correlación lineal: Mide el grado y la dirección de la asociación lineal
entre dos variables cuantitativas.
b. Correlación Item-Total: Esta correlación es de gran relevancia porque indica la
correlación lineal entre el ítem y el puntaje total (sin considerar el item en evaluación)
obtenido por los jueces indicando la magnitud y dirección de esta relación. Los estudios
empíricos de Borg (1963) que consideran tamaños muestrales iguales o mayores que 100,
mostraron que las correlaciones iguales o mayores que .35 suelen ser estadísticamente
significativas al 1% (Cohen & Manion, 2002). Una baja correlación entre el ítem y el puntaje
total puede deberse a diversas causas, ya sea de mala redacción del ítem o que el mismo no
sirve para medir lo que se desea medir.
PRUEBA DE NORMALIDAD
En estadística, el Test de Shapiro–Wilk se usa para contrastar la normalidad de un conjunto
de datos. Se plantea como hipótesis nula que una muestra x1, ..., xnproviene de una población
normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk.1
Se
considera uno de los test más potentes para el contraste de normalidad, sobre todo para
muestras pequeñas (n<30).
El estadístico del test es:
donde
 x(i) (con el subíndice i entre paréntesis) es el número que ocupa la i-ésima posición
en la muestra;
 = (x1 + ... + xn) / n es la media muestral;
 las variables ai se calculan2
donde
siendo m1, ..., mn son los valores medios del estadístico ordenado, de variables
aleatorias independientes e identicamente distribuidas, muestreadas de distribuciones
normales. V es la matriz de covarianzas de ese estadístico de orden.
La hipótesis nula se rechazará si W es demasiado pequeño.3
Interpretación: Siendo la hipótesis nula que la población está distribuida normalmente, si
el p-valor es menor a alfa (nivel de confianza) entonces la hipótesis nula es rechazada (se
concluye que los datos no vienen de una distribución normal). Si el p-valor es mayor a alfa,
no se rechaza la hipótesis y se concluye que los datos siguen una distribución normal.
PRUEBA DE HOMOCEDASTICIDAD
En estadísticas se dice que un modelo predictivo presenta homocedasticidad cuando
la varianza del error de la variable endógena se mantiene a lo largo de las observaciones. En
otras palabras, la varianza de los errores es constante.
Un modelo estadístico relaciona el valor de una variable a predecir con el de otras. Si el
modelo es insesgado, el valor predicho es la media de la variable a predecir. En cualquier
caso, el modelo da una idea del valor que tomará la variable a prededir.
Por simplificar de análisis, si se supone que la variable a predecir es escalar, aquí definida
como , y que se explica mediante un conjunto de variables que se agregan en el vector .
El valor predicho por el modelo se representará por . El error cometido por el
modelo viene dado, entonces, por:
Este error es una variable aleatoria: tomará un valor distinto cada vez que se ejecute el
modelo. Se habla dehomocedasticidad si el error cometido por el modelo tiene siempre
la misma varianza. En particular, si el modelo es homocedástico, el valor de las variables
explicativas, , no afectará a la varianza del error.
La homocedasticidad es una propiedad fundamental del modelo de regresión
lineal general y está dentro de sus supuestos clásicos básicos.
Formalizando, se dice que existe homocedasticidad cuando la varianza de los errores
estocásticos de la regresión es la misma para cada observación i (de 1 a n observaciones),
es decir:
donde es un escalar constante para todo i. Lo que significaría que habría una
distribución de probabilidad de idéntica amplitud para cada variable aleatoria.
Esta cualidad es necesaria, según el Teorema de Gauss-Márkov, para que en un modelo
los coeficientes estimados sean los mejores o eficientes, lineales e insesgados.
Cuando no se cumple esta situación, se dice que existe heterocedasticidad, que es cuando
la varianza de cada término de perturbación no es un número constante .
Este fenómeno suele ser muy común en datos de Corte Transversal y también se
presenta, menos frecuentemente, en series de tiempo.
Si se regresiona un modelo a través de Mínimos Cuadrados Ordinarios con presencia de
heterocedasticidad, los coeficientes siguen siendo lineales e insesgados pero ya no
poseen mínima varianza (eficiencia).
Causas frecuentes de ausencia de homocedasticidad
Variables independientes que posean un gran recorrido con respecto a su propia
media
Esto generalmente ocurre cuando se ha dispuesto arbitrariamente el orden de las
observaciones, generando, casualmente que existan observaciones con grandes valores en
una determinada variable explicativa y lo mismo con valores pequeños de esta misma
variable.
Omisión de variables importantes dentro del modelo a estimar
Obviamente, si se omite una variable de relevancia en la especificación, tal variable quedará
parcialmente recogida dentro de las perturbaciones aleatorias, introduciendo en estas su
propia variación, que no será necesariamente fija.
Cambio de estructura
El hecho de que se produzca un cambio en la estructura determina un mal ajuste de los
parámetros al conjunto de los datos muestrales. Y este no tiene porque influir del mismo
modo en todo el recorrido de la muestra, pudiendo producir cuantías de desajuste del
modelo diferentes y, por lo tanto, varianza no constante
Utilizar variables no relativizadas
Cuando existen observaciones dentro de una variable en concreto, y que poseen un valor
mayor a las otras variables explicativas, puede originar valores del error diferentes. Esta
situación es similar a la explicada al principio pero con la salvedad que en este caso se
compara con las otras variables (inclusive con la dependiente) y no con respecto a su media.
Estimar en presencia de heterocedasticidad
Cálculo incorrecto de las varianza y parámetros ineficientes
La mayor varianza por empleo de MCO en presencia de heterocedasticidad puede producir
un incremento de más de 10 veces en la varianza estimada del parámetro constante.
Invalidación de los contrastes de significancia
Ya que se aceptaría la hipótesis nula de los contrastes de significancia más veces de las
reales. Generalmente resulta que ciertas variables podrían resultar no ser significativas
cuando lo son realmente.
PRUEBAS PARAMETRICAS
PRUEBA DE T DE STUDENT
En estadística, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en
la que el estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta.
Se aplica cuando la población estudiada sigue una distribución normal pero el tamaño
muestral es demasiado pequeño como para que el estadístico en el que está basada la
inferencia esté normalmente distribuido, utilizándose una estimación de la desviación
típica en lugar del valor real. Es utilizado en análisis discriminante.
Usos
Entre los usos más frecuentes de las pruebas t se encuentran:
 El test de locación de muestra única por el cual se comprueba si la media de una
población distribuida normalmente tiene un valor especificado en una hipótesis nula.
 El test de locación para dos muestras, por el cual se comprueba si las medias de dos
poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente
llamados test t de Student, a pesar de que estrictamente hablando, tal nombre sólo debería
ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como
iguales; la forma de los ensayos que se utilizan cuando esta asunción se deja de lado
suelen ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser
comúnmente nombradas como pruebas t desapareadas o de muestras independientes,
debido a que tienen su aplicación más típica cuando las unidades estadísticas que definen
a ambas muestras que están siendo comparadas no se superponen.
 El test de hipótesis nula por el cual se demuestra que la diferencia entre dos respuestas
medidas en las mismas unidades estadísticas es cero. Por ejemplo, supóngase que se mide
el tamaño del tumor de un paciente con cáncer. Si el tratamiento resulta efectivo, lo
esperable seria que el tumor de muchos pacientes disminuyera de tamaño luego de seguir
el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o
repetidas.
 El test para comprobar si la pendiente de una regresión lineal difiere estadísticamente de
cero.
Estadísticos T y Z
La mayor parte de las pruebas estadísticas t tienen la forma , donde Z y s son
funciones de los datos estudiados. Típicamente, Z se diseña de forma tal que resulte
sensible a la hipótesis alternativa (p.ej. que su magnitud tienda a ser mayor cuando la
hipótesis alternativa es verdadera), mientras que s es un parámetro de escala que permite
que la distribución de T pueda ser determinada.
Por ejemplo, en una prueba t de muestra única, , donde es la media muestral de
los datos, n es el tamaño muestral, y σ es la desviación estándar de la población de datos; s en
una prueba de muestra única es , donde es la desviación estándar muestral.
Las asunciones subyacentes en una prueba t son:
 Que Z sigue una distribución normal bajo la hipótesis nula.
 ps2
sigue una distribución χ2
con p grados de libertad bajo la hipótesis nula, y donde p es
una constante positiva.
 Z y s son estadísticamente independientes.
En una prueba t específica, estas condiciones son consecuencias de la población que está
siendo estudiada, y de la forma en que los datos han sido muestreados. Por ejemplo, en la
prueba t de comparación de medias de dos muestras independientes, deberíamos realizar las
siguientes asunciones:
 Cada una de las dos poblaciones que están siendo comparadas sigue una distribución
normal. Esto puede ser demostrado utilizando una prueba de normalidad, tales como una
prueba Shapiro-Wilk o Kolmogórov-Smirnov, o puede ser determinado gráficamente por
medio de un gráfico de cuantiles normalesQ-Q plot.
 Si se está utilizando la definición original de Student sobre su prueba t, las dos
poblaciones a ser comparadas deben poseer las mismas varianzas, (esto se puede
comprobar utilizando una prueba F de igualdad de varianzas, una prueba de Levene,
una prueba de Bartlett, o una prueba de Brown-Forsythe, o estimarla gráficamente por
medio de un gráfico Q-Q plot). Si los tamaños muestrales de los dos grupos comparados
son iguales, la prueba original de Student es altamente resistente a la presencia de
varianzas desiguales. la Prueba de Welch es insensible a la igualdad de las varianzas,
independientemente de si los tamaños de muestra son similares.
 Los datos usados para llevar a cabo la prueba deben ser muestreados independientemente
para cada una de las dos poblaciones que se comparan. Esto en general no es posible
determinarlo a partir de los datos, pero si se conoce que los datos han sido muestreados
de manera dependiente (por ejemplo si fueron muestreados por grupos), entonces la
prueba t clásica que aquí se analiza, puede conducir a resultados erróneos.
Pruebas t para dos muestras apareadas y desapareadas
Las pruebas-t de dos muestras para probar la diferencia en las medias pueden ser
desapareadas o en parejas. Las pruebas t pareadas son una forma de bloqueo estadístico, y
poseen un mayor poder estadístico que las pruebas no apareadas cuando las unidades
apareadas son similares con respecto a los "factores de ruido" que son independientes de la
pertenencia a los dos grupos que se comparan [cita requerida]
. En un contexto diferente,
las pruebas-t apareadas pueden utilizarse para reducir los efectos de los factores de confusión
en un estudio observacional.
Desapareada
Las pruebas t desapareadas o de muestras independientes, se utilizan cuando se obtienen dos
grupos de muestras aleatorias, independientes e idénticamente distribuidas a partir de las dos
poblaciones a ser comparadas. Por ejemplo, supóngase que estamos evaluando el efecto de
un tratamiento médico, y reclutamos a 100 sujetos para el estudio. Luego elegimos
aleatoriamente 50 sujetos para el grupo en tratamiento y 50 sujetos para el grupo de control.
En este caso, obtenemos dos muestras independientes y podríamos utilizar la forma
desapareada de la prueba t. La elección aleatoria no es esencial en este caso, si contactamos
a 100 personas por teléfono y obtenemos la edad y género de cada una, y luego se utiliza una
prueba t bimuestral para ver en que forma la media de edades difiere por género, esto también
sería una prueba t de muestras independientes, a pesar de que los datos son observacionales.
Apareada
Las pruebas t de muestras dependientes o apareadas, consisten típicamente en una muestra
de pares de valores con similares unidades estadísticas, o un grupo de unidades que han sido
evaluadas en dos ocasiones diferentes (una prueba t de mediciones repetitivas). Un ejemplo
típico de prueba t para mediciones repetitivas sería por ejemplo que los sujetos sean
evaluados antes y después de un tratamiento.
Una prueba 't basada en la coincidencia de pares muestrales se obtiene de una muestra
desapareada que luego es utilizada para formar una muestra apareada, utilizando para ello
variables adicionales que fueron medidas conjuntamente con la variable de interés.8
La valoración de la coincidencia se lleva a cabo mediante la identificación de pares de valores
que consisten en una observación de cada una de las dos muestras, donde las observaciones
del par son similares en términos de otras variables medidas. Este enfoque se utiliza a menudo
en los estudios observacionales para reducir o eliminar los efectos de los factores de
confusión.
Cálculos
Las expresiones explícitas que pueden ser utilizadas para obtener varias pruebas t se dan a
continuación. En cada caso, se muestra la fórmula para una prueba estadística que o bien siga
exactamente o aproxime a una distribución t de Student bajo la hipótesis nula. Además, se
dan los apropiados grados de libertad en cada caso. Cada una de estas estadísticas se pueden
utilizar para llevar a cabo ya sea un prueba de una cola o prueba de dos colas.
Una vez que se ha determinado un valor t, es posible encontrar un valor P asociado utilizando
para ello una tabla de valores de distribución t de Student. Si el valor P calulado es menor al
límite elegido por significancia estadística (usualmente a niveles de significancia 0,10; 0,05
o 0,01), entonces la hipótesis nula se rechaza en favor de la hipótesis alternativa.
Prueba t para muestra única
En esta prueba se evalúa la hipótesis nula de que la media de la población estudiada es igual
a un valor especificado μ0, se hace uso del estadístico:
donde es la media muestral, s es la desviación estándar muestral y n es el tamaño de la
muestra. Los grados de libertad utilizados en esta prueba se corresponden al valor n − 1.
Pendiente de una regresión lineal
Supóngase que se está ajustando el modelo:
donde xi, i = 1, ..., n son conocidos, α y β son desconocidos, y εi es el error aleatorio en los
residuales que se encuentra normalmente distribuido, con un valor esperado 0 y una varianza
desconocida σ2
, e Yi, i = 1, ..., n son las observaciones.
Se desea probar la hipótesis nula de que la pendiente β es igual a algún valor
especificado β0 (a menudo toma el valor 0, en cuyo caso la hipótesis es que x e y no están
relacionados).
sea
Luego
tiene una distribución t con n − 2 grados de libertad si la hipótesis nula es verdadera. El error
estándar de la pendiente:
puede ser reescrito en términos de los residuales:
Luego se encuentra dado por:
Prueba t para dos muestras independientes
Iguales tamaños muestrales, iguales varianzas
Esta prueba se utiliza solamente cuando:
 los dos tamaños muestrales (esto es, el número, n, de participantes en cada grupo) son
iguales;
 se puede asumir que las dos distribuciones poseen la misma varianza.
Las violaciones a estos presupuestos se discuten más abajo.
El estadístico t a probar si las medias son diferentes se puede calcular como sigue:
Donde
Aquí es la desviación estándar combinada, 1 = grupo uno, 2 = grupo 2. El
denominador de t es el error estándar de la diferencia entre las dos medias.
Por prueba de significancia, los grados de libertad de esta prueba se obtienen como 2n − 2
donde n es el número de participantes en cada grupo.
Diferentes tamaños muestrales, iguales varianza
Esta prueba se puede utilizar únicamente si se puede asumir que las dos distribuciones poseen
la misma varianza. (Cuando este presupuesto se viola, mirar más abajo). El estadístico t si
las medias son diferentes puede ser calculado como sigue:
Donde
Nótese que las fórmulas de arriba, son generalizaciones del caso que se da cuando ambas
muestras poseen igual tamaño (sustituyendo n por n1 y n2).
es un estimador de la desviación estándar común de ambas muestras: esto se
define así para que su cuadrado sea un estimador sin sesgo de la varianza común sea
o no la media iguales. En esta fórmula, n = número de participantes, 1 = grupo uno,
2 = grupo dos. n − 1 es el número de grados de libertad para cada grupo, y el tamaño
muestral total menos dos (esto es, n1 + n2 − 2) es el número de grados de libertad
utilizados para la prueba de significancia.
Diferentes tamaños muestrales, diferentes varianzas
Esta prueba es también conocida como prueba t de Welch y es utilizada únicamente
cuando se puede asumir que las dos varianzas poblacionales son diferentes (los tamaños
muestrales pueden o no ser iguales) y por lo tanto deben ser estimadas por separado. El
estadístico t a probar cuando las medias poblacionales son distintas puede ser calculado
como sigue:
donde
Aquí s2
es el estimador sin sesgo de la varianza de las dos muestras, n = número de
participantes, 1 = grupo uno, 2 = grupo dos. Nótese que en este caso, no es la
varianza combinada. Para su utilización en pruebas de significancia, la distribución de
este estadístico es aproximadamente igual a una distribución t ordinaria con los grados
de libertad calculados según:
Esta ecuación es llamada la ecuación Welch–Satterthwaite. Nótese que la verdadera
distribución de este estadístico de hecho depende (ligeramente) de dos varianzas
desconocidas.
Prueba t dependiente para muestras apareadas
Esta prueba se utiliza cuando las muestras son dependientes; esto es, cuando se trata de
una única muestra que ha sido evaluada dos veces (muestras repetidas) o cuando las dos
muestras han sido emparejadas o apareadas. Este es un ejemplo de un test de diferencia
apareada.
Para esta ecuación, la diferencia entre todos los pares tiene que ser calculada. Los pares
se han formado ya sea con resultados de una persona antes y después de la evaluación o
entre pares de personas emparejadas en grupos de significancia (por ejemplo, tomados
de la misma familia o grupo de edad: véase la tabla). La media (XD) y la desviación
estándar (sD) de tales diferencias se han utilizado en la ecuación. La constante μ0 es
diferente de cero si se desea probar si la media de las diferencias es significativamente
diferente de μ0. Los grados de libertad utilizados son n − 1.
Ejemplo de muestras repetidas
Número Nombre
Test
1
Test
2
1 Miguel 35% 67%
2 Melanie 50% 46%
3 Melisa 90% 86%
Ejemplo de pares emparejados
Par Nombre Edad Test
1 Juan 35 250
1 Joana 36 340
2 Jaimito 22 460
2 Jesica 21 200
4 Michell 78% 91%
Prueba T 2 monomuestral
Para una prueba multivariable de unica muestra, la hipótesis es que el vector medio ( )
es igual a un vector ( ) dado. La prueba estadística se define como:
Donde n es el tamaño muestral, es el vector de columnas medio y una matriz de
covarianza muestral .
Prueba T 2 bimuestral
Para un test multivariable de dos muestras, la hipótesis es que los vectores medios (
, ) de las dos muestras son iguales. La prueba estadística se define como:
PRUEBA DE ANOVA CON UN FACTOR
«ANOVA» redirige aquí. Para la organización política nacionalista gallega, véase Anova-
Irmandade Nacionalista.
En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según
terminología inglesa) es una colección de modelos estadísticos y sus procedimientos
asociados, en el cual la varianza está particionada en ciertos componentes debidos a
diferentes variables explicativas.
Las técnicas iniciales del análisis de varianza fueron desarrolladas por
el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido
como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución
F de Fisher como parte del contraste de hipótesis.
Introducción
El análisis de la varianza parte de los conceptos de regresión lineal.
El primer concepto fundamental es que todo valor observado puede expresarse mediante la
siguiente función:
Donde Y sería el valor observado (variable dependiente), y X el valor que toma la variable
independiente.
sería una constante que en la recta de regresión equivale a la ordenada en el origen, es
otra constante que equivale a la pendiente de la recta, y es una variable aleatoria que añade
a la función cierto error que desvía la puntuación observada de la puntuación pronosticada.
Por tanto, a la función de pronóstico la podemos llamar "Y prima":
Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones esperadas,
más el error aleatorio:
(1.1)
Sabiendo este concepto, podemos operar con esta ecuación de la siguiente forma:
1) Restamos a ambos lados de la ecuación (para mantener la igualdad) la media de la variable
dependiente:
2) Substituimos el error por la ecuación resultante de despejar la ecuación 1.1:
Por tanto...
Y reorganizando la ecuación:
Ahora hay que tener en cuenta que la media de las puntuaciones observadas es exactamente
igual que la media de las puntuaciones pronosticadas:
Por tanto:
Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos al
cuadrado para que posteriormente, al hacer el sumatorio, no se anulen:
Y desarrollamos el cuadrado:
Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas por el
número de casos (n), las llamamos Sumas de Cuadrados., excepto en el último término, que
es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y la covarianza en este
caso es cero (por las propiedades de la regresión lineal, la covarianza entre el error y la
variable independiente es cero).
Por tanto:
O lo mismo que:
de un factor, que es el caso más sencillo, la idea básica del análisis de la varianza es comparar
la variación total de un conjunto de muestras y descomponerla como:
Donde:
es un número real relacionado con la varianza, que mide la variación debida
al "factor", "tratamiento" o tipo de situación estudiado.
es un número real relacionado con la varianza, que mide la variación dentro
de cada "factor", "tratamiento" o tipo de situación.
En el caso de que la diferencia debida al factor o tratamiento no sean estadísticamente
significativa puede probarse que las varianzas muestrales son iguales:
Donde:
es el número de situaciones diferentes o valores del factor se están comparando.
es el número de mediciones en cada situación se hacen o número de valores
disponibles para cada valor del factor.
Así lo que un simple test a partir de la F de Snedecor puede decidir si el factor o
tratamiento es estadísticamente significativo.
Visión genera
Existen tres clases conceptuales de estos modelos:
1. El Modelo de efectos fijos asume que los datos provienen de poblaciones
normales las cuales podrían diferir únicamente en sus medias. (Modelo 1)
2. El Modelo de efectos aleatorios asume que los datos describen una jerarquía de
diferentes poblaciones cuyas diferencias quedan restringidas por la jerarquía.
Ejemplo: El experimentador ha aprendido y ha considerado en el experimento sólo
tres de muchos más métodos posibles, el método de enseñanza es un factor
aleatorio en el experimento. (Modelo 2)
3. El Modelo de efectos mixtos describen situaciones que éste puede tomar. Ejemplo:
Si el método de enseñanza es analizado como un factor que puede influir donde
están presentes ambos tipos de factores: fijos y aleatorios. (Modelo 3)
Supuestos previos
El ANOVA parte de algunos supuestos o hipótesis que han de cumplirse:
 La variable dependiente debe medirse al menos a nivel de intervalo.
 Independencia de las observaciones.
 La distribución de los residuales debe ser normal.
 Homocedasticidad: homogeneidad de las varianzas.
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of
squares') en componentes relativos a los factores contemplados en el modelo. Como
ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores
en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede
resultar apropiado un análisis de regresión lineal)
El número de grados de libertad (gl) puede separarse de forma similar y corresponde
con la forma en que la distribución chi-cuadrado (χ² o Ji-cuadrada) describe la suma de
cuadrados asociada.
Tipos de modelo
Modelo I: Efectos fijos
El modelo de efectos fijos de análisis de la varianza se aplica a situaciones en las que
el experimentador ha sometido al grupo o material analizado a varios factores, cada
uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta" con
una distribución normal.
Este modelo se supone cuando el investigador se interesa únicamente por los niveles
del factor presentes en el experimento, por lo que cualquier variación observada en las
puntuaciones se deberá al error experimental.
Modelo II: Efectos aleatorios (componentes de varianza)
Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren
diferencias incomparables en el material o grupo experimental. El ejemplo más simple
es el de estimar la media desconocida de una población compuesta de individuos
diferentes y en el que esas diferencias se mezclan con los errores del instrumento de
medición.
Este modelo se supone cuando el investigador está interesado en una población de
niveles, teóricamente infinitos, del factor de estudio, de los que únicamente una
muestra al azar (t niveles) están presentes en el experimento.
Grados de libertad
Los grados de libertad pueden descomponerse al igual que la suma de cuadrados. Así,
GLtotal = GLentre + GLdentro. Los GLentre se calculan como: a - 1, donde a es el
número de tratamientos o niveles del factor. Los GLdentro se calculan como N - a,
donde N es el número total de observaciones o valores de la variable medida (la
variable respuesta).
Pruebas de significación
El análisis de varianza lleva a la realización de pruebas de significación estadística,
usando la denominada distribución F de Snedecor.
Tablas ANOVA
Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas, los
grados de libertad y la F, se procede a elaborar una tabla que reuna la información,
denominada "Tabla de Análisis de varianza o ANOVA", que adopta la siguiente forma:
Fuente de
variación
Suma de
cuadrados
Grados de
libertad
Cuadrado medio F
Intergrupo t - 1
Intragrupo o
Error
N - t
Total N - 1
PRUEBA DE CORRELACION DE R DE PEARSON
En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal
entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación
de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un
índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando
ambas sean cuantitativas.
Definición
En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población
estadística; el coeficiente de correlación de Pearson se simboliza con la letra , siendo la
expresión que nos permite calcularlo:
Donde:
 es la covarianza de
 es la desviación típica de la variable
 es la desviación típica de la variable
De manera análoga podemos calcular este coeficiente sobre un estadístico muestral,
denotado como a:
El valor del índice de correlación varía en el intervalo [-1,1]:
 Si r = 1, existe una correlación positiva perfecta. El índice indica una
dependencia total entre las dos variables denominada relación directa: cuando
una de ellas aumenta, la otra también lo hace en proporción constante.
 Si 0 < r < 1, existe una correlación positiva.
 Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las
variables son independientes: pueden existir todavía relaciones no lineales entre
las dos variables.
 Si -1 < r < 0, existe una correlación negativa.
 Si r = -1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa: cuando una
de ellas aumenta, la otra disminuye en proporción constante.
PRUEBAS NO PARAMETRICAS
La estadística no paramétrica es una rama de la estadística que estudia las pruebas y
modelos estadísticos cuya distribución subyacente no se ajusta a los llamados
criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos
observados los que la determinan. La utilización de estos métodos se hace recomendable
cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el
nivel de medida empleado no sea, como mínimo, de intervalo.
Las principales pruebas no paramétricas son las siguientes:
(1) Prueba χ² de Pearson
(2) Prueba binomial
(3) Prueba de Anderson-Darling
(4) Prueba de Cochran
(5) Prueba de Cohen kappa
(6) Prueba de Fisher
(7) Prueba de Friedman
(8) Prueba de Kendall
(9) Prueba de Kolmogórov-Smirnov
(10) Prueba de Kruskal-Wallis
(11) Prueba de Kuiper
(12) Prueba de Mann-Whitney o prueba de Wilcoxon
(13) Prueba de McNemar
(14) Prueba de la mediana
(15) Prueba de Siegel-Tukey
(16) Prueba de los signos
(17) Coeficiente de correlación de Spearman
(18) Tablas de contingencia
(19) Prueba de Wald-Wolfowitz
(20) Prueba de los rangos con signo de Wilcoxon
La mayoría de estos test estadísticos están programados en los paquetes estadísticos más
frecuentes, quedando para el investigador, simplemente, la tarea de decidir por cuál de todos
ellos guiarse o qué hacer en caso de que dos test nos den resultados opuestos. Hay que decir
que, para poder aplicar cada uno existen diversas hipótesis nulas y condiciones que deben
cumplir nuestros datos para que los resultados de aplicar el test sean fiables. Esto es, no se
puede aplicar todos los test y quedarse con el que mejor convenga para la investigación sin
verificar si se cumplen las hipótesis y condiciones necesarias pues, si se violan, invalidan
cualquier resultado posterior y son una de las causas más frecuentes de que un estudio sea
estadísticamente incorrecto. Esto ocurre sobre todo cuando el investigador desconoce la
naturaleza interna de los test y se limita a aplicarlos sistemáticamente.
Es importante mencionar que si la distribución de los datos se ajusta a un tipo de distribución
conocida, existen otras [pruebas] que, en la práctica, son más aconsejables pero que así
mismo requieren otros supuestos. En este caso, la estadística a emplear es la estadística
paramétrica, dentro de la cual muchas veces podemos encontrar equivalencias entre pruebas
pero con diferencias en la potencia entre ambas siendo siempre la potencia de las pruebas no
paramétricas menor que la potencia de las pruebas paramétricas equivalentes. Aun así, el uso
adecuado de los tamaños muestrales disminuye la posibilidad de cometer un [error tipo II],
puesto que aumenta al mismo tiempo la eficacia de la prueba . Es decir, a medida que se
umenta el tamaño de la muestra, disminuye la posibilidad de cometer un error tipo II (un
falso negativo: No rechazar la hipótesis nula cuando ésta en realidad es falsa).
PRUEBA DE X2 BONDAD DE AJUSTE
La prueba χ² de Pearson es considerada como una prueba no paramétrica que mide la
discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando en
qué medida las diferencias existentes entre ambas, de haberlas, se deben al azar en
el contraste de hipótesis. También se utiliza para probar la independencia de dos variables
entre sí, mediante la presentación de los datos en tablas de contingencia.
La fórmula que da el estadístico es la siguiente:
Cuanto mayor sea el valor de , menos verosímil es que la hipótesis sea correcta. De la
misma forma, cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas
están ambas distribuciones.
Los grados de libertad gl vienen dados por :
gl= (r-1)(k-1). Donde r es el número de filas y k el de columnas.
 Criterio de decisión:
No se rechaza cuando . En caso contrario sí se rechaza.
Donde t representa el valor proporcionado por las tablas, según el nivel de significación
estadística elegido.
PRUEBA DE U MANN WITHNEY
En estadística la prueba U de Mann-Whitney (también llamada de Mann-Whitney-
Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney)
es una prueba no paramétrica aplicada a dos muestras independientes. Es, de hecho, la versión
no paramétrica de la habitual prueba t de Student.
Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de igual tamaños y
extendido a muestras de tamaño arbitrario como en otros sentidos porHenry B. Mann y D. R.
Whitney en 1947.
Planteamiento de la prueba
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos muestras
ordinales. El planteamiento de partida es:
1. Las observaciones de ambos grupos son independientes
2. Las observaciones son variables ordinales o continuas.
3. Bajo la hipótesis nula, la distribución de partida de ambos grupos es la misma y,
4. Bajo la hipótesis alternativa, los valores de una de las muestras tienden a exceder a
los de la otra: P(X > Y) + 0.05 P(X = Y) > 0.05.
Cálculo del estadístico
Para calcular el estadístico U se asigna a cada uno de los valores de las dos muestras su rango
para construir
donde n1 y n2 son los tamaños respectivos de cada muestra; R1 y R2 es la suma de los
rangos de las observaciones de las muestras 1 y 2 respectivamente.
El estadístico U se define como el mínimo de U1 y U2.
Los cálculos tienen que tener en cuenta la presencia de observaciones idénticas a la hora
de ordenarlas. No obstante, si su número es pequeño, se puede ignorar esa circunstancia.
Distribución del estadístico[editar]
La prueba calcula el llamado estadístico U, cuya distribución para muestras con más de
20 observaciones se aproxima bastante bien a la distribución normal.
La aproximación a la normal, z, cuando tenemos muestras lo suficientemente grandes
viene dada por la expresión:
Donde mU y σU son la media y la desviación estándar de U si la hipótesis nula es
cierta, y vienen dadas por las siguientes fórmulas:
PRUEBA DE KRUSKAL WALLIS
En estadística, la prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es
un método no paramétrico para probar si un grupo de datos proviene de la misma población.
Intuitivamente, es idéntico al ANOVA con los datos reemplazados por categorías. Es una
extensión de la prueba de la U de Mann-Whitney para 3 o más grupos.
Ya que es una prueba no paramétrica, la prueba de Kruskal-Wallis no asume normalidad en
los datos, en oposición al tradicional ANOVA. Sí asume, bajo la hipótesis nula, que los datos
vienen de la misma distribución. Una forma común en que se viola este supuesto es con
datos heterocedásticos.
Método
1. El estadístico está dado por: , donde:
 es el número de observaciones en el grupo
 es el rango (entre todas las observaciones) de la observación en el grupo
 es el número total de observaciones entre todos los grupos
 ,
 es el promedio de .
Note que el denominador de la expresión para es exactamente
.
Luego .
2. Se puede realizar una corrección para los valores repetidos
dividiendo por , donde es el número de grupos de
diferentes rangos repetidos, y es el número de observaciones repetidas dentro del
grupo que tiene observaciones repetidas para un determinado valor. Esta corrección
hace cambiar a muy poco al menos que existan un gran número de observaciones
repetidas.
3. Finalmente, el p-value es aproximado por . Si algún es pequeño
( ) la distribución de puede ser distinta de la chi-cuadrado.
PRUEBA DE WILCONXON
La prueba de los rangos con signo de Wilcoxon es una prueba no paramétrica para
comparar la mediana de dos muestras relacionadas y determinar si existen diferencias entre
ellas. Se utiliza como alternativa a la prueba t de Student cuando no se puede suponer la
normalidad de dichas muestras. Debe su nombre aFrank Wilcoxon, que la publicó en 1945.1
Se utiliza cuando la variable subyacente es continua pero no se presupone ningún tipo
de distribución particular.
Planteamiento
Suponga que se dispone de n pares de observaciones, denominadas . El objetivo del
test es comprobar si puede dictaminarse que los valores e son o no iguales.
Suposiciones
1. Si , entonces los valores son independientes.
2. Los valores tienen una misma distribución continua y simétrica respecto a una
mediana común .
Método
La hipótesis nula es : . Retrotrayendo dicha hipótesis a los
valores originales, ésta vendría a decir que son en cierto sentido del mismo tamaño.
Para verificar la hipótesis, en primer lugar, se ordenan los valores absolutos y
se les asigna su rango . Entonces, el estadístico de la prueba de los signos de
Wilcoxon, , es
es decir, la suma de los rangos correspondientes a los valores positivos de .
La distribución del estadístico puede consultarse en tablas para determinar si se acepta
o no la hipótesis nula.
En ocasiones, esta prueba se usa para comparar las diferencias entre dos muestras de datos
tomados antes y después del tratamiento, cuyo valor central se espera que sea cero. Las
diferencias iguales a cero son eliminadas y el valor absoluto de las desviaciones con respecto
al valor central son ordenadas de menor a mayor. A los datos idénticos se les asigna el lugar
medio en la serie. La suma de los rangos se hace por separado para los signos positivos y los
negativos. Srepresenta la menor de esas dos sumas. Comparamos S con el valor
proporcionado por las tablas estadísticas al efecto para determinar si rechazamos o no la
hipótesis nula, según el nivel de significación elegido.
PRUEBA DE Q DE COCHRAM
En estadística, en el análisis de dos vías de diseños de bloques aleatorios cuando la variable
de respuesta puede tomar sólo dos resultados posibles (codificado como 0 y 1), la prueba Q
de Cochran es una prueba estadística no paramétrica para verificar si k tratamientos tienen
efectos idénticos.1 2
Nombrada así en honor de William Gemmell Cochran, estadístico
escocés. La Prueba Q de Cochran no debe confundirse con la prueba C de Cochran, la cual
es una prueba de valor atípico varianza.
Antecedentes
La Prueba Q de Cochran asume que hay k> 2 tratamientos experimentales y que las
observaciones están dispuestas en b bloques, es decir,
Tratamiento 1 Tratamiento 2 Tratamiento k
Block 1 X11 X12 X1k
Block 2 X21 X22 X2k
Block 3 X31 X32 X3k
Block b Xb1 Xb2 Xbk
Descripción
Prueba Q de Cochran es
H0: Los tratamientos son igualmente efectivos.
Ha: Existe una diferencia en la eficacia entre los tratamientos.
La estadística de prueba Q de Cochran es:
where
k es el número de tratamientos
X• j es el total de la columna para el tratamiento jth
treatment
b es el número de bloques
Xi • es el total de la fila para el bloque ith
block
N es el total
Región crítica
Por nivel de significación α, la región crítica es
donde Χ 2 1 - α, k - 1 es el (1 - α) - cuantil de la distribución chi-cuadrado con k - 1 grados
de libertad. La hipótesis nula es rechazada si el resultado está en la región crítica. Si la prueba
de Cochran rechaza la hipótesis nula de tratamientos igualmente eficaces, pairwise
comparaciones múltiples se pueden realizar mediante la aplicación de prueba Q de Cochran
en los dos tratamientos de interés.
Supuestos
Prueba Q de Cochran se basa en los siguientes supuestos:
1. Una gran aproximación de la muestra, en particular, se supone que b es "grande".
2. Los bloques fueron seleccionados al azar de la población de todos los bloques posibles.
3. Los resultados de los tratamientos pueden ser codificados como respuestas binarias (es decir,
un "0" o "1") de una manera que es común a todos los tratamientos dentro de cada bloque.
Pruebas relacionadas
Cuando se utiliza este tipo de diseño para una respuesta que no es binaria, sino más bien
ordinal o continua, uno en su lugar utiliza la prueba de Friedman o pruebas de Durbin . El
caso en el que hay exactamente dos tratamientos es equivalente a la prueba de McNemar , la
cual es a su vez equivalente a una de dos colas prueba de los signos .
PRUEBA DE MC NEMAR
La prueba de McNemar se utiliza para decidir si puede o no aceptarse que determinado
''tratamiento'' induce un cambio en la respuesta dicotómica o dicotomizada de los elementos
sometidos al mismo, y es aplicable a los diseños del tipo ''antes-después'' en los que cada
elemento actúa como su propio control.
Los resultados correspondientes a una muestra de n elementos se disponen en una tabla de
frecuencias 2 x 2 para recoger el conjunto de las respuestas de los mismos elementos antes y
después. El aspecto general de dicha tabla, en la que los signos + y - se utilizan para
representar las diferentes respuestas, es el siguiente:
Antes/Después - +
- a b
+ c d
En las celdas de la tabla, a es el número de elementos cuya respuesta es la misma, -; b es el
número de elementos cuya respuesta es - antes del ''tratamiento'' y + después de éste; c es el
número de elementos que han cambiado de + a -; y des el número de elementos que mantienen
la respuesta +.
Por tanto, b+c es el número total de elementos cuyas respuestas han cambiado, y son los
únicos que intervienen en el contraste. La hipótesis nula es que el ''tratamiento'' no induce
cambios significativos en las respuestas, es decir, los cambios observados en la muestra se
deben al azar, de forma que es igualmente probable un cambio de + a - que un cambio de - a
+. Así pues, si H0 es cierta, de los b+c elementos cuya respuesta ha cambiado es de esperar
que (b+c)/2 hayan pasado de + a -, y (b+c)/2 hayan pasado de - a +. En otras palabras, si H0
es cierta, la frecuencia esperada en las correspondientes celdas es (a+b)/2.
La hipótesis alternativa puede ser no direccional, cuando postula que la probabilidad de un
cambio de + a - tiene distinta probabilidad que un cambio de - a +, o direccional, cuando
predice que un cambio de - a + es más (o menos) probable que un cambio de + a -.
El estadístico de prueba que permite contrastar si existen diferencias significativas entre las
frecuencias esperadas y las observadas es:
Oi= frecuencia observada en la i-ésima celda
Ei = frecuencia esperada en la i-ésima celda si H0 es cierta
k = número de celdas
Para contrastar la significación de los cambios interesan sólo las celdas que recogen cambios,
por tanto el estadístico puede expresarse como
Si H0 es cierta, el estadístico tiene distribución aproximadamente chi-cuadrado con 1
grado de libertad. La aproximación es más precisa si se realiza la corrección de continuidad
de Yates, quedando el estadístico:
La hipótesis nula, de que ambos tipos de cambio son igualmente probables, se rechaza si el
valor del estadístico se encuentra en la región crítica.
Cuando la frecuencia esperada (b+c)/2 es pequeña la aproximación de la distribución del
estadístico de prueba a la chi-cuadrado no es buena y, en tal caso, el SPSS no calcula el
estadístico anterior, sino que realiza la prueba binomial. El contraste se plantea en este caso
de la siguiente forma: supongamos que c<b; en este caso la hipótesis nula es que c es un valor
de una variable X con distribución binomial de parámetros n=b+c y =0,5. El nivel de
significación para una prueba de dos colas es y se rechazará H0
para niveles de significación iguales o superiores a éste. Si la hipótesis alternativa es
direccional el nivel de significación a partir del cual se rechazará H0 es la mitad del nivel de
significación bilateral.
PRUEBA DE FRIEDMAN
En estadística la prueba de Friedman es una prueba no paramétrica desarrollado por el
economista Milton Friedman. Equivalente a la prueba ANOVA para medidas repetidas en la
versión no paramétrica, el método consiste en ordenar los datos por filas o bloques,
reemplazándolos por su respectivo orden. Al ordenarlos, debemos considerar la existencia de
datos idénticos.
Método
1. Sea una tabla de datos, donde son las filas (bloques) y las columnas
(tratamientos). Una vez calculado el orden de cada dato en su bloque, reemplazamos
al tabla original con otra donde el valor es el orden de en cada
bloque .
2. Cálculo de las varianzas intra e inter grupo:
 ,



3. El estadístico viene dado por .
4. El criterio de decisión es .
PRUEBA DE SPEARMAN
En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de
la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas.
Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el
número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque
si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación
a la distribución t de Student
La interpretación de coeficiente de Spearman es igual que la del coeficiente de
correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o
positivas respectivamente, 0 cero, significa no correlación pero no independencia.
La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos
ordenaciones de una distribución normal bivariante.
Determinando la significación estadística
La aproximación moderna al problema de averiguar si un valor observado de ρ es
significativamente diferente de cero (siempre tendremos -1 ≤ ρ ≤ 1) es calcular la
probabilidad de que sea mayor o igual que el ρ esperado, dada la hipótesis nula, utilizando
un test de permutación. Esta aproximación es casi siempre superior a los métodos
tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informática
no sea suficiente para generar permutaciones (poco probable con la informática moderna),
o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo
la hipótesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos
no ofrecen dificultad).
Aunque el test de permutación es a menudo trivial para cualquiera con recursos
informáticos y experiencia en programación, todavía se usan ampliamente los métodos
tradicionales para obtener significación. La aproximación más básica es comparar el ρ
observado con tablas publicadas para varios niveles de significación. Es una solución
simple si la significación sólo necesita saberse dentro de cierto rango, o ser menor de un
determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados.
Más abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es
computacionalmente intensivo y a lo largo de los años se han usado complicados trucos
matemáticos para generar tablas para tamaños de muestra cada vez mayores, de modo que
no es práctico para la mayoría extender las tablas existentes.
Una aproximación alternativa para tamaños de muestra suficientemente grandes es una
aproximación a la distribución t de Student. Para tamaños de muestra más grandes que unos
20 individuos, la variable
tiene una distribución t de Student en el caso nulo (correlación cero). En el caso no nulo (ej:
para averiguar si un ρ observado es significativamente diferente a un valor teórico o si dos
ρs observados difieren significativamente), los tests son mucho menos potentes, pero puede
utilizarse de nuevo la distribución t.
Una generalización del coeficiente de Spearman es útil en la situación en la cual hay tres o
más condiciones, varios individuos son observados en cada una de ellas, y predecimos que
las observaciones tendrán un orden en particular. Por ejemplo, un conjunto de individuos
pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad
mejorará de intento en intento. Un test de la significación de la tendencia entre las
condiciones en esta situación fue desarrollado por E. B. Page y normalmente suele
conocerse como Page's trend test para alternativas ordenadas.
PRUEBA BINOIMIAL
En estadística, la distribución binomial es una distribución de probabilidad discreta que
cuenta el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre
sí, con una probabilidad fija pde ocurrencia del éxito entre los ensayos. Un experimento de
Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles dos resultados. A uno
de estos se denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con
una probabilidad q = 1 - p. En la distribución binomial el anterior experimento se
repite n veces, de forma independiente, y se trata de calcular la probabilidad de un
determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en
una distribución de Bernoulli.
Para representar que una variable aleatoria X sigue una distribución binomial de
parámetros n y p, se escribe:
La distribución binomial es la base del test binomial de significación estadística.
Las siguientes situaciones son ejemplos de experimentos que pueden modelizarse por
esta distribución:
 Se lanza un dado diez veces y se cuenta el número X de tres obtenidos:
entonces X ~ B(10, 1/6)
 Se lanza una moneda dos veces y se cuenta el número X de caras obtenidas:
entonces X ~ B(2, 1/2)
Experimento binomial
Existen muchas situaciones en las que se presenta una experiencia binomial. Cada uno
de los experimentos es independiente de los restantes (la probabilidad del resultado de
un experimento no depende del resultado del resto). El resultado de cada experimento
ha de admitir sólo dos categorías (a las que se denomina éxito y fracaso). Las
probabilidades de ambas posibilidades han de ser constantes en todos los experimentos
(se denotan como p y q o p y 1-p).
Se designa por X a la variable que mide el número de éxitos que se han producido en
los n experimentos.
Cuando se dan estas circunstancias, se dice que la variable X sigue una distribución de
probabilidad binomial, y se denota B(n,p).
Características analíticas
Su función de probabilidad es
donde
siendo las combinaciones de en ( elementos tomados
de en )
Ejemplo
Supongamos que se lanza un dado (con 6 caras) 50 veces y queremos conocer la
probabilidad de que el número 3 salga 20 veces. En este caso tenemos una X ~
B(50, 1/6) y la probabilidad sería P(X=20):
Propiedades
Relaciones con otras variables aleatorias
Si tiende a infinito y es tal que el producto entre ambos parámetros tiende a ,
entonces la distribución de la variable aleatoria binomial tiende a unadistribución de
Poisson de parámetro .
Por último, se cumple que cuando =0.5 y n es muy grande (usualmente se exige
que ) la distribución binomial puede aproximarse mediante ladistribución
normal.
Propiedades reproductivas
Dadas n variables binomiales independientes de parámetros ni (i = 1,..., n) y , su
suma es también una variable binomial, de parámetros n1+... + nn, y , es decir,
PRUEBA ANDERSON - DARLING
En estadística, la prueba de Anderson-Darling es una prueba no paramétrica sobre si los
datos de una muestra provienen de una distribución específica. La fórmula para
el estadístico A determina si los datos (observar que los datos se deben
ordenar) vienen de una distribución con función acumulativa
donde
El estadístico de la prueba se puede entonces comparar contra las distribuciones del
estadístico de prueba (dependiendo que se utiliza) para determinar el P-valor.
La prueba de Anderson-Darling es una prueba estadística que permite determinar si una
muestra de datos se extrae de una distribución de probabilidad. En su forma básica, la prueba
asume que no existen parámetros a estimar en la distribución que se está probando, en cuyo
caso la prueba y su conjunto de valores críticos siguen una distribución libre. Sin embargo,
la prueba se utiliza con mayor frecuencia en contextos en los que se está probando una familia
de distribuciones, en cuyo caso deben ser estimados los parámetros de esa familia y debe
tenerse estos en cuenta a la hora de ajustar la prueba estadística y sus valores críticos. Cuando
se aplica para probar si una distribución normal describe adecuadamente un conjunto de
datos, es una de las herramientas estadísticas más potentes para la detección de la mayoría
de las desviaciones de la normalidad.
PRUEBA DE COHEN KAPPA
El Coeficiente kappa de Cohen es una medida estadística que ajusta el efecto del azar en la
proporción de la concordancia observada para los elementos cualitativos (variables
categóricas). En general se cree que es una medida más robusta que el simple cálculo del
porcentaje de concordancia, ya que κ tiene en cuenta el acuerdo que ocurren por casualidad.
Algunos investigadores han expresado su preocupación por la tendencia de κ tomar
frecuencias las categorías observadas 'como dados, lo que puede tener el efecto de subestimar
a un acuerdo para una categoría que es también de uso general; por esta razón, κ es
considerado una medida excesivamente conservadora de acuerdo.
Otros impugnan la afirmación de que el kappa "tiene en cuenta" la posibilidad de acuerdo.
Para hacerlo con eficacia requeriría un modelo explícito de cómo la oportunidad afecta las
decisiones de calificadores. El llamado ajuste oportunidad de las estadísticas kappa supone
que, cuando no completamente cierto, los evaluadores simplemente suponen un escenario
muy poco realista.
Cálculo
El Coeficiente kappa de Cohen mide el acuerdo entre dos evaluadores que cada clasificar los
elementos de N en C categorías mutuamente excluyentes. La primera mención de una
estadística kappa como se atribuye a Galton (1892), ver Smeeton (1985).
La ecuación para κ es:
donde Pr (a) es el acuerdo observado relación entre los evaluadores, y Pr (e) es la probabilidad
hipotética de la posibilidad de acuerdo, utilizando los datos observados para calcular las
probabilidades de cada observador diciendo aleatoriamente cada categoría. Si los
evaluadores son completamente de acuerdo entonces κ = 1. Si no hay acuerdo entre los
calificadores distintos de lo que cabría esperar por azar (según lo definido por Pr (e)), κ = 0.
El artículo seminal introducir kappa como una nueva técnica fue publicado por Jacob Cohen
en la revista Educación y Psicología de medición en 1960.
Una estadística similar, llamada pi , fue propuesto por Scott (1955). Kappa de Cohen y pi de
Scott difieren en términos de cómo se calcula Pr(e).
Tenga en cuenta que la kappa de Cohen mide el acuerdo entre sólo dos evaluadores. Para que
una medida similar de acuerdo ( kappa de Fleiss ) utiliza cuando hay más de dos evaluadores,
ver Fleiss (1971). El Fleiss Kappa, sin embargo, es una generalización múltiples evaluadores
de pi de Scott estadística, no kappa de Cohen.
PRUEBA DE FISHER
En estadística se denomina prueba F de Snedecor a cualquier prueba en la que
el estadístico utilizado sigue una distribución F si la hipótesis nula no puede ser rechazada. El
nombre fue acuñado en honor a Ronald Fisher.
En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:
 La hipótesis de que las medidas de múltiples poblaciones normalmente distribuidas y con
la misma desviación estándar son iguales. Esta es, quizás, la más conocida de las hipótesis
verificada mediante el test F y el problema más simple del análisis de varianza.
 La hipótesis de que las desviaciones estándar de dos poblaciones normalmente distribuidas
son iguales, lo cual se cumple.
En muchos casos, el test F puede resolverse mediante un proceso directo. Se requieren dos
modelos de regresión, uno de los cuales restringe uno o más de los coeficientes de regresión
conforme a la hipótesis nula. El test entonces se basa en un cociente modificado de la suma de
cuadrados de residuos de los dos modelos como sigue:
Dadas n observaciones, donde el modelo 1 tiene k coeficientes no restringidos, y el modelo 0
restringe m coeficientes, el test F puede calcularse como
El valor resultante debe entonces compararse con la entrada correspondiente de la tabla
de valores críticos.
PRUEBA DE KENDALL
Coeficiente de Kendall. Mide el grado de asociación entre varios conjuntos (k) de N
entidades. Es útil para determinar el grado de acuerdo entre varios jueces, o la asociación
entre tres o más variables.
En pruebas estadísticas
En la prueba estadística el Coeficiente de Concordancia de Kendall (W), ofrece el valor que
posibilita decidir el nivel de concordancia entre los expertos. El valor de W oscila entre 0 y
1. El valor de 1 significa una concordancia de acuerdos total y el valor de 0 un desacuerdo
total. La tendencia a 1 es lo deseado pudiéndose realizar nuevas rondas si en la primera no
es alcanzada significación en la concordancia.
Fórmula para el cálculo
La fórmula es la siguiente:
Donde:
 (tau) = coeficiente de correlación de Kendall.
S = puntuación efectiva de los rangos.
N = tamaño de la muestra en parejas de variables.
Fórmula para determinar el nivel de significancia mediante el valor Z:
Donde:
Z = valor Z de la distribución normal.
 = coeficiente de correlación de Kendall.
N = tamaño de la muestra.
Pasos
1. Ordenar las observaciones por rangos, en función de la posible variable independiente. 2.
Efectuar la sumatoria de los rangos en función de cada variable. 3. Obtener la sumatoria de
la sumatoria anterior y obtener un promedio. 4. Calcular las diferencias obtenidas entre la
sumatoria y el promedio, elevarlas al cuadrado y sumarlas. Lo anterior es el valor S. 5.
Aplicar la ecuación para obtener el ajuste dado por las ligas o empates. 6. Aplicar a ecuación
coeficiente de concordancia de Kendall (w). 7. Transformar w en ji cuadrada y calcular los
grados de libertad (gl). gl = N - 1. 8. Decidir si se acepta o rechaza la hipótesis.
No basta con saber si W está más próximo a 0 o 1 sino que además debemos saber si W es
significativamente distinta de 0 para rechazar la hipótesis de concordancia casual. Esta
prueba sería en principio una prueba de hipótesis.
Importancia
Este método de pronóstico es importante porque brinda un modelo para la ordenación de
entidades de acuerdo a un consenso, cuando no hay un orden objetivo de las entidades.
PRUEBA DE KOLMOGOROV - SMIRNOV
En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no
paramétrica que se utiliza para determinar la bondad de ajuste de dosdistribuciones de
probabilidad entre sí.
En el caso de que queramos verificar la normalidad de una distribución, la prueba de
Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en general,
el test de Shapiro–Wilk o la prueba de Anderson-Darling son alternativas más potentes.
Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores
cercanos a la mediana que a los extremos de la distribución. La prueba de Anderson-
Darling proporciona igual sensibilidad con valores extremos.
Estadístico
Para dos colas el estadístico viene dado por
donde F(x) es la distribución presentada como hipótesis.
PRUEBA DE KUIPER
La prueba de la mediana es una prueba no paramétrica que podemos considerar un caso
especial de la prueba de chi-cuadrado, pues se basa en esta última. Su objetivo es comparar
las medianas de dos muestras y determinar si pertencen a la misma población o no.
Para ello, se calcula la mediana de todos los datos conjuntamente. Después, se divide cada
muestra en dos subgrupos: uno para aquellos datos que se sitúen por encima de la mediana y
otro para los que se sitúen por debajo. La prueba de chi-cuadrado determinará si las frecuencias
observadas en cada grupo difieren de las esperadas con respecto a una distribución de
frecuencias que combine ambas muestras.
Esta prueba está especialmente indicada cuando los datos sean extremos o estén sesgados.
PRUEBA DE MEDIANA
La prueba de la mediana es una prueba no paramétrica que podemos considerar un caso
especial de la prueba de chi-cuadrado, pues se basa en esta última. Su objetivo es comparar
las medianas de dos muestras y determinar si pertencen a la misma población o no.
Para ello, se calcula la mediana de todos los datos conjuntamente. Después, se divide cada
muestra en dos subgrupos: uno para aquellos datos que se sitúen por encima de la mediana y
otro para los que se sitúen por debajo. La prueba de chi-cuadrado determinará si las frecuencias
observadas en cada grupo difieren de las esperadas con respecto a una distribución de
frecuencias que combine ambas muestras.
Esta prueba está especialmente indicada cuando los datos sean extremos o estén sesgados.
PRUEBA DE SPEARMAN
En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de
la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas.
Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:
donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el
número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si
éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a
la distribución t de Student
Abstract spss
Abstract spss
Abstract spss
Abstract spss

Más contenido relacionado

Más de Eddie Alan Castañeda Monroe (8)

6. respirador media cara 3 m 6200
6.  respirador media cara 3 m 62006.  respirador media cara 3 m 6200
6. respirador media cara 3 m 6200
 
5. botas gargas2 iso 14 kv ficha deltaplus
5.  botas gargas2 iso 14 kv ficha deltaplus5.  botas gargas2 iso 14 kv ficha deltaplus
5. botas gargas2 iso 14 kv ficha deltaplus
 
4. guantes mecanicos hyflex 11-727
4.  guantes mecanicos  hyflex 11-7274.  guantes mecanicos  hyflex 11-727
4. guantes mecanicos hyflex 11-727
 
3. casco msa 1
3.  casco msa 13.  casco msa 1
3. casco msa 1
 
2. tapones 3m
2.  tapones 3m2.  tapones 3m
2. tapones 3m
 
1. anteojos de proteccion
1.  anteojos de proteccion1.  anteojos de proteccion
1. anteojos de proteccion
 
Libro v2014 p2
Libro v2014 p2Libro v2014 p2
Libro v2014 p2
 
Libro v2014 p2
Libro v2014 p2Libro v2014 p2
Libro v2014 p2
 

Último

INFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdfINFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdf
octaviosalazar18
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
gustavoiashalom
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
Ricardo705519
 
sistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gstsistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gst
DavidRojas870673
 
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdfUC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
refrielectriccarlyz
 

Último (20)

APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
 
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptxEFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
EFICIENCIA ENERGETICA-ISO50001_INTEC_2.pptx
 
NTC 3883 análisis sensorial. metodología. prueba duo-trio.pdf
NTC 3883 análisis sensorial. metodología. prueba duo-trio.pdfNTC 3883 análisis sensorial. metodología. prueba duo-trio.pdf
NTC 3883 análisis sensorial. metodología. prueba duo-trio.pdf
 
Clasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docxClasificación de Equipos e Instrumentos en Electricidad.docx
Clasificación de Equipos e Instrumentos en Electricidad.docx
 
PostgreSQL on Kubernetes Using GitOps and ArgoCD
PostgreSQL on Kubernetes Using GitOps and ArgoCDPostgreSQL on Kubernetes Using GitOps and ArgoCD
PostgreSQL on Kubernetes Using GitOps and ArgoCD
 
ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf  PARA TRABAJO SEGUROATS-FORMATO cara.pdf  PARA TRABAJO SEGURO
ATS-FORMATO cara.pdf PARA TRABAJO SEGURO
 
CI164 Materiales de Construcción 202401 - Sesión 03 Propiedades No Mecánicas.pdf
CI164 Materiales de Construcción 202401 - Sesión 03 Propiedades No Mecánicas.pdfCI164 Materiales de Construcción 202401 - Sesión 03 Propiedades No Mecánicas.pdf
CI164 Materiales de Construcción 202401 - Sesión 03 Propiedades No Mecánicas.pdf
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
 
INFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdfINFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdf
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...
 
libro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacioneslibro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operaciones
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
 
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptTippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
 
2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica
 
Presentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potablePresentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potable
 
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
analisis tecnologico( diagnostico tecnologico, herramienta de toma de deciones)
 
2e38892c-fc5d-490e-b751-ce772cf4756f.pdf
2e38892c-fc5d-490e-b751-ce772cf4756f.pdf2e38892c-fc5d-490e-b751-ce772cf4756f.pdf
2e38892c-fc5d-490e-b751-ce772cf4756f.pdf
 
Determinación de espacios en la instalación
Determinación de espacios en la instalaciónDeterminación de espacios en la instalación
Determinación de espacios en la instalación
 
sistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gstsistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gst
 
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdfUC Fundamentos de tuberías en equipos de refrigeración m.pdf
UC Fundamentos de tuberías en equipos de refrigeración m.pdf
 

Abstract spss

  • 1. Dr. Ing. Oscar Rafael Guillen Valle PhD. Mail :ingraguiva@gmail.com móviles 990573292 – 992505092 fijo (00511) 2615918 Empresa Ando Educando S.A.C. Jr. Ayacucho 443 Apart. 101 Block A – Magdalena del Mar - Referencia 30 y 31 Av. Brazil PRUEBAS ESTADISTICAS Principios básicos
  • 2. Dr. Ing. Oscar Rafael Guillen Valle PhD. Mail :ingraguiva@gmail.com móviles 990573292 – 992505092 fijo (00511) 2615918 Doctor of Philosophy in Education, PhD de la Cambridge International University, Doctorado en Educación de la Universidad Alas Peruanas, Candidato a Doctorado en Educación de la Universidad José Carlos Mariátegui – Moquegua. Master of Arts in Management and Strategic Management and Education M.A. de la Cambridge International University, Maestría en Docencia Universitaria y Gestión Educativa de la Universidad Alas Peruanas y Maestría en Gestión de la Calidad en Instituciones Educativas de la Universidad Privada Norbert Wiener Ingeniero Químico de la Universidad Nacional del Callao, premiado Doctor Honoris Causa en Investigación Científica en Ciencias de la Educación Superior por la Universidad de los Pueblos de Europa, Doctor Honoris Causa en Educacion por The National University of Criminal and Security Sciences – NUCSS, Premiación Internacional por la Escuela de Enfermería del Valle del Cauca – Colombia. Honoris Causa por el Frente nacional AFROCOLOMBIANO CARMO. Empresa Ando Educando SAC. Jr. Ayacucho 443 Apart. 101 Block A – Magdalena del Mar - Referencia 30 y 31 Av. Brazil Móviles (051)992505092 (051)990573292 Fijo (0511) 2615918
  • 3. Contenido PRUEBAS PARAMETRICAS...................................................................................................................4 PRUEBA DE ALFA DE CRONBACH....................................................................................................4 Contexto.....................................................................................................................................................4 Formulación...............................................................................................................................................5 A partir de las varianzas.....................................................................................................................5 A partir de las correlaciones entre los ítems ................................................................................5 Interpretación de la formulación.........................................................................................................5 Interpretación ...........................................................................................................................................6 Condiciones para hacer Alpha..............................................................................................................6 Análisis........................................................................................................................................................ 7 PRUEBA DE NORMALIDAD .................................................................................................................. 7 PRUEBA DE HOMOCEDASTICIDAD .................................................................................................8 Causas frecuentes de ausencia de homocedasticidad....................................................................9 Variables independientes que posean un gran recorrido con respecto a su propia media ...................................................................................................................................................................9 Omisión de variables importantes dentro del modelo a estimar............................................9 Cambio de estructura .........................................................................................................................9 Utilizar variables no relativizadas..................................................................................................9 Estimar en presencia de heterocedasticidad....................................................................................9 Cálculo incorrecto de las varianza y parámetros ineficientes.................................................9 Invalidación de los contrastes de significancia ......................................................................... 10 PRUEBAS PARAMETRICAS..................................................................................................................11 PRUEBA DE T DE STUDENT.................................................................................................................11 Desapareada..........................................................................................................................................13 Apareada................................................................................................................................................13 Cálculos ................................................................................................................................................ 14 Prueba t para muestra única ............................................................................................................... 14 Pendiente de una regresión lineal.................................................................................................. 14 Prueba t para dos muestras independientes ...............................................................................15 Prueba t dependiente para muestras apareadas.........................................................................17 Prueba T2 monomuestral .................................................................................................................18 Prueba T2 bimuestral.........................................................................................................................18 PRUEBA DE ANOVA CON UN FACTOR .........................................................................................18
  • 4. Introducción.............................................................................................................................................18 Visión genera.......................................................................................................................................20 Supuestos previos.............................................................................................................................. 21 Tipos de modelo...................................................................................................................................... 21 Modelo I: Efectos fijos ...................................................................................................................... 21 Modelo II: Efectos aleatorios (componentes de varianza)..................................................... 21 Grados de libertad..................................................................................................................................22 Pruebas de significación.......................................................................................................................22 Tablas ANOVA.......................................................................................................................................22 PRUEBA DE CORRELACION DE R DE PEARSON......................................................................23 Definición .................................................................................................................................................23 PRUEBAS NO PARAMETRICAS.........................................................................................................25 PRUEBA DE X2 BONDAD DE AJUSTE..............................................................................................26 PRUEBA DE U MANN WITHNEY .....................................................................................................27 Planteamiento de la prueba.................................................................................................................27 Cálculo del estadístico..........................................................................................................................27 Distribución del estadístico[editar] .................................................................................................28 PRUEBA DE KRUSKAL WALLIS........................................................................................................28 Método......................................................................................................................................................28 PRUEBA DE WILCONXON..................................................................................................................29 Planteamiento .........................................................................................................................................29 Suposiciones............................................................................................................................................30 Método......................................................................................................................................................30 PRUEBA DE Q DE COCHRAM............................................................................................................30 Antecedentes...........................................................................................................................................30 Región crítica ...........................................................................................................................................31 Supuestos..................................................................................................................................................32 Pruebas relacionadas.............................................................................................................................32 PRUEBA DE MC NEMAR ......................................................................................................................32 PRUEBA DE FRIEDMAN .......................................................................................................................34 Método......................................................................................................................................................34 PRUEBA DE SPEARMAN.......................................................................................................................35 Determinando la significación estadística......................................................................................35 PRUEBA BINOIMIAL ..............................................................................................................................36 Experimento binomial..........................................................................................................................37
  • 5. Características analíticas.....................................................................................................................37 Ejemplo.................................................................................................................................................37 Propiedades..............................................................................................................................................37 Relaciones con otras variables aleatorias........................................................................................38 Propiedades reproductivas..................................................................................................................38 PRUEBA ANDERSON - DARLING.....................................................................................................38 PRUEBA DE COHEN KAPPA ...............................................................................................................39 Cálculo ......................................................................................................................................................39 PRUEBA DE FISHER............................................................................................................................... 40 PRUEBA DE KENDALL........................................................................................................................... 41 En pruebas estadísticas ........................................................................................................................ 41 Fórmula para el cálculo ........................................................................................................................ 41 Pasos........................................................................................................................................................... 41 Importancia..............................................................................................................................................42 PRUEBA DE KOLMOGOROV - SMIRNOV.....................................................................................42 Estadístico................................................................................................................................................42 PRUEBA DE KUIPER...............................................................................................................................42 PRUEBA DE MEDIANA..........................................................................................................................43 PRUEBA DE SPEARMAN.......................................................................................................................43 Determinando la significación estadístic ....................................................................................... 44 TABLAS DE CONTIGENCIA.................................................................................................................45 Estudio de diferencia de proporciones.............................................................................................46 TABLAS DE WALD - WOLFOWITZ.................................................................................................46
  • 6. Dr. Ing. Oscar Rafael Guillen Valle PhD. Mail :ingraguiva@gmail.com móviles 990573292 – 992505092 fijo (00511) 2615918
  • 7. USO ESTADISTICO DE PRUEBAS USANDO EL SPSS Fuente: Guía de Estadística para la formación de investigadores - Dr. Oscar Rafael Guillen Valle PhD. Pag. 15 TIPO DE INVESTIGACION VARIABLES GRUPO MUESTRAL PROBLEMA OBJETIVOS DISENO SPSS 22 ESTADISTICOS DESCRIPTIVOS 1 O MAS 1 O MAS DESCRIPTIVO DESCRIPTIVO O PUEDE OBVIARSE DESCRIPTIVO  MEDIDAS DE TENDENCIA CENTRAL  MEDIDA DE ANALISIS DE FRECUENCIA DESCRIPTIVA COMPARATIVA 1 O MAS 2 O MAS COMPARATIVO COMPARATIVO DESCRIPTIVO COMPARATIVO  T DE STUDENT  U DE MANN WHITNEY  Z DE COMPARACION DE PROPORCIONES  ANOVA  H. DE KRUSKAL WALLIS DESCRIPTIVA COMPARATIVA 2 O MAS 1 CORRELACIONAL CORRELACIONAL DESCRIPTIVO CORRELACIONAL  R DE PEARSON  RHO DE SPERAMAN  CHI CUADRADO EXPERIMENTAL 2 O MAS 2 O MAS CAUSAL O EXPLICATIVO CAUSAL O EXPLICATIVO DISENOS EXPERIMENTALES O DIVERSOS  T DE STUDENT  U DE MANN WHITNY  Z DE CONPARACION DE PROPORCIONES  ANOVA  H DE KRUSKAL WALLIS CAUSAL COMPARATIVO 2 O MAS 2 O MAS CAUSAL CAUSAL EX POST FACTO CAUSAL COMPARATIVO  T DE STUDENT  U DE MANN WHITNY  Z DE CONPARACION DE PROPORCIONES  ANOVA  H DE KRUSKAL WALLIS CORRELACION CAUSAL 2 O MAS 1 CAUSAL CAUSAL EX POST FACTO CORRELACIONAL CAUSAL  CORRELACION CANONICA  MODELO DE ECUACIONES ESTRUCTURALES
  • 8. Dr. Ing. Oscar Rafael Guillen Valle PhD. Mail :ingraguiva@gmail.com móviles 990573292 – 992505092 fijo (00511) 2615918 Para iniciar a leer esta guía debemos de recordar las siguientes definiciones: Contraste de hipótesis: Test de hipótesis Correlación: Medida de la relación existente entre dos variables. Su valor está comprendido entre –1 y 1. Si es negativo la relación entre las variables es inversa, es decir, a medida que aumentan los valores de una decrecen los de la otra. Si es positivo la asociación es directa, es decir, los valores de una variable aumentan con la otra. Un valor de cero indica ausencia de relación. Cuando las variables son continuas y tienen una relación lineal, el coeficiente de correlación lineal de Pearson es una medida de asociación adecuada. Cuando las variables no son continuas se utilizan otros coeficientes de correlación. Desviación típica: Valor mayor o igual a cero que mide la dispersión de una característica de los individuos alrededor de la media del grupo. Los sujetos serán más parecidos u homogéneos entre sí cuanto más próxima a cero esté la desviación típica. Su unidad de medida coincide con la unidad de medida de la variable original. Es la raíz cuadrada de la varianza. Diseño de experimentos: Método estadístico cuyo objetivo es estudiar cómo cambian los valores de una variable respuesta cuando se modifican los valores de una o varias variables independientes, denominadas factores experimentales. Un experimento bien diseñado puede ser el punto de partida para establecer relaciones causales entre las variables estudiadas. Estadística: Ciencia que estudia los fenómenos aleatorios. Es un área de conocimiento específico de las Matemáticas que comenzó a desarrollarse a mediados del siglo XVII. Sus técnicas permiten resumir grandes cantidades de información, estudiar la relación entre variables, investigar la causa de algunos sucesos o predecir la evolución de un fenómeno en el tiempo y en el espacio, entre otras cosas. Estimador: Valor numérico extraído de las observaciones de una muestra que se aproxima en mayor o menor medida al parámetro de la población sobre el que se quiere investigar. Así, la edad media de un grupo de individuos elegidos aleatoriamente de una población es un estimador de la verdadera edad media de la población. Error alfa (α): Valor comprendido entre 0 y 1 que mide cuánto se equivoca el investigador al aceptar como verdadera la hipótesis alternativa de un test de hipótesis. Cuanto más próximo a cero esté, menor será el riesgo de establecer hipótesis falsas en la población de estudio. Su valor se fija a priori, antes de comenzar la investigación, para conocer el número de individuos necesario para llevar a cabo el estudio. Cuanto más pequeño sea el error alfa mayor será el tamaño de la muestra y, por tanto, más precisos serán los resultados. Habitualmente este error se fija en 0.05, aunque puede variar dependiendo del tipo de investigación. Error beta (β): Valor comprendido entre 0 y 1 que mide cuánto se equivoca el investigador al aceptar como verdadera la hipótesis nula de un test de hipótesis. Cuanto más próximo a cero esté, menor será el riesgo de establecer hipótesis falsas en la población de estudio. Su
  • 9. valor se fija a priori, antes de comenzar la investigación, para conocer el número de individuos necesario para llevar a cabo el estudio. Cuanto más pequeño sea el error beta mayor será el tamaño de la muestra y, por tanto, más precisos serán los resultados. Habitualmente este error se fija en 0.20, aunque puede variar dependiendo del tipo de investigación. Error estándar: Variabilidad del estimador cuando se obtiene a partir de muestras diferentes, resultando un valor distinto en cada muestra. El error estándar siempre es mayor que cero. Cuanto más pequeño sea mayor es la precisión de la estimación realizada. Especificidad: Probabilidad de que una prueba diagnóstica proporcione un resultado negativo cuando el sujeto no está afectado por la enfermedad investigada. Lo ideal es que esta probabilidad sea 1 siempre que la prueba diagnóstica se aplique en el grupo de población libre de enfermedad. Sin embargo, no siempre es así. Cualquier prueba puede fallar mostrando un resultado positivo en un individuo sano. La especificidad es, por tanto, la capacidad de la prueba diagnóstica para detectar la ausencia de la enfermedad estudiada. Falso negativo: Probabilidad de que una prueba diagnóstica proporcione un resultado negativo cuando el sujeto realmente tiene la enfermedad investigada. Es el valor complementario a la sensibilidad. Falso positivo: Probabilidad de que una prueba diagnóstica proporcione un resultado positivo cuando el sujeto no está afectado por la enfermedad investigada. Es el valor complementario a la especificidad. Hipótesis nula: Afirmación establecida por el investigador sobre la población de estudio cuando realiza un test o contraste de hipótesis. Esta hipótesis siempre se asume verdadera a menos que los datos de la muestra proporcionen evidencia de lo contrario. Se suele formular mediante una negación o una igualdad. Así, la hipótesis nula de un estudio sobre cirrosis hepática puede establecer que no existe relación entre el consumo habitual de alcohol y la cirrosis o, de forma equivalente, que el porcentaje de personas con cirrosis es igual en bebedores y no bebedores. Hipótesis alternativa: Aseveración opuesta a la hipótesis nula en un test o contraste de hipótesis. Así, la hipótesis alternativa de un estudio sobre cirrosis hepática puede establecer que existe relación entre el consumo habitual de alcohol y la cirrosis o, de forma equivalente, que el porcentaje de personas con cirrosis es diferente en bebedores y no bebedores. Inferencia estadística: Procedimiento que permiten extrapolar o generalizar a la población los resultados obtenidos en el análisis de una muestra. Las técnicas utilizadas para ello incluyen los intervalos de confianza y los tests de hipótesis. Intervalo de confianza: Rango de valores que, con una cierta confianza, contiene al parámetro poblacional que se pretende conocer. El intervalo de confianza se construye a partir de la información de la muestra y es una de las herramientas utilizadas para extrapolar los resultados a la población. Media: Valor numérico en torno al cual se sitúan los valores de una característica de los individuos. Es un representante del grupo de sujetos analizado.
  • 10. Muestra: Grupo de individuos extraídos aleatoriamente de la población de estudio. La información proporcionada por estos sujetos se almacena en una base de datos para analizarla posteriormente. Los resultados obtenidos en este análisis son una aproximación a lo que realmente ocurre en toda la población. La inferencia estadística permite extrapolar los resultados de la muestra a la población y conocer el error cometido en estas estimaciones. Nivel de confianza (1-α): Probabilidad de que el intervalo de confianza obtenido a partir de los datos de la muestra contenga al parámetro de la población que se pretende estimar. Aunque puede tomar cualquier valor entre 0 y 1, el más usual es 0.95 (95%). Nivel de significación (α): Error alfa. Población: Todos los individuos sobre los que se desea realizar una investigación o estudio. Cuando la información necesaria para el estudio ha sido extraída de todos y cada uno de los individuos de la población se habla de censo de población. Si por el contrario no es posible acceder a todos los sujetos por falta de recursos se procede a tomar una muestra aleatoria de la población de estudio. Potencia (1-β): Valor comprendido entre 0 y 1 complementario al error beta. Mide el grado de acierto del investigador cuando acepta como verdadera la hipótesis nula de un test de hipótesis. Su valor se fija a priori, antes de comenzar la investigación, para conocer el número de individuos necesario para llevar a cabo el estudio. Cuanto mayor sea la potencia, mayor será el tamaño de la muestra y, por tanto, más precisos serán los resultados obtenidos. Habitualmente este error se fija en 0.80, aunque puede variar dependiendo del tipo de investigación. Probabilidad: Medida adimensional que cuantifica la ocurrencia de los fenómenos producidos por azar. Sus valores son números comprendidos entre 0 y 1. Cuando la probabilidad es cero, el suceso no ocurrirá nunca. Si la probabilidad es uno, ocurrirá con total certeza. Los valores intermedios miden el gradiente de certidumbre. Prueba diagnóstica: Procedimiento destinado a detectar la presencia o ausencia de una enfermedad en el individuo. Su capacidad de discriminación está determinada por la sensibilidad y la especificidad, características propias de cada prueba o test diagnóstico. Regresión: Técnicas estadísticas que permiten determinar la ecuación matemática que relaciona un efecto (variable dependiente o respuesta) con una o varias causas (variables independientes o predictoras). Sensibilidad: Probabilidad de que una prueba diagnóstica proporcione un resultado positivo cuando el sujeto tiene realmente la enfermedad. Lo ideal es que esta probabilidad sea 1 siempre que la prueba diagnóstica se aplique en el grupo de población afectado por la enfermedad. Sin embargo, no siempre es así. Cualquier prueba puede fallar mostrando un resultado negativo en un individuo enfermo. La sensibilidad es, por tanto, la capacidad de la prueba diagnóstica para detectar la presencia de la enfermedad estudiada. Tamaño de muestra: Número de sujetos necesario para llevar a cabo una investigación, de manera que los resultados obtenidos a partir de ellos se aproximen a los resultados que se hubieran obtenido al estudiar a toda la población. El error cometido en esa extrapolación de
  • 11. resultados es conocido y prefijado antes de comenzar la investigación. El tamaño de muestra será mayor cuanto más pequeño sea el error que se desee cometer. Test de hipótesis: Técnica estadística utilizada para decidir si una afirmación establecida por el investigador sobre la población de estudio es compatible con los resultados observados en una muestra. Cualquier test de hipótesis se compone de una hipótesis nula, formulada en términos de igualdad o negación, y una hipótesis alternativa. Test diagnóstico: Prueba diagnóstica Valor P: Valor comprendido entre 0 y 1 que mide el grado de acuerdo entre la información que proporciona la muestra y la hipótesis nula del test de hipótesis. Cuanto más próximo a cero esté, menor será el acuerdo entre ambas. Así, la hipótesis nula será rechazada en favor de la alternativa siempre que el Valor P sea muy pequeño, inferior al nivel de significación preestablecido. Valor predictivo negativo: Probabilidad de que un individuo no padezca la enfermedad cuando la prueba diagnóstica aplicada proporcione un resultado negativo. Este valor depende tanto de la especificidad y de la proporción de falsos negativos de la prueba como del número de personas enfermas registrado en la población a la que pertenece el individuo. Por este motivo, el valor predictivo negativo puede ser diferente dependiendo del país o región en que se calcule, aún utilizando la misma prueba diagnóstica. Valor predictivo positivo: Probabilidad de que un individuo padezca la enfermedad cuando la prueba diagnóstica aplicada proporcione un resultado positivo. Este valor depende tanto de la sensibilidad y de la proporción de falsos positivos de la prueba como del número de personas enfermas registrado en la población a la que pertenece el individuo. Por este motivo, el valor predictivo positivo puede ser diferente dependiendo del país o región en que se calcule, aún utilizando la misma prueba diagnóstica. Variable: Cualquier característica de los individuos que componen la muestra que toma un valor diferente para cada uno de ellos. La edad y el sexo son variables habituales en muchas investigaciones. Variable cualitativa: Característica que recoge una cualidad de los individuos de la muestra. Una variable cualitativa no puede medirse con un instrumento ni lleva asociada una unidad de medida. La gravedad de un accidente es una variable cualitativa ordinal, ya que registra una cualidad que pueden ordenarse de forma natural de menor a mayor severidad. El sexo, en cambio, es una variable cualitativa nominal porque sus categorías, masculino y femenino, no tienen un orden natural preestablecido. Variable cuantitativa: Característica de los individuos de la muestra que puede medirse con un instrumento y lleva asociada una unidad de medida. El peso es una variable cuantitativa, ya que puede medirse con una báscula y su unidad de medida es el gramo. Además, esta variable es continua, ya que el valor del peso asignado a cada individuo puede tener tantos decimales como admita la precisión de la báscula. Otras variables cuantitativas, como el número de hijos, se denominan discretas porque sus valores solo pueden ser números enteros, sin decimales.
  • 12. Varianza: Valor mayor o igual a cero que mide la dispersión de una característica de los individuos alrededor de la media del grupo. Los sujetos serán más parecidos u homogéneos entre sí cuanto más próxima a cero esté la varianza. Su unidad de medida es la unidad de medida de la variable original elevada al cuadrado. Su valor coincide con el cuadrado de la desviación típica. PRUEBAS PARAMETRICAS La estadística paramétrica es una rama de la estadística inferencial que comprende los procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos reales. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos cuál es la media y la desviación de dicha normal. La media y la desviación típica de la desviación normal son los dos parámetros que queremos estimar. Cuando desconocemos totalmente que distribución siguen nuestros datos entonces deberemos aplicar primero un test no paramétrico, que nos ayude a conocer primero la distribución. La mayoría de procedimientos paramétricos requiere conocer la forma de distribución para las mediciones resultantes de la población estudiada. Para la inferencia paramétrica es requerida como mínimo una escala de intervalo, esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo. Es decir nuestros datos pueden estar categorizados en: menores de 20 años, de 20 a 40 años, de 40 a 60, de 60 a 80, etc, ya que hay números con los cuales realizar cálculos estadísticos. Sin embargo, datos categorizados en: niños, jóvenes, adultos y ancianos no pueden ser interpretados mediante la estadística paramétrica ya que no se puede hallar un parámetro numérico (como por ejemplo la media de edad) cuando los datos no son numéricos. PRUEBA DE ALFA DE CRONBACH En psicometría, el Alfa de Cronbach es un coeficiente que sirve para medir la fiabilidad de una escala de medida, y cuya denominación Alfa fue realizada porCronbach en 1951, aunque sus orígenes se encuentran en los trabajos de Hoyt (1941) y de Guttman (1945). Contexto Un investigador trata de medir una cualidad no directamente observable (por ejemplo, la inteligencia) en una población de sujetos. Para ello mide n variables que sí son observables (por ejemplo, n respuestas a un cuestionario o un conjunto de n problemas lógicos) de cada uno de los sujetos. Se supone que las variables están relacionadas con la magnitud inobservable de interés. En particular, las n variables deberían realizar mediciones estables y consistentes, con un elevado nivel de correlación entre ellas.
  • 13. El alfa de Cronbach permite cuantificar el nivel de fiabilidad de una escala de medida para la magnitud inobservable construida a partir de las n variables observadas. Formulación El alfa de Cronbach no deja de ser una media ponderada de las correlaciones entre las variables (o ítems) que forman parte de la escala. Puede calcularse de dos formas: a partir de las varianzas (alpha de Cronbach) o de las correlaciones de los ítems (Alpha de Cronbach estandarizado). Hay que advertir que ambas fórmulas son versiones de la misma y que pueden deducirse la una de la otra. El alpha de Cronbach y el alpha de Cronbach estandarizados, coinciden cuando se estandarizan las variables originales (items). A partir de las varianzas A partir de las varianzas, el alfa de Cronbach se calcula así: donde  es la varianza del ítem i,  es la varianza de los valores totales observados y  es el número de preguntas o ítems. A partir de las correlaciones entre los ítems A partir de las correlaciones entre los ítems, el alfa de Cronbach estandarizado se calcula así: donde  es el número de items  es el promedio de las correlaciones lineales entre cada uno de los ítems (se tendrán pares de correlaciones). Interpretación de la formulación Lo deseable para crear una escala fiable es que los ítems estén muy correlacionados entre sí. El nivel máximo de correlación se alcanza cuando los ítems son todos iguales.
  • 14. En tal caso, por las propiedades de la varianza, y , por lo que el valor del alfa es, simplificando, igual a 1. Si los ítems fuesen independientes entre sí (por lo que no podrían constituir conjuntamente una escala fiable), entonces se tendría que y el valor de alfa sería 0. Hay que advertir que el alfa de Cronbach puede llegar a alcanzar valores negativos de existir parejas de ítems negativamente correlacionados. Interpretación El alfa de Cronbach no es un estadístico al uso, por lo que no viene acompañado de ningún p- valor que permita rechazar la hipótesis de fiabilidad en la escala. No obstante, cuanto más se aproxime a su valor máximo, 1, mayor es la fiabilidad de la escala. Además, en determinados contextos y por tácito convenio, se considera que valores del alfa superiores a 0,7 o 0,8 (dependiendo de la fuente) son suficientes para garantizar la fiabilidad de la escala.. Condiciones para hacer Alpha Este alfa siempre se hará por escalas de tal manera que, a modo de ejemplo, en el test STAI de ansiedad rasgo y ansiedad estado publicado por TEA, se llevarían a cabo dos índices de consistencia (el alfa correspondiente a ansiedad rasgo y el alfa correspondiente a ansiedad estado). Ahora bien, para poder calcular la fiabilidad de un test, este debe cumplir con dos requisitos previos: 1. Estar formado por un conjunto de ítems que se combinan aditivamente para hallar una puntuación global (esto es, la puntuaciones se suman y dan un total que es el que se interpreta). 2. Todos los ítems miden la característica deseada en la misma dirección. Es decir, los ítems de cada una de las escalas tienen el mismo sentido de respuesta (a mayor puntuación, más ansiedad, por ejemplo; este sentido de respuesta viene especificado en el manual del test). A modo de ejemplo, ocurre que cuando se redacta un test con respuestas tipo Likert (pongamos 0=nada a 3=mucho), se observan ítems de la siguiente forma: -"Me siento calmado" → contestar con 3 significaría poca ansiedad (a más puntuación, menos ansiedad). -"Me siento tenso" → contestar con 3 significaría mucha ansiedad (a más puntuación, más ansiedad). El segundo ítem es el que se corresponde con el sentido de respuesta especificado en el manual, pero como el primero no cumple esa relación, deberá ser invertido para que el test así tenga todos los ítems con el mismo sentido y se pueda, pues, calcular el índice de consistencia o Alfa de Cronbach. (Este proceso de cambio de sentido se llevaría a cabo, en
  • 15. el SPSS, programa estadístico más popular entre los psicólogos, mediante una recodificación de datos). Análisis Para el análisis de resultados, se recomienda lanzar los estadísticos. Al hacerlo, obtendremos dos tipos de resultados: los estadísticos de los ítems y de la escala y los estadísticos de los ítems en relación con el valor total. Estas dos tablas de resultados serán fundamentales para la interpretación y posible reformulación del test. Para ello es necesario explicar dos conceptos: a. Coeficiente de correlación lineal: Mide el grado y la dirección de la asociación lineal entre dos variables cuantitativas. b. Correlación Item-Total: Esta correlación es de gran relevancia porque indica la correlación lineal entre el ítem y el puntaje total (sin considerar el item en evaluación) obtenido por los jueces indicando la magnitud y dirección de esta relación. Los estudios empíricos de Borg (1963) que consideran tamaños muestrales iguales o mayores que 100, mostraron que las correlaciones iguales o mayores que .35 suelen ser estadísticamente significativas al 1% (Cohen & Manion, 2002). Una baja correlación entre el ítem y el puntaje total puede deberse a diversas causas, ya sea de mala redacción del ítem o que el mismo no sirve para medir lo que se desea medir. PRUEBA DE NORMALIDAD En estadística, el Test de Shapiro–Wilk se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra x1, ..., xnproviene de una población normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk.1 Se considera uno de los test más potentes para el contraste de normalidad, sobre todo para muestras pequeñas (n<30). El estadístico del test es: donde  x(i) (con el subíndice i entre paréntesis) es el número que ocupa la i-ésima posición en la muestra;  = (x1 + ... + xn) / n es la media muestral;  las variables ai se calculan2
  • 16. donde siendo m1, ..., mn son los valores medios del estadístico ordenado, de variables aleatorias independientes e identicamente distribuidas, muestreadas de distribuciones normales. V es la matriz de covarianzas de ese estadístico de orden. La hipótesis nula se rechazará si W es demasiado pequeño.3 Interpretación: Siendo la hipótesis nula que la población está distribuida normalmente, si el p-valor es menor a alfa (nivel de confianza) entonces la hipótesis nula es rechazada (se concluye que los datos no vienen de una distribución normal). Si el p-valor es mayor a alfa, no se rechaza la hipótesis y se concluye que los datos siguen una distribución normal. PRUEBA DE HOMOCEDASTICIDAD En estadísticas se dice que un modelo predictivo presenta homocedasticidad cuando la varianza del error de la variable endógena se mantiene a lo largo de las observaciones. En otras palabras, la varianza de los errores es constante. Un modelo estadístico relaciona el valor de una variable a predecir con el de otras. Si el modelo es insesgado, el valor predicho es la media de la variable a predecir. En cualquier caso, el modelo da una idea del valor que tomará la variable a prededir. Por simplificar de análisis, si se supone que la variable a predecir es escalar, aquí definida como , y que se explica mediante un conjunto de variables que se agregan en el vector . El valor predicho por el modelo se representará por . El error cometido por el modelo viene dado, entonces, por: Este error es una variable aleatoria: tomará un valor distinto cada vez que se ejecute el modelo. Se habla dehomocedasticidad si el error cometido por el modelo tiene siempre la misma varianza. En particular, si el modelo es homocedástico, el valor de las variables explicativas, , no afectará a la varianza del error. La homocedasticidad es una propiedad fundamental del modelo de regresión lineal general y está dentro de sus supuestos clásicos básicos. Formalizando, se dice que existe homocedasticidad cuando la varianza de los errores estocásticos de la regresión es la misma para cada observación i (de 1 a n observaciones), es decir: donde es un escalar constante para todo i. Lo que significaría que habría una distribución de probabilidad de idéntica amplitud para cada variable aleatoria.
  • 17. Esta cualidad es necesaria, según el Teorema de Gauss-Márkov, para que en un modelo los coeficientes estimados sean los mejores o eficientes, lineales e insesgados. Cuando no se cumple esta situación, se dice que existe heterocedasticidad, que es cuando la varianza de cada término de perturbación no es un número constante . Este fenómeno suele ser muy común en datos de Corte Transversal y también se presenta, menos frecuentemente, en series de tiempo. Si se regresiona un modelo a través de Mínimos Cuadrados Ordinarios con presencia de heterocedasticidad, los coeficientes siguen siendo lineales e insesgados pero ya no poseen mínima varianza (eficiencia). Causas frecuentes de ausencia de homocedasticidad Variables independientes que posean un gran recorrido con respecto a su propia media Esto generalmente ocurre cuando se ha dispuesto arbitrariamente el orden de las observaciones, generando, casualmente que existan observaciones con grandes valores en una determinada variable explicativa y lo mismo con valores pequeños de esta misma variable. Omisión de variables importantes dentro del modelo a estimar Obviamente, si se omite una variable de relevancia en la especificación, tal variable quedará parcialmente recogida dentro de las perturbaciones aleatorias, introduciendo en estas su propia variación, que no será necesariamente fija. Cambio de estructura El hecho de que se produzca un cambio en la estructura determina un mal ajuste de los parámetros al conjunto de los datos muestrales. Y este no tiene porque influir del mismo modo en todo el recorrido de la muestra, pudiendo producir cuantías de desajuste del modelo diferentes y, por lo tanto, varianza no constante Utilizar variables no relativizadas Cuando existen observaciones dentro de una variable en concreto, y que poseen un valor mayor a las otras variables explicativas, puede originar valores del error diferentes. Esta situación es similar a la explicada al principio pero con la salvedad que en este caso se compara con las otras variables (inclusive con la dependiente) y no con respecto a su media. Estimar en presencia de heterocedasticidad Cálculo incorrecto de las varianza y parámetros ineficientes
  • 18. La mayor varianza por empleo de MCO en presencia de heterocedasticidad puede producir un incremento de más de 10 veces en la varianza estimada del parámetro constante. Invalidación de los contrastes de significancia Ya que se aceptaría la hipótesis nula de los contrastes de significancia más veces de las reales. Generalmente resulta que ciertas variables podrían resultar no ser significativas cuando lo son realmente.
  • 19. PRUEBAS PARAMETRICAS PRUEBA DE T DE STUDENT En estadística, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la que el estadístico utilizado tiene una distribución t de Student si la hipótesis nula es cierta. Se aplica cuando la población estudiada sigue una distribución normal pero el tamaño muestral es demasiado pequeño como para que el estadístico en el que está basada la inferencia esté normalmente distribuido, utilizándose una estimación de la desviación típica en lugar del valor real. Es utilizado en análisis discriminante. Usos Entre los usos más frecuentes de las pruebas t se encuentran:  El test de locación de muestra única por el cual se comprueba si la media de una población distribuida normalmente tiene un valor especificado en una hipótesis nula.  El test de locación para dos muestras, por el cual se comprueba si las medias de dos poblaciones distribuidas en forma normal son iguales. Todos estos test son usualmente llamados test t de Student, a pesar de que estrictamente hablando, tal nombre sólo debería ser utilizado si las varianzas de las dos poblaciones estudiadas pueden ser asumidas como iguales; la forma de los ensayos que se utilizan cuando esta asunción se deja de lado suelen ser llamados a veces como Prueba t de Welch. Estas pruebas suelen ser comúnmente nombradas como pruebas t desapareadas o de muestras independientes, debido a que tienen su aplicación más típica cuando las unidades estadísticas que definen a ambas muestras que están siendo comparadas no se superponen.  El test de hipótesis nula por el cual se demuestra que la diferencia entre dos respuestas medidas en las mismas unidades estadísticas es cero. Por ejemplo, supóngase que se mide el tamaño del tumor de un paciente con cáncer. Si el tratamiento resulta efectivo, lo esperable seria que el tumor de muchos pacientes disminuyera de tamaño luego de seguir el tratamiento. Esto con frecuencia es referido como prueba t de mediciones apareadas o repetidas.  El test para comprobar si la pendiente de una regresión lineal difiere estadísticamente de cero.
  • 20. Estadísticos T y Z La mayor parte de las pruebas estadísticas t tienen la forma , donde Z y s son funciones de los datos estudiados. Típicamente, Z se diseña de forma tal que resulte sensible a la hipótesis alternativa (p.ej. que su magnitud tienda a ser mayor cuando la hipótesis alternativa es verdadera), mientras que s es un parámetro de escala que permite que la distribución de T pueda ser determinada. Por ejemplo, en una prueba t de muestra única, , donde es la media muestral de los datos, n es el tamaño muestral, y σ es la desviación estándar de la población de datos; s en una prueba de muestra única es , donde es la desviación estándar muestral. Las asunciones subyacentes en una prueba t son:  Que Z sigue una distribución normal bajo la hipótesis nula.  ps2 sigue una distribución χ2 con p grados de libertad bajo la hipótesis nula, y donde p es una constante positiva.  Z y s son estadísticamente independientes. En una prueba t específica, estas condiciones son consecuencias de la población que está siendo estudiada, y de la forma en que los datos han sido muestreados. Por ejemplo, en la prueba t de comparación de medias de dos muestras independientes, deberíamos realizar las siguientes asunciones:  Cada una de las dos poblaciones que están siendo comparadas sigue una distribución normal. Esto puede ser demostrado utilizando una prueba de normalidad, tales como una prueba Shapiro-Wilk o Kolmogórov-Smirnov, o puede ser determinado gráficamente por medio de un gráfico de cuantiles normalesQ-Q plot.  Si se está utilizando la definición original de Student sobre su prueba t, las dos poblaciones a ser comparadas deben poseer las mismas varianzas, (esto se puede comprobar utilizando una prueba F de igualdad de varianzas, una prueba de Levene, una prueba de Bartlett, o una prueba de Brown-Forsythe, o estimarla gráficamente por medio de un gráfico Q-Q plot). Si los tamaños muestrales de los dos grupos comparados son iguales, la prueba original de Student es altamente resistente a la presencia de varianzas desiguales. la Prueba de Welch es insensible a la igualdad de las varianzas, independientemente de si los tamaños de muestra son similares.  Los datos usados para llevar a cabo la prueba deben ser muestreados independientemente para cada una de las dos poblaciones que se comparan. Esto en general no es posible determinarlo a partir de los datos, pero si se conoce que los datos han sido muestreados de manera dependiente (por ejemplo si fueron muestreados por grupos), entonces la prueba t clásica que aquí se analiza, puede conducir a resultados erróneos.
  • 21. Pruebas t para dos muestras apareadas y desapareadas Las pruebas-t de dos muestras para probar la diferencia en las medias pueden ser desapareadas o en parejas. Las pruebas t pareadas son una forma de bloqueo estadístico, y poseen un mayor poder estadístico que las pruebas no apareadas cuando las unidades apareadas son similares con respecto a los "factores de ruido" que son independientes de la pertenencia a los dos grupos que se comparan [cita requerida] . En un contexto diferente, las pruebas-t apareadas pueden utilizarse para reducir los efectos de los factores de confusión en un estudio observacional. Desapareada Las pruebas t desapareadas o de muestras independientes, se utilizan cuando se obtienen dos grupos de muestras aleatorias, independientes e idénticamente distribuidas a partir de las dos poblaciones a ser comparadas. Por ejemplo, supóngase que estamos evaluando el efecto de un tratamiento médico, y reclutamos a 100 sujetos para el estudio. Luego elegimos aleatoriamente 50 sujetos para el grupo en tratamiento y 50 sujetos para el grupo de control. En este caso, obtenemos dos muestras independientes y podríamos utilizar la forma desapareada de la prueba t. La elección aleatoria no es esencial en este caso, si contactamos a 100 personas por teléfono y obtenemos la edad y género de cada una, y luego se utiliza una prueba t bimuestral para ver en que forma la media de edades difiere por género, esto también sería una prueba t de muestras independientes, a pesar de que los datos son observacionales. Apareada Las pruebas t de muestras dependientes o apareadas, consisten típicamente en una muestra de pares de valores con similares unidades estadísticas, o un grupo de unidades que han sido evaluadas en dos ocasiones diferentes (una prueba t de mediciones repetitivas). Un ejemplo típico de prueba t para mediciones repetitivas sería por ejemplo que los sujetos sean evaluados antes y después de un tratamiento. Una prueba 't basada en la coincidencia de pares muestrales se obtiene de una muestra desapareada que luego es utilizada para formar una muestra apareada, utilizando para ello variables adicionales que fueron medidas conjuntamente con la variable de interés.8 La valoración de la coincidencia se lleva a cabo mediante la identificación de pares de valores que consisten en una observación de cada una de las dos muestras, donde las observaciones del par son similares en términos de otras variables medidas. Este enfoque se utiliza a menudo en los estudios observacionales para reducir o eliminar los efectos de los factores de confusión.
  • 22. Cálculos Las expresiones explícitas que pueden ser utilizadas para obtener varias pruebas t se dan a continuación. En cada caso, se muestra la fórmula para una prueba estadística que o bien siga exactamente o aproxime a una distribución t de Student bajo la hipótesis nula. Además, se dan los apropiados grados de libertad en cada caso. Cada una de estas estadísticas se pueden utilizar para llevar a cabo ya sea un prueba de una cola o prueba de dos colas. Una vez que se ha determinado un valor t, es posible encontrar un valor P asociado utilizando para ello una tabla de valores de distribución t de Student. Si el valor P calulado es menor al límite elegido por significancia estadística (usualmente a niveles de significancia 0,10; 0,05 o 0,01), entonces la hipótesis nula se rechaza en favor de la hipótesis alternativa. Prueba t para muestra única En esta prueba se evalúa la hipótesis nula de que la media de la población estudiada es igual a un valor especificado μ0, se hace uso del estadístico: donde es la media muestral, s es la desviación estándar muestral y n es el tamaño de la muestra. Los grados de libertad utilizados en esta prueba se corresponden al valor n − 1. Pendiente de una regresión lineal Supóngase que se está ajustando el modelo: donde xi, i = 1, ..., n son conocidos, α y β son desconocidos, y εi es el error aleatorio en los residuales que se encuentra normalmente distribuido, con un valor esperado 0 y una varianza desconocida σ2 , e Yi, i = 1, ..., n son las observaciones. Se desea probar la hipótesis nula de que la pendiente β es igual a algún valor especificado β0 (a menudo toma el valor 0, en cuyo caso la hipótesis es que x e y no están relacionados). sea Luego
  • 23. tiene una distribución t con n − 2 grados de libertad si la hipótesis nula es verdadera. El error estándar de la pendiente: puede ser reescrito en términos de los residuales: Luego se encuentra dado por: Prueba t para dos muestras independientes Iguales tamaños muestrales, iguales varianzas Esta prueba se utiliza solamente cuando:  los dos tamaños muestrales (esto es, el número, n, de participantes en cada grupo) son iguales;  se puede asumir que las dos distribuciones poseen la misma varianza. Las violaciones a estos presupuestos se discuten más abajo. El estadístico t a probar si las medias son diferentes se puede calcular como sigue: Donde
  • 24. Aquí es la desviación estándar combinada, 1 = grupo uno, 2 = grupo 2. El denominador de t es el error estándar de la diferencia entre las dos medias. Por prueba de significancia, los grados de libertad de esta prueba se obtienen como 2n − 2 donde n es el número de participantes en cada grupo. Diferentes tamaños muestrales, iguales varianza Esta prueba se puede utilizar únicamente si se puede asumir que las dos distribuciones poseen la misma varianza. (Cuando este presupuesto se viola, mirar más abajo). El estadístico t si las medias son diferentes puede ser calculado como sigue: Donde Nótese que las fórmulas de arriba, son generalizaciones del caso que se da cuando ambas muestras poseen igual tamaño (sustituyendo n por n1 y n2). es un estimador de la desviación estándar común de ambas muestras: esto se define así para que su cuadrado sea un estimador sin sesgo de la varianza común sea o no la media iguales. En esta fórmula, n = número de participantes, 1 = grupo uno, 2 = grupo dos. n − 1 es el número de grados de libertad para cada grupo, y el tamaño muestral total menos dos (esto es, n1 + n2 − 2) es el número de grados de libertad utilizados para la prueba de significancia. Diferentes tamaños muestrales, diferentes varianzas Esta prueba es también conocida como prueba t de Welch y es utilizada únicamente cuando se puede asumir que las dos varianzas poblacionales son diferentes (los tamaños muestrales pueden o no ser iguales) y por lo tanto deben ser estimadas por separado. El estadístico t a probar cuando las medias poblacionales son distintas puede ser calculado como sigue: donde
  • 25. Aquí s2 es el estimador sin sesgo de la varianza de las dos muestras, n = número de participantes, 1 = grupo uno, 2 = grupo dos. Nótese que en este caso, no es la varianza combinada. Para su utilización en pruebas de significancia, la distribución de este estadístico es aproximadamente igual a una distribución t ordinaria con los grados de libertad calculados según: Esta ecuación es llamada la ecuación Welch–Satterthwaite. Nótese que la verdadera distribución de este estadístico de hecho depende (ligeramente) de dos varianzas desconocidas. Prueba t dependiente para muestras apareadas Esta prueba se utiliza cuando las muestras son dependientes; esto es, cuando se trata de una única muestra que ha sido evaluada dos veces (muestras repetidas) o cuando las dos muestras han sido emparejadas o apareadas. Este es un ejemplo de un test de diferencia apareada. Para esta ecuación, la diferencia entre todos los pares tiene que ser calculada. Los pares se han formado ya sea con resultados de una persona antes y después de la evaluación o entre pares de personas emparejadas en grupos de significancia (por ejemplo, tomados de la misma familia o grupo de edad: véase la tabla). La media (XD) y la desviación estándar (sD) de tales diferencias se han utilizado en la ecuación. La constante μ0 es diferente de cero si se desea probar si la media de las diferencias es significativamente diferente de μ0. Los grados de libertad utilizados son n − 1. Ejemplo de muestras repetidas Número Nombre Test 1 Test 2 1 Miguel 35% 67% 2 Melanie 50% 46% 3 Melisa 90% 86% Ejemplo de pares emparejados Par Nombre Edad Test 1 Juan 35 250 1 Joana 36 340 2 Jaimito 22 460 2 Jesica 21 200
  • 26. 4 Michell 78% 91% Prueba T 2 monomuestral Para una prueba multivariable de unica muestra, la hipótesis es que el vector medio ( ) es igual a un vector ( ) dado. La prueba estadística se define como: Donde n es el tamaño muestral, es el vector de columnas medio y una matriz de covarianza muestral . Prueba T 2 bimuestral Para un test multivariable de dos muestras, la hipótesis es que los vectores medios ( , ) de las dos muestras son iguales. La prueba estadística se define como: PRUEBA DE ANOVA CON UN FACTOR «ANOVA» redirige aquí. Para la organización política nacionalista gallega, véase Anova- Irmandade Nacionalista. En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis. Introducción El análisis de la varianza parte de los conceptos de regresión lineal. El primer concepto fundamental es que todo valor observado puede expresarse mediante la siguiente función: Donde Y sería el valor observado (variable dependiente), y X el valor que toma la variable independiente.
  • 27. sería una constante que en la recta de regresión equivale a la ordenada en el origen, es otra constante que equivale a la pendiente de la recta, y es una variable aleatoria que añade a la función cierto error que desvía la puntuación observada de la puntuación pronosticada. Por tanto, a la función de pronóstico la podemos llamar "Y prima": Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones esperadas, más el error aleatorio: (1.1) Sabiendo este concepto, podemos operar con esta ecuación de la siguiente forma: 1) Restamos a ambos lados de la ecuación (para mantener la igualdad) la media de la variable dependiente: 2) Substituimos el error por la ecuación resultante de despejar la ecuación 1.1: Por tanto... Y reorganizando la ecuación: Ahora hay que tener en cuenta que la media de las puntuaciones observadas es exactamente igual que la media de las puntuaciones pronosticadas: Por tanto: Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos al cuadrado para que posteriormente, al hacer el sumatorio, no se anulen: Y desarrollamos el cuadrado: Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas por el número de casos (n), las llamamos Sumas de Cuadrados., excepto en el último término, que es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y la covarianza en este caso es cero (por las propiedades de la regresión lineal, la covarianza entre el error y la variable independiente es cero). Por tanto:
  • 28. O lo mismo que: de un factor, que es el caso más sencillo, la idea básica del análisis de la varianza es comparar la variación total de un conjunto de muestras y descomponerla como: Donde: es un número real relacionado con la varianza, que mide la variación debida al "factor", "tratamiento" o tipo de situación estudiado. es un número real relacionado con la varianza, que mide la variación dentro de cada "factor", "tratamiento" o tipo de situación. En el caso de que la diferencia debida al factor o tratamiento no sean estadísticamente significativa puede probarse que las varianzas muestrales son iguales: Donde: es el número de situaciones diferentes o valores del factor se están comparando. es el número de mediciones en cada situación se hacen o número de valores disponibles para cada valor del factor. Así lo que un simple test a partir de la F de Snedecor puede decidir si el factor o tratamiento es estadísticamente significativo. Visión genera Existen tres clases conceptuales de estos modelos: 1. El Modelo de efectos fijos asume que los datos provienen de poblaciones normales las cuales podrían diferir únicamente en sus medias. (Modelo 1) 2. El Modelo de efectos aleatorios asume que los datos describen una jerarquía de diferentes poblaciones cuyas diferencias quedan restringidas por la jerarquía. Ejemplo: El experimentador ha aprendido y ha considerado en el experimento sólo tres de muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento. (Modelo 2) 3. El Modelo de efectos mixtos describen situaciones que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir donde están presentes ambos tipos de factores: fijos y aleatorios. (Modelo 3)
  • 29. Supuestos previos El ANOVA parte de algunos supuestos o hipótesis que han de cumplirse:  La variable dependiente debe medirse al menos a nivel de intervalo.  Independencia de las observaciones.  La distribución de los residuales debe ser normal.  Homocedasticidad: homogeneidad de las varianzas. La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de regresión lineal) El número de grados de libertad (gl) puede separarse de forma similar y corresponde con la forma en que la distribución chi-cuadrado (χ² o Ji-cuadrada) describe la suma de cuadrados asociada. Tipos de modelo Modelo I: Efectos fijos El modelo de efectos fijos de análisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta" con una distribución normal. Este modelo se supone cuando el investigador se interesa únicamente por los niveles del factor presentes en el experimento, por lo que cualquier variación observada en las puntuaciones se deberá al error experimental. Modelo II: Efectos aleatorios (componentes de varianza) Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el de estimar la media desconocida de una población compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medición. Este modelo se supone cuando el investigador está interesado en una población de niveles, teóricamente infinitos, del factor de estudio, de los que únicamente una muestra al azar (t niveles) están presentes en el experimento.
  • 30. Grados de libertad Los grados de libertad pueden descomponerse al igual que la suma de cuadrados. Así, GLtotal = GLentre + GLdentro. Los GLentre se calculan como: a - 1, donde a es el número de tratamientos o niveles del factor. Los GLdentro se calculan como N - a, donde N es el número total de observaciones o valores de la variable medida (la variable respuesta). Pruebas de significación El análisis de varianza lleva a la realización de pruebas de significación estadística, usando la denominada distribución F de Snedecor. Tablas ANOVA Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas, los grados de libertad y la F, se procede a elaborar una tabla que reuna la información, denominada "Tabla de Análisis de varianza o ANOVA", que adopta la siguiente forma: Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio F Intergrupo t - 1 Intragrupo o Error N - t Total N - 1
  • 31. PRUEBA DE CORRELACION DE R DE PEARSON En estadística, el coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas. Definición En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población estadística; el coeficiente de correlación de Pearson se simboliza con la letra , siendo la expresión que nos permite calcularlo: Donde:  es la covarianza de  es la desviación típica de la variable  es la desviación típica de la variable De manera análoga podemos calcular este coeficiente sobre un estadístico muestral, denotado como a: El valor del índice de correlación varía en el intervalo [-1,1]:  Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.  Si 0 < r < 1, existe una correlación positiva.  Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables.  Si -1 < r < 0, existe una correlación negativa.
  • 32.  Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.
  • 33. PRUEBAS NO PARAMETRICAS La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo. Las principales pruebas no paramétricas son las siguientes: (1) Prueba χ² de Pearson (2) Prueba binomial (3) Prueba de Anderson-Darling (4) Prueba de Cochran (5) Prueba de Cohen kappa (6) Prueba de Fisher (7) Prueba de Friedman (8) Prueba de Kendall (9) Prueba de Kolmogórov-Smirnov (10) Prueba de Kruskal-Wallis (11) Prueba de Kuiper (12) Prueba de Mann-Whitney o prueba de Wilcoxon (13) Prueba de McNemar (14) Prueba de la mediana (15) Prueba de Siegel-Tukey (16) Prueba de los signos (17) Coeficiente de correlación de Spearman (18) Tablas de contingencia (19) Prueba de Wald-Wolfowitz (20) Prueba de los rangos con signo de Wilcoxon
  • 34. La mayoría de estos test estadísticos están programados en los paquetes estadísticos más frecuentes, quedando para el investigador, simplemente, la tarea de decidir por cuál de todos ellos guiarse o qué hacer en caso de que dos test nos den resultados opuestos. Hay que decir que, para poder aplicar cada uno existen diversas hipótesis nulas y condiciones que deben cumplir nuestros datos para que los resultados de aplicar el test sean fiables. Esto es, no se puede aplicar todos los test y quedarse con el que mejor convenga para la investigación sin verificar si se cumplen las hipótesis y condiciones necesarias pues, si se violan, invalidan cualquier resultado posterior y son una de las causas más frecuentes de que un estudio sea estadísticamente incorrecto. Esto ocurre sobre todo cuando el investigador desconoce la naturaleza interna de los test y se limita a aplicarlos sistemáticamente. Es importante mencionar que si la distribución de los datos se ajusta a un tipo de distribución conocida, existen otras [pruebas] que, en la práctica, son más aconsejables pero que así mismo requieren otros supuestos. En este caso, la estadística a emplear es la estadística paramétrica, dentro de la cual muchas veces podemos encontrar equivalencias entre pruebas pero con diferencias en la potencia entre ambas siendo siempre la potencia de las pruebas no paramétricas menor que la potencia de las pruebas paramétricas equivalentes. Aun así, el uso adecuado de los tamaños muestrales disminuye la posibilidad de cometer un [error tipo II], puesto que aumenta al mismo tiempo la eficacia de la prueba . Es decir, a medida que se umenta el tamaño de la muestra, disminuye la posibilidad de cometer un error tipo II (un falso negativo: No rechazar la hipótesis nula cuando ésta en realidad es falsa). PRUEBA DE X2 BONDAD DE AJUSTE La prueba χ² de Pearson es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando en qué medida las diferencias existentes entre ambas, de haberlas, se deben al azar en el contraste de hipótesis. También se utiliza para probar la independencia de dos variables entre sí, mediante la presentación de los datos en tablas de contingencia. La fórmula que da el estadístico es la siguiente: Cuanto mayor sea el valor de , menos verosímil es que la hipótesis sea correcta. De la misma forma, cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones. Los grados de libertad gl vienen dados por : gl= (r-1)(k-1). Donde r es el número de filas y k el de columnas.
  • 35.  Criterio de decisión: No se rechaza cuando . En caso contrario sí se rechaza. Donde t representa el valor proporcionado por las tablas, según el nivel de significación estadística elegido. PRUEBA DE U MANN WITHNEY En estadística la prueba U de Mann-Whitney (también llamada de Mann-Whitney- Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney) es una prueba no paramétrica aplicada a dos muestras independientes. Es, de hecho, la versión no paramétrica de la habitual prueba t de Student. Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de igual tamaños y extendido a muestras de tamaño arbitrario como en otros sentidos porHenry B. Mann y D. R. Whitney en 1947. Planteamiento de la prueba La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos muestras ordinales. El planteamiento de partida es: 1. Las observaciones de ambos grupos son independientes 2. Las observaciones son variables ordinales o continuas. 3. Bajo la hipótesis nula, la distribución de partida de ambos grupos es la misma y, 4. Bajo la hipótesis alternativa, los valores de una de las muestras tienden a exceder a los de la otra: P(X > Y) + 0.05 P(X = Y) > 0.05. Cálculo del estadístico Para calcular el estadístico U se asigna a cada uno de los valores de las dos muestras su rango para construir
  • 36. donde n1 y n2 son los tamaños respectivos de cada muestra; R1 y R2 es la suma de los rangos de las observaciones de las muestras 1 y 2 respectivamente. El estadístico U se define como el mínimo de U1 y U2. Los cálculos tienen que tener en cuenta la presencia de observaciones idénticas a la hora de ordenarlas. No obstante, si su número es pequeño, se puede ignorar esa circunstancia. Distribución del estadístico[editar] La prueba calcula el llamado estadístico U, cuya distribución para muestras con más de 20 observaciones se aproxima bastante bien a la distribución normal. La aproximación a la normal, z, cuando tenemos muestras lo suficientemente grandes viene dada por la expresión: Donde mU y σU son la media y la desviación estándar de U si la hipótesis nula es cierta, y vienen dadas por las siguientes fórmulas: PRUEBA DE KRUSKAL WALLIS En estadística, la prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un método no paramétrico para probar si un grupo de datos proviene de la misma población. Intuitivamente, es idéntico al ANOVA con los datos reemplazados por categorías. Es una extensión de la prueba de la U de Mann-Whitney para 3 o más grupos. Ya que es una prueba no paramétrica, la prueba de Kruskal-Wallis no asume normalidad en los datos, en oposición al tradicional ANOVA. Sí asume, bajo la hipótesis nula, que los datos vienen de la misma distribución. Una forma común en que se viola este supuesto es con datos heterocedásticos. Método 1. El estadístico está dado por: , donde:  es el número de observaciones en el grupo
  • 37.  es el rango (entre todas las observaciones) de la observación en el grupo  es el número total de observaciones entre todos los grupos  ,  es el promedio de . Note que el denominador de la expresión para es exactamente . Luego . 2. Se puede realizar una corrección para los valores repetidos dividiendo por , donde es el número de grupos de diferentes rangos repetidos, y es el número de observaciones repetidas dentro del grupo que tiene observaciones repetidas para un determinado valor. Esta corrección hace cambiar a muy poco al menos que existan un gran número de observaciones repetidas. 3. Finalmente, el p-value es aproximado por . Si algún es pequeño ( ) la distribución de puede ser distinta de la chi-cuadrado. PRUEBA DE WILCONXON La prueba de los rangos con signo de Wilcoxon es una prueba no paramétrica para comparar la mediana de dos muestras relacionadas y determinar si existen diferencias entre ellas. Se utiliza como alternativa a la prueba t de Student cuando no se puede suponer la normalidad de dichas muestras. Debe su nombre aFrank Wilcoxon, que la publicó en 1945.1 Se utiliza cuando la variable subyacente es continua pero no se presupone ningún tipo de distribución particular. Planteamiento Suponga que se dispone de n pares de observaciones, denominadas . El objetivo del test es comprobar si puede dictaminarse que los valores e son o no iguales.
  • 38. Suposiciones 1. Si , entonces los valores son independientes. 2. Los valores tienen una misma distribución continua y simétrica respecto a una mediana común . Método La hipótesis nula es : . Retrotrayendo dicha hipótesis a los valores originales, ésta vendría a decir que son en cierto sentido del mismo tamaño. Para verificar la hipótesis, en primer lugar, se ordenan los valores absolutos y se les asigna su rango . Entonces, el estadístico de la prueba de los signos de Wilcoxon, , es es decir, la suma de los rangos correspondientes a los valores positivos de . La distribución del estadístico puede consultarse en tablas para determinar si se acepta o no la hipótesis nula. En ocasiones, esta prueba se usa para comparar las diferencias entre dos muestras de datos tomados antes y después del tratamiento, cuyo valor central se espera que sea cero. Las diferencias iguales a cero son eliminadas y el valor absoluto de las desviaciones con respecto al valor central son ordenadas de menor a mayor. A los datos idénticos se les asigna el lugar medio en la serie. La suma de los rangos se hace por separado para los signos positivos y los negativos. Srepresenta la menor de esas dos sumas. Comparamos S con el valor proporcionado por las tablas estadísticas al efecto para determinar si rechazamos o no la hipótesis nula, según el nivel de significación elegido. PRUEBA DE Q DE COCHRAM En estadística, en el análisis de dos vías de diseños de bloques aleatorios cuando la variable de respuesta puede tomar sólo dos resultados posibles (codificado como 0 y 1), la prueba Q de Cochran es una prueba estadística no paramétrica para verificar si k tratamientos tienen efectos idénticos.1 2 Nombrada así en honor de William Gemmell Cochran, estadístico escocés. La Prueba Q de Cochran no debe confundirse con la prueba C de Cochran, la cual es una prueba de valor atípico varianza. Antecedentes La Prueba Q de Cochran asume que hay k> 2 tratamientos experimentales y que las observaciones están dispuestas en b bloques, es decir,
  • 39. Tratamiento 1 Tratamiento 2 Tratamiento k Block 1 X11 X12 X1k Block 2 X21 X22 X2k Block 3 X31 X32 X3k Block b Xb1 Xb2 Xbk Descripción Prueba Q de Cochran es H0: Los tratamientos son igualmente efectivos. Ha: Existe una diferencia en la eficacia entre los tratamientos. La estadística de prueba Q de Cochran es: where k es el número de tratamientos X• j es el total de la columna para el tratamiento jth treatment b es el número de bloques Xi • es el total de la fila para el bloque ith block N es el total Región crítica Por nivel de significación α, la región crítica es
  • 40. donde Χ 2 1 - α, k - 1 es el (1 - α) - cuantil de la distribución chi-cuadrado con k - 1 grados de libertad. La hipótesis nula es rechazada si el resultado está en la región crítica. Si la prueba de Cochran rechaza la hipótesis nula de tratamientos igualmente eficaces, pairwise comparaciones múltiples se pueden realizar mediante la aplicación de prueba Q de Cochran en los dos tratamientos de interés. Supuestos Prueba Q de Cochran se basa en los siguientes supuestos: 1. Una gran aproximación de la muestra, en particular, se supone que b es "grande". 2. Los bloques fueron seleccionados al azar de la población de todos los bloques posibles. 3. Los resultados de los tratamientos pueden ser codificados como respuestas binarias (es decir, un "0" o "1") de una manera que es común a todos los tratamientos dentro de cada bloque. Pruebas relacionadas Cuando se utiliza este tipo de diseño para una respuesta que no es binaria, sino más bien ordinal o continua, uno en su lugar utiliza la prueba de Friedman o pruebas de Durbin . El caso en el que hay exactamente dos tratamientos es equivalente a la prueba de McNemar , la cual es a su vez equivalente a una de dos colas prueba de los signos . PRUEBA DE MC NEMAR La prueba de McNemar se utiliza para decidir si puede o no aceptarse que determinado ''tratamiento'' induce un cambio en la respuesta dicotómica o dicotomizada de los elementos sometidos al mismo, y es aplicable a los diseños del tipo ''antes-después'' en los que cada elemento actúa como su propio control. Los resultados correspondientes a una muestra de n elementos se disponen en una tabla de frecuencias 2 x 2 para recoger el conjunto de las respuestas de los mismos elementos antes y después. El aspecto general de dicha tabla, en la que los signos + y - se utilizan para representar las diferentes respuestas, es el siguiente: Antes/Después - + - a b + c d En las celdas de la tabla, a es el número de elementos cuya respuesta es la misma, -; b es el número de elementos cuya respuesta es - antes del ''tratamiento'' y + después de éste; c es el número de elementos que han cambiado de + a -; y des el número de elementos que mantienen la respuesta +. Por tanto, b+c es el número total de elementos cuyas respuestas han cambiado, y son los únicos que intervienen en el contraste. La hipótesis nula es que el ''tratamiento'' no induce
  • 41. cambios significativos en las respuestas, es decir, los cambios observados en la muestra se deben al azar, de forma que es igualmente probable un cambio de + a - que un cambio de - a +. Así pues, si H0 es cierta, de los b+c elementos cuya respuesta ha cambiado es de esperar que (b+c)/2 hayan pasado de + a -, y (b+c)/2 hayan pasado de - a +. En otras palabras, si H0 es cierta, la frecuencia esperada en las correspondientes celdas es (a+b)/2. La hipótesis alternativa puede ser no direccional, cuando postula que la probabilidad de un cambio de + a - tiene distinta probabilidad que un cambio de - a +, o direccional, cuando predice que un cambio de - a + es más (o menos) probable que un cambio de + a -. El estadístico de prueba que permite contrastar si existen diferencias significativas entre las frecuencias esperadas y las observadas es: Oi= frecuencia observada en la i-ésima celda Ei = frecuencia esperada en la i-ésima celda si H0 es cierta k = número de celdas Para contrastar la significación de los cambios interesan sólo las celdas que recogen cambios, por tanto el estadístico puede expresarse como Si H0 es cierta, el estadístico tiene distribución aproximadamente chi-cuadrado con 1 grado de libertad. La aproximación es más precisa si se realiza la corrección de continuidad de Yates, quedando el estadístico: La hipótesis nula, de que ambos tipos de cambio son igualmente probables, se rechaza si el valor del estadístico se encuentra en la región crítica. Cuando la frecuencia esperada (b+c)/2 es pequeña la aproximación de la distribución del estadístico de prueba a la chi-cuadrado no es buena y, en tal caso, el SPSS no calcula el estadístico anterior, sino que realiza la prueba binomial. El contraste se plantea en este caso de la siguiente forma: supongamos que c<b; en este caso la hipótesis nula es que c es un valor de una variable X con distribución binomial de parámetros n=b+c y =0,5. El nivel de significación para una prueba de dos colas es y se rechazará H0
  • 42. para niveles de significación iguales o superiores a éste. Si la hipótesis alternativa es direccional el nivel de significación a partir del cual se rechazará H0 es la mitad del nivel de significación bilateral. PRUEBA DE FRIEDMAN En estadística la prueba de Friedman es una prueba no paramétrica desarrollado por el economista Milton Friedman. Equivalente a la prueba ANOVA para medidas repetidas en la versión no paramétrica, el método consiste en ordenar los datos por filas o bloques, reemplazándolos por su respectivo orden. Al ordenarlos, debemos considerar la existencia de datos idénticos. Método 1. Sea una tabla de datos, donde son las filas (bloques) y las columnas (tratamientos). Una vez calculado el orden de cada dato en su bloque, reemplazamos al tabla original con otra donde el valor es el orden de en cada bloque . 2. Cálculo de las varianzas intra e inter grupo:  ,    3. El estadístico viene dado por . 4. El criterio de decisión es .
  • 43. PRUEBA DE SPEARMAN En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden. El estadístico ρ viene dado por la expresión: donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas. Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante. Determinando la significación estadística La aproximación moderna al problema de averiguar si un valor observado de ρ es significativamente diferente de cero (siempre tendremos -1 ≤ ρ ≤ 1) es calcular la probabilidad de que sea mayor o igual que el ρ esperado, dada la hipótesis nula, utilizando un test de permutación. Esta aproximación es casi siempre superior a los métodos tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informática no sea suficiente para generar permutaciones (poco probable con la informática moderna), o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen dificultad). Aunque el test de permutación es a menudo trivial para cualquiera con recursos informáticos y experiencia en programación, todavía se usan ampliamente los métodos tradicionales para obtener significación. La aproximación más básica es comparar el ρ observado con tablas publicadas para varios niveles de significación. Es una solución simple si la significación sólo necesita saberse dentro de cierto rango, o ser menor de un
  • 44. determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados. Más abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los años se han usado complicados trucos matemáticos para generar tablas para tamaños de muestra cada vez mayores, de modo que no es práctico para la mayoría extender las tablas existentes. Una aproximación alternativa para tamaños de muestra suficientemente grandes es una aproximación a la distribución t de Student. Para tamaños de muestra más grandes que unos 20 individuos, la variable tiene una distribución t de Student en el caso nulo (correlación cero). En el caso no nulo (ej: para averiguar si un ρ observado es significativamente diferente a un valor teórico o si dos ρs observados difieren significativamente), los tests son mucho menos potentes, pero puede utilizarse de nuevo la distribución t. Una generalización del coeficiente de Spearman es útil en la situación en la cual hay tres o más condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrán un orden en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorará de intento en intento. Un test de la significación de la tendencia entre las condiciones en esta situación fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas ordenadas. PRUEBA BINOIMIAL En estadística, la distribución binomial es una distribución de probabilidad discreta que cuenta el número de éxitos en una secuencia de n ensayos de Bernoulli independientes entre sí, con una probabilidad fija pde ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se denomina éxito y tiene una probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en una distribución de Bernoulli. Para representar que una variable aleatoria X sigue una distribución binomial de parámetros n y p, se escribe: La distribución binomial es la base del test binomial de significación estadística. Las siguientes situaciones son ejemplos de experimentos que pueden modelizarse por esta distribución:
  • 45.  Se lanza un dado diez veces y se cuenta el número X de tres obtenidos: entonces X ~ B(10, 1/6)  Se lanza una moneda dos veces y se cuenta el número X de caras obtenidas: entonces X ~ B(2, 1/2) Experimento binomial Existen muchas situaciones en las que se presenta una experiencia binomial. Cada uno de los experimentos es independiente de los restantes (la probabilidad del resultado de un experimento no depende del resultado del resto). El resultado de cada experimento ha de admitir sólo dos categorías (a las que se denomina éxito y fracaso). Las probabilidades de ambas posibilidades han de ser constantes en todos los experimentos (se denotan como p y q o p y 1-p). Se designa por X a la variable que mide el número de éxitos que se han producido en los n experimentos. Cuando se dan estas circunstancias, se dice que la variable X sigue una distribución de probabilidad binomial, y se denota B(n,p). Características analíticas Su función de probabilidad es donde siendo las combinaciones de en ( elementos tomados de en ) Ejemplo Supongamos que se lanza un dado (con 6 caras) 50 veces y queremos conocer la probabilidad de que el número 3 salga 20 veces. En este caso tenemos una X ~ B(50, 1/6) y la probabilidad sería P(X=20): Propiedades
  • 46. Relaciones con otras variables aleatorias Si tiende a infinito y es tal que el producto entre ambos parámetros tiende a , entonces la distribución de la variable aleatoria binomial tiende a unadistribución de Poisson de parámetro . Por último, se cumple que cuando =0.5 y n es muy grande (usualmente se exige que ) la distribución binomial puede aproximarse mediante ladistribución normal. Propiedades reproductivas Dadas n variables binomiales independientes de parámetros ni (i = 1,..., n) y , su suma es también una variable binomial, de parámetros n1+... + nn, y , es decir, PRUEBA ANDERSON - DARLING En estadística, la prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para el estadístico A determina si los datos (observar que los datos se deben ordenar) vienen de una distribución con función acumulativa donde El estadístico de la prueba se puede entonces comparar contra las distribuciones del estadístico de prueba (dependiendo que se utiliza) para determinar el P-valor. La prueba de Anderson-Darling es una prueba estadística que permite determinar si una muestra de datos se extrae de una distribución de probabilidad. En su forma básica, la prueba asume que no existen parámetros a estimar en la distribución que se está probando, en cuyo caso la prueba y su conjunto de valores críticos siguen una distribución libre. Sin embargo, la prueba se utiliza con mayor frecuencia en contextos en los que se está probando una familia de distribuciones, en cuyo caso deben ser estimados los parámetros de esa familia y debe tenerse estos en cuenta a la hora de ajustar la prueba estadística y sus valores críticos. Cuando
  • 47. se aplica para probar si una distribución normal describe adecuadamente un conjunto de datos, es una de las herramientas estadísticas más potentes para la detección de la mayoría de las desviaciones de la normalidad. PRUEBA DE COHEN KAPPA El Coeficiente kappa de Cohen es una medida estadística que ajusta el efecto del azar en la proporción de la concordancia observada para los elementos cualitativos (variables categóricas). En general se cree que es una medida más robusta que el simple cálculo del porcentaje de concordancia, ya que κ tiene en cuenta el acuerdo que ocurren por casualidad. Algunos investigadores han expresado su preocupación por la tendencia de κ tomar frecuencias las categorías observadas 'como dados, lo que puede tener el efecto de subestimar a un acuerdo para una categoría que es también de uso general; por esta razón, κ es considerado una medida excesivamente conservadora de acuerdo. Otros impugnan la afirmación de que el kappa "tiene en cuenta" la posibilidad de acuerdo. Para hacerlo con eficacia requeriría un modelo explícito de cómo la oportunidad afecta las decisiones de calificadores. El llamado ajuste oportunidad de las estadísticas kappa supone que, cuando no completamente cierto, los evaluadores simplemente suponen un escenario muy poco realista. Cálculo El Coeficiente kappa de Cohen mide el acuerdo entre dos evaluadores que cada clasificar los elementos de N en C categorías mutuamente excluyentes. La primera mención de una estadística kappa como se atribuye a Galton (1892), ver Smeeton (1985). La ecuación para κ es: donde Pr (a) es el acuerdo observado relación entre los evaluadores, y Pr (e) es la probabilidad hipotética de la posibilidad de acuerdo, utilizando los datos observados para calcular las probabilidades de cada observador diciendo aleatoriamente cada categoría. Si los evaluadores son completamente de acuerdo entonces κ = 1. Si no hay acuerdo entre los calificadores distintos de lo que cabría esperar por azar (según lo definido por Pr (e)), κ = 0.
  • 48. El artículo seminal introducir kappa como una nueva técnica fue publicado por Jacob Cohen en la revista Educación y Psicología de medición en 1960. Una estadística similar, llamada pi , fue propuesto por Scott (1955). Kappa de Cohen y pi de Scott difieren en términos de cómo se calcula Pr(e). Tenga en cuenta que la kappa de Cohen mide el acuerdo entre sólo dos evaluadores. Para que una medida similar de acuerdo ( kappa de Fleiss ) utiliza cuando hay más de dos evaluadores, ver Fleiss (1971). El Fleiss Kappa, sin embargo, es una generalización múltiples evaluadores de pi de Scott estadística, no kappa de Cohen. PRUEBA DE FISHER En estadística se denomina prueba F de Snedecor a cualquier prueba en la que el estadístico utilizado sigue una distribución F si la hipótesis nula no puede ser rechazada. El nombre fue acuñado en honor a Ronald Fisher. En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:  La hipótesis de que las medidas de múltiples poblaciones normalmente distribuidas y con la misma desviación estándar son iguales. Esta es, quizás, la más conocida de las hipótesis verificada mediante el test F y el problema más simple del análisis de varianza.  La hipótesis de que las desviaciones estándar de dos poblaciones normalmente distribuidas son iguales, lo cual se cumple. En muchos casos, el test F puede resolverse mediante un proceso directo. Se requieren dos modelos de regresión, uno de los cuales restringe uno o más de los coeficientes de regresión conforme a la hipótesis nula. El test entonces se basa en un cociente modificado de la suma de cuadrados de residuos de los dos modelos como sigue: Dadas n observaciones, donde el modelo 1 tiene k coeficientes no restringidos, y el modelo 0 restringe m coeficientes, el test F puede calcularse como El valor resultante debe entonces compararse con la entrada correspondiente de la tabla de valores críticos.
  • 49. PRUEBA DE KENDALL Coeficiente de Kendall. Mide el grado de asociación entre varios conjuntos (k) de N entidades. Es útil para determinar el grado de acuerdo entre varios jueces, o la asociación entre tres o más variables. En pruebas estadísticas En la prueba estadística el Coeficiente de Concordancia de Kendall (W), ofrece el valor que posibilita decidir el nivel de concordancia entre los expertos. El valor de W oscila entre 0 y 1. El valor de 1 significa una concordancia de acuerdos total y el valor de 0 un desacuerdo total. La tendencia a 1 es lo deseado pudiéndose realizar nuevas rondas si en la primera no es alcanzada significación en la concordancia. Fórmula para el cálculo La fórmula es la siguiente: Donde:  (tau) = coeficiente de correlación de Kendall. S = puntuación efectiva de los rangos. N = tamaño de la muestra en parejas de variables. Fórmula para determinar el nivel de significancia mediante el valor Z: Donde: Z = valor Z de la distribución normal.  = coeficiente de correlación de Kendall. N = tamaño de la muestra. Pasos 1. Ordenar las observaciones por rangos, en función de la posible variable independiente. 2. Efectuar la sumatoria de los rangos en función de cada variable. 3. Obtener la sumatoria de la sumatoria anterior y obtener un promedio. 4. Calcular las diferencias obtenidas entre la sumatoria y el promedio, elevarlas al cuadrado y sumarlas. Lo anterior es el valor S. 5. Aplicar la ecuación para obtener el ajuste dado por las ligas o empates. 6. Aplicar a ecuación coeficiente de concordancia de Kendall (w). 7. Transformar w en ji cuadrada y calcular los grados de libertad (gl). gl = N - 1. 8. Decidir si se acepta o rechaza la hipótesis. No basta con saber si W está más próximo a 0 o 1 sino que además debemos saber si W es significativamente distinta de 0 para rechazar la hipótesis de concordancia casual. Esta prueba sería en principio una prueba de hipótesis.
  • 50. Importancia Este método de pronóstico es importante porque brinda un modelo para la ordenación de entidades de acuerdo a un consenso, cuando no hay un orden objetivo de las entidades. PRUEBA DE KOLMOGOROV - SMIRNOV En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dosdistribuciones de probabilidad entre sí. En el caso de que queramos verificar la normalidad de una distribución, la prueba de Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en general, el test de Shapiro–Wilk o la prueba de Anderson-Darling son alternativas más potentes. Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores cercanos a la mediana que a los extremos de la distribución. La prueba de Anderson- Darling proporciona igual sensibilidad con valores extremos. Estadístico Para dos colas el estadístico viene dado por donde F(x) es la distribución presentada como hipótesis. PRUEBA DE KUIPER La prueba de la mediana es una prueba no paramétrica que podemos considerar un caso especial de la prueba de chi-cuadrado, pues se basa en esta última. Su objetivo es comparar las medianas de dos muestras y determinar si pertencen a la misma población o no.
  • 51. Para ello, se calcula la mediana de todos los datos conjuntamente. Después, se divide cada muestra en dos subgrupos: uno para aquellos datos que se sitúen por encima de la mediana y otro para los que se sitúen por debajo. La prueba de chi-cuadrado determinará si las frecuencias observadas en cada grupo difieren de las esperadas con respecto a una distribución de frecuencias que combine ambas muestras. Esta prueba está especialmente indicada cuando los datos sean extremos o estén sesgados. PRUEBA DE MEDIANA La prueba de la mediana es una prueba no paramétrica que podemos considerar un caso especial de la prueba de chi-cuadrado, pues se basa en esta última. Su objetivo es comparar las medianas de dos muestras y determinar si pertencen a la misma población o no. Para ello, se calcula la mediana de todos los datos conjuntamente. Después, se divide cada muestra en dos subgrupos: uno para aquellos datos que se sitúen por encima de la mediana y otro para los que se sitúen por debajo. La prueba de chi-cuadrado determinará si las frecuencias observadas en cada grupo difieren de las esperadas con respecto a una distribución de frecuencias que combine ambas muestras. Esta prueba está especialmente indicada cuando los datos sean extremos o estén sesgados. PRUEBA DE SPEARMAN En estadística, el coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden. El estadístico ρ viene dado por la expresión: donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas. Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student