Significancia estadistica

1
METODOS ESTADISTICOS NO
PARAMETRICOS
• Las técnicas estadísticas de estimación de
parámetros, intervalos de confianza y prueba
de hipótesis son, en conjunto, denominadas
ESTADÍSTICA PARAMETRICA y son
aplicadas básicamente a variables continuas.
Estas técnicas se basan en especificar una
forma de distribución de la variable aleatoria
y de los estadísticos derivados de los datos.
• En ESTADÍSTICA PARAMETRICA se
asume que la población de la cual la muestra
es extraída es NORMAL o aproximadamente
normal. Esta propiedad es necesaria para
que la prueba de hipótesis sea valida.
• Sin embargo, en un gran numero de casos no
se puede determinar la distribucion original
ni la distribucion de los estadísticos por lo
que en realidad no tenemos parametros a
estimar. Tenemos solo distribuciones que
comparar. Esto se llama ESTADÍSTICA
NOPARAMETRICA.

2
La mayor desventaja de la ESTADÍSTICA NO
PARAMETRICA es que cuando los supuestos se
cumplen es mucho menos poderosa que la
ESTADÍSTICA PARAMETRICA.
LA PRUEBA DE SIGNO
Ejemplo
Estudio para comparar:
{la energia en reposo usada por personas con
cierta enfermedad} vs {la energia en reposo usada
por personas sanas}
Ho: no hay diferencias entre personas
sanas y enfermas
1) Se eligen al azar pares de personas (pacientes
de la misma edad, sexo, altura y peso) enfermas y
sanas y se calcula la diferencia para cada par
• diferencia >0 se asigna un signo +
• diferencia <0 se asigna un signo de -

3
Energia usada
por pacientes
Par enfermos sanos diferencia Signo
1 1153 996 157 +
2 1132 1080 52 +
3 1165 1182 -17 -
4 1460 1452 8 +
5 1634 1162 472 +
6 1493 1619 -126 -
7 1358 1140 218 +
8 1453 1123 330 +
9 1185 1113 72 +
10 1824 1463 361 +
11 1793 1632 161 +
12 1930 1614 316 +
13 2075 1836 239 +
2) Se cuenta el numero de positivos (D) y se
estudia la diferencia para cada par de
observaciones pero no se estudian los dos grupos
de personas individualmente como se hacia en las
pruebas parametricas.

4
Ho: no hay diferencias entre personas
sanas y enfermas o sea
-- hay el mismo numero de positivos
que de negativos
-- la probabilidad de + es de ½
-- la mediana de las diferencias es 0.
3) n pruebas Bernoulli independientes con p=1/2
(+) y (1-p)=1/2 (-). Por lo que el numero total de +
en D es una variable aleatoria con distribución
BINOMIAL con parámetros n y p.
Entonces el
promedio esperado de + np=n/2,
la varianza de + np(1-p)=n/4
desviación estándar de + [np(1-p)]1/2
=(n/4)1/2
4) entonces la hipótesis Ho se rechaza si D es
mucho mas grande o mas chico que n/2
• Parámetro -- diferencia

5
• Estimador -- D
• Est.-Par. D – (n/2)
SE(Est.) (n/4)1/2
Cuando n es grande Z+ se aproxima a una
distribucion normal estandard con media 0 y
varianza 1.
Para los datos anteriores
n/2=13/2=6.5
(n/4)1/2
=(13/4)1/2
=1.80
Z+=2.50
El area a la derecha e izquierda de
Z+ es 2(0.06)=0.012 (prueba a dos-colas)<0.05
entonces se rechaza la Ho de que no hay
diferencias entre las personas sanas y
enfermas.
Cuando n es chico usamos la distribución
Binomial para D asumiendo que Ho es
verdadera.
Z+

6
De acuerdo a Ho esperamos D=n/2=13/2=6.5
pero para los datos D=11. La probabilidad de
observar D=11 o D=12 o D=13 es
1113(0.5)11(0.5)
11
13 −








+ 1213(0.5)12(0.5)
12
13 −








+
13-13(0.5)13(0.5)
13
13








=0.0095+0.0016+0.0001
=0.0112 (una-cola) o
2(0.0112) (dos-colas).
Problema !
LA PRUEBA DE SIGNO NO TIENE EN
CUENTA LA MAGNITUD DE LA
DIFERENCIA

7
PRUEBA DE WILCOXON DEL SIGNO
DEL RANGO
Tiene en cuenta la magnitud de la diferencia.
-- se ordenan las diferencias por valor absoluto
-- diferencias positivas tienen un signo +
-- diferencias negativas tienen un signo -
-- se suman las diferencias con signo + y las
diferencias con signo -
Bajo la Ho de que la mediana=0 se espera que la
muestra tenga aproximadamente igual numero
de + que de – o sea que la suma de rangos
positivos=suma de rangos negativo
PRUEBA DE WILCOXON DE LA SUMA
DEL RANGO
Es la contraparte no parametrica de la prueba de
t.

8
La prueba de chi-cuadrado χ2
χ2
es definida como la suma de cuadrado de
variables independientes con distribución normal
media 0 y varianza 1.
2
i i i
σ
i
µ
i
Y
2Z2χ ∑ ∑
−
==












En el muestreo de una distribución normal la
cantidad SS=(n-1)s2
consiste en la suma de (n-1)
desviaciones independientes. Estas deviaciones
tienen media zero por lo que dividiendo por la
varianze comun σ2
aseguramos varianza de 1.
Entonces
2σ
21)s(n2χ −=
La distribución chi-cuadrada depende del numero de
desviaciones independientes, grados de libertad, y
no puede ser negativa ya que envuelve suma de
cuadrados.

9
χ2
es apropiada para datos que se agrupan en
categorías y se tienen celdas con observaciones de
tal forma que
∑
−
=
i esperado
2esperado)(observado2χ
Los valores observados son las observaciones
dentro de cada celda y los valores esperados son
aquellos referidos cuando la hipótesis nula es
verdadera.
Tablas de contingencia de 2 × 2
Estas tablas son comunes para sumarizar datos
categóricos. El interes radica en ver si las 2
categorias de la variable en las hileras esta
relacionada a las 2 categorias de la variable en las
columnas.
Columnas Total
Hileras 1 2
1 n11 n12 n1.
2 n21 n22 n2.
Total n.1 n.2 n

10
La hipótesis nula a probar es
Ho: NO HAY ASOCIACIÓN ENTRE HILERAS
Y COLUMNAS
Ejemplo
Respuesta
_______________
Favorable no favorable TOTAL
Tratamiento 16 48 64
Placebo 40 20 60
Ho: NO HAY ASOCIACIÓN ENTRE HILERAS
Y COLUMNAS O SEA LA PROPORCION DE
INDIVIDUOS QUE TIENEN RESPUESTA
FAVORABLE AL TRATAMIENTO ES IGUAL A
LA PROPORCION DE INDIVIDUOS CON
RESPUESTA NO FAVORABLE AL
TRATAMIENTO.
Ha: LA PROPORCION DE INDIVIDUOS CON
RESPUESTA FAVORABLE Y NO FAVORABLE
AL TRATAMIENTO ES DIFERENTE.

11
Programa SAS
Data a;
Input trat resultado conteo;
Placebo f 16
Placebo nf 48
Trat f 40
Trat nf 20
;
proc freq;
weight conteo;
tables trat*resultado/chisq;
run;
Salida del programa SAS
The SAS System 15:52 Tuesday, May 1, 2001
The FREQ Procedure
Table of trat by resultado
trat resultado
Frequency‚
Percent ‚
Row Pct ‚
Col Pct ‚f ‚nf ‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
placebo ‚ 16 ‚ 48 ‚ 64
‚ 12.90 ‚ 38.71 ‚ 51.61
‚ 25.00 ‚ 75.00 ‚
‚ 28.57 ‚ 70.59 ‚
trat ‚ 40 ‚ 20 ‚ 60
‚ 32.26 ‚ 16.13 ‚ 48.39
‚ 66.67 ‚ 33.33 ‚
‚ 71.43 ‚ 29.41 ‚
Total 56 68 124
45.16 54.84 100.00
Statistics for Table of trat by resultado
Statistic DF Value Prob
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Chi-Square 1 21.7087 <.0001
Likelihood Ratio Chi-Square 1 22.3768 <.0001
Continuity Adj. Chi-Square 1 20.0589 <.0001
Mantel-Haenszel Chi-Square 1 21.5336 <.0001
Phi Coefficient -0.4184

12
Contingency Coefficient 0.3860
Cramer's V -0.4184
Fisher's Exact Test
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cell (1,1) Frequency (F) 16
Left-sided Pr <= F 2.838E-06
Right-sided Pr >= F 1.0000
Table Probability (P) 2.397E-06
Two-sided Pr <= P 4.754E-06
Sample Size = 124
Comentarios
Con 124 observaciones y cada celda con mas de 10
observaciones todas los supuestos del muestreo para
el estadístico chi-cuadrado estan cumplidos.
Conclusión
SE RECHAZA LA Ho: NO HAY
ASOCIACIÓN ENTRE HILERAS Y
COLUMNAS y se concluye que el tratamiento tiene
un efecto mas favorable que el placebo.

13
EXTENSIÓN
El análisis de tablas de contingencia 2×2 se puede
extender a tablas de contingencia 2×r o s×2 o r×s y a
mas de una tabla r×s.
Prueba Wilcoxon-Mann-Whitney para 2-
muestras
Dos muestras independientes de igual tamano
(Wilcoxon, 1945)
Dos muestras independientes de diferente tamano
(Man and Whitney, 1947)
Ho: la distribucion de las observaciones de dos
muestras del mismo tamano son iguales.
Similar a la prueba t para comparar medias de
muestras de dos poblaciones.
Ejemplo
Relacion entre hipertensión y el consumo de
Sodium (NA+) en un grupo de 12 individuos
normales y un grupo de 10 individuos hipertensos.

14
Consumo de NA+
_________________
Normal Hipertenso
10.2 92.8
2.2 54.8
0.0 51.6
2.6 61.7
0.0 250.8
43.1 84.5
45.8 34.7
63.6 62.2
1.8 11.0
0.0 39.1
3.7
0.0
PROGRAMA SAS
data a;
input grupo $ individuo consumo;
cards;
normal 1 10.2
normal 2 2.2
normal 3 0.0
normal 4 2.6
normal 5 0.0

15
normal 6 43.1
normal 7 45.8
normal 8 63.6
normal 9 1.8
normal 10 0.0
normal 11 3.7
normal 12 0.0
hipertenso 1 92.8
hipertenso 2 54.8
hipertenso 3 51.6
hipertenso 4 61.7
hipertenso 5 250.8
hipertenso 6 84.5
hipertenso 7 34.7
hipertenso 8 62.2
hipertenso 9 11.0
hipertenso 10 39.1
;
proc freq data=a;
tables grupo*consumo / noprint cmh2 scores=rank;
proc freq data=a;
tables grupo*consumo / noprint chisq scores=rank;
proc npar1way wilcoxon;
class grupo;
var consumo;
run;
SALIDA DE SAS
The SAS System 10:13 Wednesday, May 2, 2001 6
The FREQ Procedure
Summary Statistics for grupo by consumo
Cochran-Mantel-Haenszel Statistics (Based on Rank Scores)
Statistic Alternative Hypothesis DF Value Prob
1 Nonzero Correlation 1 9.6589 0.0019
2 Row Mean Scores Differ 1 9.6589 0.0019
Total Sample Size = 22
The FREQ Procedure

16
Statistics for Table of grupo by consumo
Statistic DF Value Prob
Chi-Square 18 22.0000 0.2320
Likelihood Ratio Chi-Square 18 30.3164 0.0345
MH Chi-Square (Rank Scores) 1 9.6589 0.0019
Phi Coefficient 1.0000
Contingency Coefficient 0.7071
Cramer's V 1.0000
WARNING: 100% of the cells have expected counts less
than 5. Chi-Square may not be a valid test.
Sample Size = 2
The NPAR1WAY Procedure
Wilcoxon Scores (Rank Sums) for Variable consumo
Classified by Variable grupo
Sum of Expected Std Dev Mean
grupo N Scores Under H0 Under H0 Score
normal 12 91.0 138.0 15.122873 7.583333
hiperten 10 162.0 115.0 15.122873 16.200000
Average scores were used for ties.
Wilcoxon Two-Sample Test
Statistic 162.0000
Normal Approximation
Z 3.0748
One-Sided Pr > Z 0.0011
Two-Sided Pr > |Z| 0.0021
t Approximation
One-Sided Pr > Z 0.0029
Two-Sided Pr > |Z| 0.0057
Z includes a continuity correction of 0.5.
Kruskal-Wallis Test
Chi-Square 9.6589
DF 1
Pr > Chi-Square 0.0019
COMENTARIOS

17
• La opcion CMH2 en el programa SAS
especifica que la prueba de correlacion de
Cochran-Mantel-Haenszel es calculada. La
diferencia de las medias de scores tambien es
realizada y es igual a la correlacion de Cochran-
Mantel-Haenszel dado que hay solo dos grupos.
El metodo de Mantel-Haenszel combina
información de muchas tablas de 2×2
• El resultados del chi-cuadrado de 9.659 con 1 gl
y p=0.0019 indica que hay diferencias
significativas entre los individuos normales e
hipertensos en el consumo de NA+
Prueba Kruskal-Wallis para k-muestras
Generalización de la prueba de Wilcoxon-Mann-
Whitney para 2-muestras a mas de 2-muestras.
Ho: la respuesta tiene la misma distribución en
todos los grupos

18
Ejemplo
Se quiere saber si hay diferencias en los niveles de
cortisol en tres grupos de mujeres embarazadas al
momento del parto.
GRUPOS
I II III
262 465 343
307 501 772
211 455 207
323 355 1048
454 468 838
339 362 687
304
154
287
356
PROGRAMA SAS
data a;
input grupo $ individuo cortisol;
cards;
I 1 262
I 2 307

19
I 3 211
I 4 323
I 5 454
I 6 339
I 7 304
I 8 154
I 9 287
I 10 356
II 1 465
II 2 501
II 3 455
II 4 355
II 5 468
II 6 362
III 1 343
III 2 772
III 3 207
III 4 1048
III 5 838
III 6 687
;
proc freq data=a;
tables grupo*cortisol / noprint cmh2
scores=rank;
proc npar1way wilcoxon;
class grupo;
var cortisol;
run;
SALIDA DE SAS
The FREQ Procedure
Summary Statistics for grupo by cortisol

20
Cochran-Mantel-Haenszel Statistics (Based on Rank Scores)
Statistic Alternative Hypothesis DF Value Prob
1 Nonzero Correlation 1 8.2857 0.0040
2 Row Mean Scores Differ 2 9.2316 0.0099
Total Sample Size = 22
The NPAR1WAY Procedure
Wilcoxon Scores (Rank Sums) for Variable cortisol
Classified by Variable grupo
Sum of Expected Std Dev Mean
grupo N Scores Under H0 Under H0 Score
I 10 69.0 115.0 15.165751 6.900000
II 6 90.0 69.0 13.564660 15.000000
III 6 94.0 69.0 13.564660 15.666667
Kruskal-Wallis Test
Chi-Square 9.2316
DF 2
Pr > Chi-Square 0.0099
COMENTARIOS
• La prueba de Kuskal-Wallis definida como
Row Mean Score Difference es 9.232 con 2 gl
y un valor de p=0.010. Entonces la
distribución de los niveles de cortisol varia en
los tres grupos de mujeres.

21
• Como hay mas de dos grupos la correlacion
de Mantel-Haenszel no coincide con el Row
Mean Score.

22
REGRESIÓN LOGÍSTICA
Y =variable de respuesta que toma solo dos
valores 0,1 entonces la variable aleatoria es la
proporcion de veces (p) que Y toma valores de 1.
P(Y=1)
P(Y=0)
Se quiere modelar p en base a variables
explicatorias que influencian su valor.
Se hace una regresión de los valores de la
proporcion (p) en las variables independientes.
Sin embargo la regresión standard no es
apropiada por que las proporciones observadas
no tienen las mismas varianzas.
Se hace una regresión ponderada por las
varianzas de tal forma que observaciones con
mucha varianza se les da poco peso. Entonces, el
peso wi para la observacion ith
es
wi = )
i
p(1
i
p
i
N ˆˆ −

23
Entonces
p=a+b1x1
donde x1 representa los pesos.
Pero como p varia entre 0 y 1 y el termino a+b1x1
varia entre valores que pueden caer fuera de ese
rango este modelo no es factible. Sin embargo el
modelo
p=ea+b
1
x
1
asegura que p es positivo pero puede ser >1. Este
problema se soluciona con el modelo siguiente
p=(ea+b
1
x
1)/ (1+ea+b
1
x
1)
Esta es la FUNCION LOGISTICA que restringe
el valor de p a estar entre 0 y 1.
Entonces
p/(1-p)= [ea+b
1
x
1/ (1+ea+b
1
x
1)]/[1/(1+ea+b
1
x
1)]= ea+b
1
x
1
p/(1-p)= ea+b
1
x
1

24
log[p/(1-p)]= log[ea+b
1
x
1]
log[p/(1-p)]=a+b1x1 Modelo Logistico
La tecnica de ajustar un modelo de esta forma se
llama REGRESION LOGÍSTICA y la relacion
entre p y x1 NO es lineal.
NOTA
El odd de un evento que sucede con probabilidad
p esta dado por
p/(1-p)
Para p=1/2, (1-p)=1/2 entonces el odd del evento
es 1 a 1.
Para p=2/3, (1-p)=1/3 entonces el odd del evento
es 2 a 1.

Significancia estadistica

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Significancia estadistica

Similar a Significancia estadistica (20)

Último

Último (20)

Significancia estadistica