Caycho castillo merino_estadistica_aplicada

Manual de estadística no paramétrica aplicada a los negocios
Carlos Caycho ● Carlos Castillo ● Víctor Merino

00-iniciales-MANUAL DE ESTADISTICA NO PARAMETRICA.indd 5 10/05/2019 09:06:09

Colección Manuales
Manual de estadística no paramétrica aplicada a los negocios
Primera edición: abril, 2019
Tiraje: 300 ejemplares
De esta edición:
© Universidad de Lima
Fondo Editorial
Av. Javier Prado Este 4600,
Urb. Fundo Monterrico Chico, Lima 33, Perú
Apartado postal 852, Lima 100, Perú
Teléfono: 437-6767, anexo 30131
fondoeditorial@ulima.edu.pe
www.ulima.edu.pe
Diseño, edición y carátula: Fondo Editorial de la Universidad de Lima
Imagen de portada: everything possible/Shutterstock.com
Impreso en el Perú
Prohibida la reproducción total o parcial de este libro, por cualquier medio,
sin permiso expreso del Fondo Editorial.
ISBN 978-9972-45-495-0
Hecho el depósito legal en la Biblioteca Nacional del Perú n.º 2019-03898
Caycho-Chumpitaz, Carlos-Teodoro
Manual de estadística no paramétrica aplicada a los negocios / Carlos Caycho,
Carlos Castillo, Víctor Merino. Primera edición. Lima: Universidad de Lima,
Fondo Editorial, 2019.
199 páginas: gráficos, ilustraciones. (Colección Manuales).
Bibliografía: páginas 181-182.
1. Estadística no paramétrica. 2. Estadística matemática. 3. Estadística no paramétrica
-- Estudio de casos. I. Castillo-Crespo, Carlos, autor. II. Merino-Escalante, Víctor, autor. VI.
Universidad de Lima. Fondo Editorial.
519.5
C34 ISBN 978-9972-45-495-0

Índice 7
Índice
Introducción 11
Capítulo 1. Estadística no paramétrica 15
1. Concepto de estadística no paramétrica 17
2. Pruebas de hipótesis 17
2.1 Formulación de las hipótesis 18
2.2 Determinación del nivel de significación 20
2.3 Elección del estadístico de prueba o de contraste 22
2.4 Determinación del valor crítico 23
2.5 Regla de decisión 26
3. Tipos de variables y datos 28
3.1 Tipos de variables 28
3.2 Medición de las variables 29
3.3 Tipos de datos 30
4. Ventajas de las pruebas no paramétricas 31
Capítulo 2. Caso de una muestra 33
1. Prueba binomial 35
1.1 Procedimiento de la prueba binomial 35
1.2 Dócima de hipótesis de la prueba binomial 36
1.3 Caso de aplicación de la prueba binomial 37
2. Prueba ji-cuadrado 39
2.1 Procedimiento de la prueba ji-cuadrado 40

8 Manual de estadística no paramétrica aplicada a los negocios
2.2 Dócima de hipótesis de la prueba ji-cuadrado 41
2.3 Caso de aplicación de la prueba ji-cuadrado 42
3. Prueba de Kolmogorov-Smirnov 45
3.1 Procedimiento de la prueba de Kolmogorov-Smirnov 45
3.2 Dócima de hipótesis de la prueba de Kolmogorov-Smirnov 46
3.3 Caso de aplicación de la prueba de Kolmogorov-Smirnov 47
4. Prueba de rachas 51
4.1 Procedimiento de la prueba de rachas 52
4.2 Dócima de hipótesis de la prueba de rachas 52
4.3 Caso de aplicación de la prueba de rachas 53
Capítulo 3. Caso de dos muestras relacionadas 57
1. Prueba de McNemar 59
1.1 Procedimiento de la prueba de McNemar 59
1.2 Dócima de hipótesis de la prueba de McNemar 60
1.3 Caso de aplicación de la prueba de McNemar 61
2. Prueba de Wilcoxon 64
2.1 Procedimiento de la prueba de Wilcoxon 64
2.2 Dócima de hipótesis de la prueba de Wilcoxon 65
2.3 Ejemplo de aplicación de la prueba de Wilcoxon 66
3. Prueba de los signos 69
3.1 Procedimiento de la prueba de los signos 70
3.2 Dócima de hipótesis de la prueba de los signos 70
3.3 Caso de aplicación de la prueba de los signos 72
Capítulo 4. Caso de dos muestras independientes 77
2. Prueba de Kolmogorov-Smirnov 85
2.1 Procedimiento de la prueba de Kolmogorov-Smirnov 85
2.2 Dócima de hipótesis de la prueba de Kolmogorov-Smirnov 86
2.3 Caso de aplicación de la prueba de Kolmogorov-Smirnov 86
3. Prueba U de Mann-Whitney 90
3.1 Procedimiento de la prueba U de Mann-Whitney 90

Índice 9
3.2 Dócima de hipótesis de la prueba U de Mann-Whitney 91
3.3 Caso de aplicación de la prueba U de Mann-Whitney 92
4. Prueba de reacciones extremas de Moses 95
4.1 Procedimiento de la prueba de reacciones extremas de Moses 96
4.2 Dócima de hipótesis de la prueba de reacciones extremas de Moses 98
4.3 Caso de aplicación de la prueba de reacciones extremas de Moses 98
5. Prueba de rachas de Wald-Wolfowitz 102
5.1 Procedimiento de la prueba de rachas de Wald-Wolfowitz 102
5.2 Dócima de hipótesis de la prueba de rachas de Wald-Wolfowitz 102
5.3 Ejemplo de aplicación de la prueba de rachas de Wald-Wolfowitz 103
Capítulo 5. Caso de k muestras relacionadas 107
1. Prueba Q de Cochran 109
1.1 Procedimiento de la prueba Q de Cochran 109
1.2 Dócima de hipótesis de la prueba Q de Cochran 110
1.3 Ejemplo de aplicación de la prueba Q de Cochran 111
2. Prueba de Friedman 114
2.1 Procedimiento de la prueba de Friedman 114
2.2 Dócima de hipótesis de la prueba de Friedman 114
2.3 Caso de aplicación de la prueba de Friedman 115
3. Prueba W de Kendall 118
3.1 Procedimiento de la prueba W de Kendall 118
3.2 Dócima de hipótesis de la prueba W de Kendall 120
3.3 Ejemplo de aplicación de la prueba W de Kendall 121
Capítulo 6. Caso de k muestras independientes 127
2. Prueba de Kruskal-Wallis 134
2.1 Procedimiento de la prueba de Kruskal-Wallis 135
2.2 Dócima de hipótesis de la prueba de Kruskal-Wallis 136
2.3 Caso de aplicación de la prueba de Kruskal-Wallis 136
3. Prueba de la mediana 139
3.1 Procedimiento de la prueba de la mediana 140

3.2 Dócima de hipótesis de la prueba de la mediana 141
3.3 Caso de aplicación de la prueba de la mediana 142
4. Prueba Jonckheere 146
4.1 Procedimiento de la prueba Jonckheere 147
4.2 Dócima de hipótesis de la prueba Jonckheere 148
4.3 Caso de aplicación de la prueba Jonckheere 149
Capítulo 7. Medidas no paramétricas de correlación 153
1. Medidas de asociación basadas en la distribución ji-cuadrado 155
1.1 Coeficientes de asociación 155
1.2 Caso de aplicación de las medidas de asociación basadas
en la distribución ji-cuadrado 157
2. Coeficiente de correlación por rangos de Spearman 160
2.1 Procedimiento de cálculo del coeficiente de correlación por rangos
de Spearman 161
2.2 Dócima de hipótesis del coeficiente de correlación por rangos
de Spearman 161
2.3 Caso de aplicación del coeficiente de correlación por rangos de Spearman 162
3. Coeficiente de correlación por rangos de Kendall 166
3.1 Procedimiento de cálculo del coeficiente de correlación por rangos
de Kendall 168
3.2 Dócima de hipótesis del coeficiente de correlación por rangos de Kendall 169
3.3 Caso de aplicación del coeficiente de correlación por rangos de Kendall 170
Bibliografía 179
Anexos 183
1. Distribución normal estándar 185
2. Distribución ji-cuadrado 187
3. Distribución T-Student 189
4. Valores críticos de la prueba de Kolmogorov-Smirnov para una muestra 190
5. Valores críticos de la prueba de rachas 191
6. Valores críticos de la prueba Jonckheere 193
7. Valores críticos de la tau de Kendall 194
8. Coeficiente de concordancia de Kendall 195
9. Distribución binomial 199

Introducción 11
La metodología empleada para un análisis estadístico consiste en identificar las técnicas y los
métodos de muestreo que van a ser de utilidad para la recopilación de datos; hacer una evaluación
de la calidad de los instrumentos a diseñar para recopilar los datos; aplicar las técnicas estadísticas
de clasificación, presentación, reducción y generalización para cuantificar los datos; e interpretar
los resultados para establecer las afirmaciones sobre el problema de estudio.
La investigación cuantitativa se desarrolla con el objeto de obtener información que permita
conocer una situación problemática de manera fehaciente y, por ende, determinar el modelo
adecuado para su medición, interpretación y generalización.
Este proceso tiene como referente al positivismo, en el que se indicaba que solo se podía
obtener conocimiento a partir de lo que estaba permitido por las ciencias, es decir, se consideraba
a la ciencia como el único medio en condiciones de solucionar, en el transcurso del tiempo, todos
los problemas humanos y sociales que hasta entonces habían ocurrido.
Ahora bien, en la investigación cuantitativa estadística, se enfatiza la medición objetiva,
la demostración de la causalidad y la generalización de los resultados obtenidos. Para ello, es
necesario que los procedimientos de recopilación de los datos sean de forma estructurada y
sistemática. En el análisis estadístico de los datos y en su alcance, el propósito es la búsqueda de
leyes generales de la conducta de los individuos, sujetos u objetos que se observan con base en
las mediciones que se han obtenido de ellos.
En ese sentido, se puede indicar que el enfoque cuantitativo de la investigación permite
recopilar y analizar datos sobre las características de la población bajo estudio, esto es, sobre sus
variables, con el fin de obtener el conocimiento de sus propiedades y fenómenos medidos de
forma cuantitativa.
Los elementos del planteamiento del problema de investigación en el enfoque cuantitativo son
los siguientes: la determinación del problema, la formulación del problema, los objetivos generales
y específicos, la importancia y los alcances de la investigación, y la limitación del problema. En la
determinación del problema, se presenta la idea central de la investigación, es decir, se indican
Introducción

el objetivo, las preguntas y la justificación de la investigación; en la formulación, se plantean las
interrogantes respecto a la idea central de la investigación, cuyas respuestas se deben obtener en
el proceso mismo de la investigación. Los objetivos generales y específicos son los ejes centrales
del proceso de investigación con los cuales se establecen las actividades y tareas a lo largo del
proceso de investigación. En la importancia y los alcances de la investigación, se presentan con
meridiana claridad la trascendencia de la investigación y todos los aspectos que van a permitir su
desarrollo. En la limitación de la investigación, se establece también claramente la delimitación
del tema de investigación, de modo que esta pueda ser viable y se logre la consecución de los
objetivos propuestos.
Fundamentalmente, los procedimientos estadísticos están diseñados para analizar variables,
y requieren el cumplimiento de algunos supuestos que en ocasiones pueden resultar demasiado
exigentes, puesto que están referidos a la prueba de hipótesis respecto a algún parámetro; la
exigencia del cumplimiento de supuestos sobre las poblaciones originales de las que se extraen los
datos (generalmente normalidad y homocedasticidad); y el análisis de los datos obtenidos en una
escala de medida de intervalo o razón, características que, combinadas, permiten agrupar estos
procedimientos estadísticos en una gran familia de técnicas de análisis denominadas pruebas
paramétricas.
Muchas de las investigaciones en los negocios utilizan variables cuyos datos son de tipo
cualitativo o categórico, a los cuales no es posible aplicar las técnicas paramétricas. Ante esta
situación, los investigadores se ven limitados solamente a desarrollar un análisis descriptivo y de
resumen de los datos, ya que no se dan las condiciones para utilizar los métodos de la inferencia
estadística, dada la rigidez y la complejidad en su aplicación.
Teniendo en cuenta las limitaciones de la estadística paramétrica en el tratamiento de los
datos cualitativos, existe la alternativa de la estadística no paramétrica, que es un conjunto de
métodos y procedimientos que permiten poner a prueba hipótesis no referidas a parámetros
poblacionales; no requieren el cumplimiento de supuestos exigentes; y no es necesario trabajarlos
con datos de escala de intervalo o razón.
Este documento plantea la aplicación de la estadística no paramétrica en la investigación
cuantitativa de los negocios, para lo cual se hace una presentación de cada técnica y/o prueba
estadística detallando sus aplicaciones y limitaciones correspondientes; su propósito principal
es brindar una alternativa a los investigadores cuando disponen de datos que no satisfacen los
supuestos de la estadística paramétrica.
El presente trabajo de investigación, a la luz de lo propuesto por Siegel (1957), toma en
consideración de forma precisa esta circunstancia, y trata sobre la presentación de las técnicas y/o
pruebas estadísticas no paramétricas referentes a datos que se miden en escala nominal u ordinal:
– Caso de una muestra: prueba binomial, prueba ji-cuadrado, prueba de Kolmogorov-
Smirnov, prueba de rachas.
– Caso de dos muestras independientes: prueba ji-cuadrado, prueba de Kolmogorov-
Smirnov, prueba U de Mann-Whitney, prueba de reacciones extremas de Moses, prueba
de rachas de Wald-Wolfowitz, prueba exacta de Fischer.
– Caso de dos muestras relacionadas: prueba de McNemar, prueba de Wilcoxon, prueba de
los signos.

Introducción 13
– Caso de k muestras independientes: prueba ji-cuadrado, prueba de Kruskal-Wallis, prueba
de la mediana, prueba de Jonckheere.
– Caso de k muestras relacionadas: prueba Q de Cochran, prueba de Friedman, prueba W
de Kendall.
– Medidas no paramétricas de correlación: coeficiente de contingencia, coeficiente de
correlación por rangos de Spearman, coeficiente de correlación por rangos de Kendall.

Estadística no paramétrica
Capítulo
1

1. Concepto de estadística no paramétrica
Tal como se ha señalado anteriormente, las pruebas no paramétricas son una alternativa a las
pruebas paramétricas cuando no se cumplen los supuestos o las condiciones para realizarlas.
Las pruebas no paramétricas son procedimientos estadísticos relativamente sencillos
de aplicar, con los cuales se hacen contrastes de hipótesis para una o varias poblaciones.
Estas pruebas no exigen que los datos recopilados tengan una distribución normal o una
distribución especifica; sin embargo, estas pruebas presentan algunas desventajas frente
a las pruebas paramétricas, porque en muchos casos ignoran cierta porción de informa-
ción de la población y no tienen la eficiencia que se observa en las pruebas paramétricas.
2. Pruebas de hipótesis
Uno de los aportes más importantes de la estadística es el referido a los diversos
métodos inferenciales, que tratan fundamentalmente los temas relacionados con la
estimación de los parámetros y las pruebas de hipótesis.
Las pruebas o contrastes de hipótesis, llamadas también pruebas o contrastes de
significación, son métodos y técnicas estadísticas desarrollados para contrastar la validez
de una hipótesis o la afirmación que se hace sobre la naturaleza de una población de
acuerdo con la información muestral. Lo que se busca es comprobar si la información
obtenida de la muestra concuerda (o es compatible) con los supuestos que se plantean
acerca de las características poblacionales en estudio.
La formulación de la hipótesis implica obviamente la elección entre dos opciones, que
depende del resultado o el valor de un estadístico, obtenido a partir de una muestra aleatoria.
Por lo general, cualquier modelo utilizado para contrastar hipótesis se basa en el uso
de estadísticos calculados a partir de muestras aleatorias. Como los estadísticos tienen
una distribución muestral asociada, nuestra decisión será tomada en presencia de cierta
variación aleatoria, lo que implica a su vez el empleo de reglas claramente definidas para
elegir la opción acertada, es decir, para tomar la decisión correcta.

Sobre el particular, Newbold y Carlson (2008) hacen una analogía muy interesante
al compararlo con un juicio con jurado, donde se supone que el acusado es inocente y
el jurado decide que una persona es culpable solo si existen pruebas muy contundentes
en contra de la presunción de inocencia. El proceso para elegir entre la culpabilidad y la
inocencia requiere de:
1. Rigurosos procedimientos para presentar y evaluar la evidencia.
2. Un juez para aplicar las reglas.
3. Un proceso de decisión que supone que el acusado es inocente a menos que
exista evidencia que demuestre lo contrario.
Además, Newbold y Carlson (2008) hacen notar que este proceso no condena a
algunas personas que, en realidad, son culpables. Pero, si se rechaza la inocencia de una
persona y se le encuentra culpable, tenemos la firme convicción de que es culpable.
Queda claro entonces que, para tomar una decisión sobre una hipótesis particular,
requerimos contar con un procedimiento que se base en la información obtenida y tenga
en cuenta, además, el riesgo que estamos dispuestos a tolerar si acaso nuestro criterio
de decisión no es el correcto.
Las pruebas de hipótesis, según el cumplimiento o no de determinados supuestos,
pueden clasificarse en dos grandes grupos: pruebas paramétricas y pruebas no paramétricas.
Las pruebas paramétricas se realizan bajo el cumplimiento, entre otras, de ciertas
condiciones de normalidad, homocedasticidad e independencia; mientras que las
pruebas no paramétricas no están sometidas al cumplimiento de dichas condiciones,
por lo que se constituyen en alternativas válidas cuando no se logra el cumplimiento de
alguna de las condiciones previstas para las pruebas paramétricas.
Con el fin de simplificar el procedimiento para el desarrollo de una prueba de hipó-
tesis, se plantean los siguientes pasos, que serán tomados en cuenta en el desarrollo de
las pruebas que se presentan en este documento:
1. Formulación de las hipótesis
2. Determinación del nivel de significación
3. Elección del estadístico de prueba o de contraste
4. Determinación del valor crítico
5. Regla de decisión
6. Conclusión
2.1 Formulación de las hipótesis
El procedimiento de desarrollo de una prueba o contraste de hipótesis empieza con la
formulación de las hipótesis estadísticas correspondientes. Una hipótesis estadística es
un supuesto, una conjetura o una afirmación, considerada provisionalmente cierta, que
se hace sobre la distribución de una variable aleatoria, es decir, sobre las características
de una población.
Se dice que una hipótesis estadística es paramétrica si el supuesto, la conjetura o
la afirmación se refiere al valor o a los valores de los parámetros desconocidos de la

población. Estas hipótesis pueden ser simples, cuando se establecen valores únicos para
los parámetros (µ = 10, σ = 6, π = 0,45, etc.), y compuestas, cuando se formula un rango de
valores a dichos parámetros (µ < 10, σ2
≥ 36, π > 0,45, etc.).
Asimismo, se dice que una hipótesis estadística es no paramétrica si el supuesto, la
conjetura o la afirmación se hace sobre alguna característica de la población bajo estudio.
Por ejemplo, la ubicación de mujeres y hombres en la cola de atención de un banco
es aleatoria; la variable X sigue una distribución binomial; no se observa una tendencia
general de los clientes por la preferencia de un producto sobre otro.
En general, lo que se requiere de un procedimiento de prueba de hipótesis es que
permita la especificación de dos conjuntos posibles de valores, que constituyan, a la vez,
dos hipótesis estadísticas: la hipótesis nula, designada por H0, y la hipótesis alternativa,
designada por H1.
Actualmente, cuando se utiliza el término “hipótesis nula”, nos referimos a cualquier
hipótesis que se ha formulado con el propósito de rechazarla; sin embargo, la mantenemos
como cierta a menos que existan suficientes evidencias o pruebas en contra de ella.
En el desarrollo de una prueba de hipótesis, estamos interesados en probar una hipó-
tesis nula contra una hipótesis alternativa, bajo el supuesto de que la hipótesis nula es
verdadera. Si la hipótesis nula es rechazada, entonces aceptaremos la denominada hipótesis
alternativa. Sin embargo, si la hipótesis nula no es rechazada, no quiere decir necesaria-
mente que es la correcta, ya que pueden presentarse las dos siguientes situaciones:
1. Efectivamente, la hipótesis nula es la correcta.
2. La hipótesis alternativa es la correcta, pero no tenemos suficientes evidencias
muestrales para rechazar la hipótesis nula.
Lo que queremos decir es que una hipótesis nula será rechazada cuando se tengan sufi-
cientes evidencias muestrales de que es menos probable que sea cierta; mientras que, si la
hipótesis nula no es rechazada, no implica necesariamente que sea cierta, y solo podremos
afirmar que no existen evidencias muestrales suficientes para asegurar su rechazo.
No existe una regla general que permita especificar unívocamente a estas dos hipó-
tesis, de modo que tal designación se hace de forma arbitraria. Sin embargo, es común
especificar la hipótesis nula de manera exacta, al hacerla corresponder la ausencia o la
“nulidad” de efectos de la variable que se investiga; es decir, en la hipótesis nula se acos-
tumbra especificar como una negación lo que se supone verdadero (Ya-Lun, 1988). Por
ejemplo: el dado no está cargado, no existen diferencias entre dos grupos al comparar
sus preferencias por un producto, no hay diferencias en la aplicación de dos métodos, etc.
La hipótesis alternativa se especifica generalmente con menos precisión, y es común
establecerla al afirmar que la variable que se investiga ejerció algún efecto. Se expresa de
forma opuesta a la hipótesis nula y es la que se conoce como la hipótesis de investiga-
ción. Por ejemplo: el dado está cargado, hay diferencias entre dos grupos al comparar sus
preferencias por un producto, existen diferencias en la aplicación de dos métodos, etc.
La formulación de las hipótesis se enuncia de forma operacional y la naturaleza de
la hipótesis de la investigación determina cómo debe ser formulada. Existen tres tipos
de pruebas que se identifican de acuerdo con la manera en la que las hipótesis nula y
alternativa han sido formuladas.

i) Prueba unilateral o de una cola
Cuando la hipótesis de investigación hace referencia a una dirección determinada:
1. De cola izquierda
Forma general: H0 : θ = θ0 vs H1 : θ < θ0
2. De cola derecha
Forma general: H0 : θ = θ0 vs H1 : θ > θ0
ii) Prueba bilateral o de dos colas
Cuando la hipótesis de investigación hace referencia a una diferencia:
Forma general: H0 : θ = θ0 vs H1 : θ ≠ θ0
2.2 Determinación del nivel de significación
Una prueba de hipótesis en la práctica consiste en probar la hipótesis nula contra la
hipótesis alternativa de acuerdo con la información muestral. Este contraste, debido al
carácter aleatorio del muestreo, nos puede conducir a cometer dos posibles errores.
i) Rechazar la hipótesis nula (H0)
Esto se decide cuando en realidad H0 es verdadera; es decir, que ocurre cuando
la información obtenida de la muestra no es compatible con H0, que se conoce
como error tipo I y la probabilidad de cometerlo recibe el nombre de nivel de
significación, que se representa con la letra griega α.
0 0P(error tipo I) P(rechazar H / H es verdadera)α= =
ii) No rechazar la hipótesis nula (H0)
Situación que se da cuando en realidad H0 es falsa, que se conoce como error
tipo II y la probabilidad de cometerlo no tiene un nombre conocido, pero es
representada por la letra griega β. En realidad no es correcto decir: “Aceptar la
hipótesis nula”, y en su lugar se debe decir: “No rechazar la hipótesis nula”, porque:
1. Efectivamente la hipótesis nula es verdadera.
2. La hipótesis nula no es verdadera, pero no tenemos suficientes evidencias
estadísticas para rechazarla:
0 0P(error tipo II) P(no rechazar H / H es falsa)β= =
Es claro entonces que, cuando incurrimos en alguno de los errores mencionados,
nuestra decisión no será la correcta, de modo que las probabilidades de
cometerlos pueden ser consideradas como los riesgos de tomar decisiones
incorrectas. La tabla 1.1 proporciona información sobre los posibles errores y
su probabilidad de cometerlos.

Tabla 1.1
Estados de la naturaleza y decisiones sobre la hipótesis nula
H0 es verdadera H0 es falsa
Rechazar
H0
Error TIPO I
Probabilidad = α
100α% se denomina
nivel de significación
Decisión CORRECTA
Probabilidad = 1 − β
100(1 − β)% se denomina
potencia de la prueba
Decisiones
sobre H0
Estados de la naturaleza
No rechazar H0
Decisión CORRECTA
Probabilidad = 1 − α
100(1 − α)% se denomina
nivel de confianza
Error TIPO II
Probabilidad = β
Elaboración propia
Según la regla de decisión mostrada en la tabla anterior, podemos establecer
lo siguiente:
Primero
La probabilidad de cometer el error tipo I, o de rechazar una hipótesis nula
cuando es verdadera, representada por α, es “pequeña”. α es el nivel de
significación y, por lo general, su valor se controla cuando decidimos el nivel
del riesgo que estamos dispuestos a tolerar al rechazar H0 verdadera.
Segundo
La probabilidad de no rechazar la hipótesis nula cuando es verdadera es 1 − α,
y al expresarla como porcentaje se le conoce como nivel de confianza.
Tercero
La probabilidad de cometer el error tipo II, o de no rechazar una hipótesis
nula cuando es falsa, es representada por β, y depende de la diferencia entre
los valores hipotéticos y real del parámetro poblacional; de modo que, si esta
diferencia es grande, el valor de β será pequeño; en caso contrario, si dicha
diferencia es pequeña, la probabilidad de cometer error tipo II, β, será grande.
Cuarto
La probabilidad de rechazar una hipótesis nula cuando es falsa, representada
por 1 − β, se conoce como potencia de la prueba.
De acuerdo con estas consideraciones, es ideal que las probabilidades de
cometer los dos tipos de error fueran lo más pequeñas posibles, lo cual no
necesariamente se cumple. En particular, sobre la base de un tamaño de
muestra determinado, la reducción de la probabilidad de cometer un error tipo
I provocará un incremento de la probabilidad de cometer un error tipo II y
viceversa, dado que tienen una relación inversa.

La relación que existe entre estos dos tipos de errores permite que sea posible
realizar una prueba de hipótesis al especificar solamente el valor de α, sin tener
que evaluar β de forma explícita; sin embargo, deberían especificarse siempre
los riesgos de cometer ambos tipos de errores, y buscar un equilibrio razonable
entre las probabilidades de cometerlos. Esta situación se puede lograr al hacer
variar el tamaño de la muestra y escoger luego un tamaño de muestra que
satisfaga los requerimientos.
En resumen, establecer el nivel de significación α equivale a decidir de antemano
la probabilidad máxima que estamos dispuestos a tolerar cuando rechazamos
una hipótesis nula que es cierta o verdadera. Este nivel de significación es elegido
por el propio investigador; por lo general se puede usar un α = 0,01; 0,05; 0,10.
iii) Potencia de la prueba o contraste
La potencia del contraste es otro concepto que se utiliza en las pruebas de
hipótesis para referirnos a la capacidad que tiene la prueba para aceptar
la hipótesis alternativa que en realidad es cierta, o, de otra manera, es la
probabilidad de rechazar la hipótesis nula H0, que en realidad es falsa. Depende
del valor de β y se calcula para valores específicos del parámetro que satisfacen
la hipótesis nula, lo que genera lo que se conoce como la función potencia.
0 0
0 0
Potencia P(rechazar H / H es falsa)
1 P(no rechazar H / H es falsa)
1 P(error tipo II)
1
=
= −
= −
= − β
Hay que tener en cuenta que, como la regla de decisión de la prueba depende
del nivel de significación α elegido, la potencia no afecta de forma directa la
decisión de rechazar o no una hipótesis nula. Sin embargo, cuando calculamos
la función potencia, para distintos valores del nivel de significación y valores
específicos del parámetro que están contenidos en la hipótesis alternativa,
obtendremos información relevante de las propiedades de la regla de decisión,
que se refieren a lo siguiente:
1. Para un valor α dado, al aumentar el tamaño de la muestra, disminuye
β, por lo que la potencia de la prueba aumenta, lo que significa que será
mayor la probabilidad de detectar una hipótesis nula falsa.
2. Para un tamaño de muestra dado, podremos elegir entre dos o más
contrastesquetienenelmismoniveldesignificaciónα,apartirprecisamente
de la prueba que tenga la menor probabilidad de cometer error tipo II, es
decir, aquella que tenga la mayor potencia.
2.3 Elección del estadístico de prueba o de contraste
El estadístico de prueba, en el cual deseamos basar nuestra decisión, debe tener una
distribución muestral conocida bajo el supuesto de que la hipótesis nula sea verdadera.

Por ejemplo, si H0 se formula de manera que en un número fijo de n repeticiones
independientes de un ensayo, que tiene solo dos resultados posibles (éxito o fracaso)
con igual probabilidad de éxito π en cada repetición, el estadístico de prueba que debe
elegirse en este caso es la proporción muestral p. Esta elección es adecuada o apropiada,
ya que, si los supuestos de H0 son verdaderos, la distribución muestral de p es la distribu-
ción binomial con parámetros n y π.
Las consideraciones sobre el estadístico de prueba nos permiten evaluar la validez de
H0 de acuerdo con el resultado proporcionado por una muestra. Siguiendo con nuestro
ejemplo, tendríamos:
a) Si la proporción calculada en la muestra, p, es muy diferente o muy grande
comparándola con la proporción poblacional π especificada en H0, se concluye
que p no concuerda con π y H0 debe ser rechazada (se cuenta con evidencias
muestrales suficientes para rechazar H0).
b) Por otro lado, si la proporción p de la muestra se diferencia en una cantidad
muy pequeña de π, podríamos pensar que esa diferencia se debe al resultado
de variaciones en el muestreo y que la proporción muestral p concuerda con H0,
de modo que, ante tales evidencias, H0 no puede ser rechazada o no se cuenta
con evidencias muestrales suficientes para rechazar H0.
En general, dada una muestra aleatoria, X1, X2, ..., Xn, un estadístico de prueba o de
contraste,iV, es una función de los valores de la muestra, es decir, es una variable aleatoria
cuya distribución muestral es conocida bajo el supuesto (a priori) de que la hipótesis nula
H0: θ = θ0 es verdadera. De acuerdo con esta definición, puede determinarse un criterio
o una regla de decisión para el rechazo o no rechazo de H0, respecto de los valores que
puede tomar iV y un resultado particular que podría obtenerse de la muestra.
2.4 Determinación del valor crítico
La distribución de muestreo del estadístico de prueba iV, generada bajo el supuesto de
que H0 es verdadera, se divide en dos conjuntos excluyentes llamados regiones: una
de ellas es la región de rechazo (conocida como la región crítica), que contiene los
resultados menos favorables a H0, es decir, aquellos valores de iV que se encuentran muy
alejados de la afirmación establecida en H0, y su probabilidad de ocurrir es muy remota
si H0 es verdadera. La probabilidad de ocurrencia de la región de rechazo es conocida
precisamente como el nivel de significación α.
La otra es la región de no rechazo, que contiene los resultados más favorables a H0,
es decir, aquellos valores de iV que se encuentran muy cercanos a la afirmación esta-
blecida en H0, y tienen por lo tanto alta probabilidad de ocurrir si H0 es verdadera. La
probabilidad de ocurrencia de la región de no rechazo es conocida precisamente como
el nivel de confianza 1 − α.
Estos dos conjuntos son separados por una línea divisoria determinada a partir del
punto o valor crítico de la estadística de prueba, que se denota por ciX
. Veremos más
adelante que estas dos áreas, donde se puede ubicar el estadístico de prueba iV, son muy
importantes para tomar la decisión de rechazar o no rechazar H0.

El punto o valor crítico de la estadística de prueba, ciX
, se calcula para un tamaño de
muestra n fijo y un nivel de significación α específicos, y depende de la forma de la hipó-
tesis alternativa H1, del tamaño del riesgo o el nivel de significación α y de la distribución
de la estadística de prueba iV.
Para cada uno de los tres tipos de pruebas antes mencionados, se tiene:
i) Prueba unilateral o de una cola
1. De cola izquierda
La región de rechazo, tal como se muestra en el gráfico 1.1, se encuentra en
la cola izquierda de la distribución del estadístico de prueba iV, de manera
que la validez de H0 se dará solo a partir de valores grandes iV.
Gráfico 1.1
Región de rechazo en cola izquierda
1 Las tablas A.1, A.2, A.3, A.4. A.5, A.6, A.7, A.8 y A.9 se encuentran en los anexos respectivos, al final
del libro.
Elaboración propia
H0 : θ = θ0
H1 : θ < θ0
Si, para un caso determinado, asumimos que la distribución del estadístico
de prueba iV es la distribución t−student, y que la muestra es de tamaño
n = 15 y el nivel de significación de la prueba lo fijamos en α = 0,05,
tendremos que t(n-1; α) = t(14; 0,05) es el punto crítico y su valor es −1,761
(véase tabla A.31
).

2. De cola derecha
La región de rechazo, tal como se muestra en el gráfico 1.2, se encuentra en
la cola derecha de la distribución del estadístico de prueba iV, de manera
que la validez de H0 se dará solo a partir de valores pequeños de iV.
de prueba iV es la distribución normal y el nivel de significación de la prueba
lo fijamos en α = 0,05, tendremos que el punto crítico es Z1 − α = Z0,95 y su
valor es 1,64 (véase tabla A.1).
Gráfico 1.2
Región de rechazo en cola derecha
Elaboración propia
H0 : θ = θ0
H1 : θ > θ0
ii) Prueba bilateral o de dos colas
La región de rechazo, como se muestra en el gráfico 1.3, se divide en dos partes
iguales que corresponden a las dos colas de la distribución del estadístico de
prueba iV, de manera que la validez de H0 se dará a partir de valores grandes y
pequeños de iV. En este caso, se observan dos puntos críticos.
de prueba iV es la distribución normal y el nivel de significación de la prueba
lo fijamos en α = 0,05, tendremos dos puntos críticos: Zα/2 = Z0,025 = −1,96 y
Z1-α/2 = Z0,975 = 1,96 (véase tabla A.1).

2.5 Regla de decisión
La regla de decisión de una prueba o el contraste de hipótesis es el criterio que se
establece o las condiciones que se formulan para decidir si una hipótesis nula H0 planteada
en una investigación debe ser rechazada o no. La decisión finalmente es tomada sobre
la base de la menor o la mayor probabilidad de ocurrencia de las evidencias muestrales
observadas, bajo el supuesto de que H0 sea verdadera.
A continuación, se muestran dos maneras de plantear la regla de decisión a una
prueba o un contraste de hipótesis:
i) El criterio del punto crítico
Como se mencionó en este documento, el punto o valor crítico de la estadística de
prueba iV determina una línea divisoria entre las regiones de rechazo y no rechazo
de H0, de modo que:
1. Región de rechazo de H0
Si el valor de la estadística de prueba iV se ubica en la región de rechazo, el
criterio conduce a “rechazar la hipótesis nula”, lo que equivale a “aceptar la
hipótesis alternativa”.
2. Región de no rechazo de H0
En caso contrario, si el valor de la estadística de prueba iV se ubica en la
región de no rechazo, el criterio conduce a “no rechazar la hipótesis nula”,
lo que equivale a mantenerla.
H0 : θ = θ0
H1 : θ ≠ θ0
Elaboración propia
Gráfico 1.3
Región de rechazo bilateral

ii) El criterio del p-valor
Este criterio consiste en determinar la probabilidad de observar valores del
estadístico de prueba, bajo el supuesto de que H0 sea verdadera, comparándolo
luego con el valor de α. Actualmente, es muy usado en los software en las
aplicaciones estadísticas.
El p-valor, llamado también valor de probabilidad, es la probabilidad de obtener
un estadístico de prueba igual o más extremo que el obtenido de la muestra,
bajo el supuesto de que H0 sea verdadera.
1. Si p-valor < α
El criterio conduce a “rechazar la hipótesis nula”.
2. Si p-valor ≥ α
El criterio conduce a “no rechazar la hipótesis nula”.
Gráfico 1.4
Probabilidad de obtener estadístico de prueba más extremo
Elaboración propia
En resumen, la decisión a la que conduce una prueba de hipótesis puede ser
explicada de la siguiente manera:
– Si se rechaza H0, quiere decir que podemos afirmar, con una probabilidad
α, que existen suficientes evidencias para no aceptar H0.
– Si no se rechaza H0, quiere decir que no tenemos evidencias muestrales
suficientes para rechazarla.

3. Tipos de variables y datos
3.1 Tipos de variables
La variable es una característica de la población a investigar y que toma diferentes
valores.
Diagrama 1.1
Tipos de variables
Elaboración propia
Variable
Cualitativa
Nominal Ordinal
Cuantitativa
Discreta Continua
i) Variable cuantitativa
Se refiere a características que se pueden registrar numéricamente, es decir, que
se expresan mediante un número; por lo tanto, se pueden realizar operaciones
aritméticas con ella. Podemos distinguir dos tipos:
1. Variables cuantitativas discretas
Son características que solo pueden adquirir valores enteros, y casi siempre
hay “brechas” entre esos valores; por ejemplo, el número de personas que
habitan en una casa (1, 2, 3, ..., etcétera).
2. Variables cuantitativas continuas
Son características que pueden tomar cualquier valor dentro de un
intervalo específico. También se puede decir que son características cuya
unidad de medida es fraccionaria; por ejemplo, el tiempo que toma volar
de Lima a Nueva York, la altura (en cm) de los estudiantes.
ii) Variable cualitativa
Se refiere a características o cualidades que no pueden ser medidas con
números, denominada también variable de atributo, y son características no
numéricas de un estudio. Podemos distinguir dos tipos:
1. Variable cualitativa nominal
Son características que expresan un valor de nominación; por ejemplo, el
sexo, la afiliación religiosa, el lugar de nacimiento, el color de los ojos.

2. Variable cualitativa ordinal
Son características que expresan un valor de orden; por ejemplo, el nivel
de educación, el estrato socioeconómico, la categoría de ocupación.
3.2 Medición de las variables
Se entiende por medición al proceso mediante el cual se asigna un valor a la variable en
un individuo en particular; este proceso sigue ciertas reglas determinadas previamente
y utiliza las escalas que a continuación se indican:
i) Escala nominal
En esta escala, cada unidad de análisis pertenece o no a una de las categorías
mutuamente excluyentes en las que se ha clasificado la variable; de manera que
estas solo pueden ser iguales o diferentes. Las categorías pueden codificarse
como números para diferenciarse entre ellas, pero no poseen el valor numérico
correspondiente. Por ejemplo, la variable “sexo” tiene dos categorías: femenino
y masculino, que podrían codificarse como 0 y 1 respectivamente. Asimismo,
se tiene el caso de la variable “estado civil”, que tiene varias categorías tales
como soltero, casado, viudo y divorciado, que podrían ser codificadas como 1,
2, 3, 4, respectivamente.
ii) Escala ordinal
En esta escala, al igual que en el caso anterior, para cada unidad de análisis se
determina la pertenencia o no a una de las categorías excluyentes en las que
se ha clasificado a la variable, y, adicionalmente, se establece una relación de
orden de acuerdo con algún criterio; de manera que cada unidad elemental
puede ser igual o diferente de otra y, asimismo, ser mayor o menor que ella. Las
categorías también pueden codificarse como números, pero tampoco poseen
valor numérico alguno. Así, por ejemplo, la variable “estrato socioeconómico”,
que tiene varias categorías: A, B, C, D y E, las cuales también podrían ser
codificadas en números, pero en este caso la categoría A ubica al individuo o
la unidad de análisis en la categoría más alta (mayor jerarquía), mientras que la
categoría E lo ubica en la categoría más baja (menor jerarquía).
Por otro lado, si tenemos el caso de la variable “opinión sobre el servicio
brindado por un restaurante”, que también tiene varias categorías: malo,
regular, bueno, muy bueno y excelente, esto implica un ordenamiento o una
jerarquización de las categorías en las que se clasifica la variable.
iii) Escala de intervalo
En esta escala, a cada unidad de análisis se le asigna un valor numérico que
indica la fuerza o la intensidad de la característica observada, pero el cero es
relativo y no indica ausencia de esta. Es decir, se establece un orden sobre
la base de una unidad de medida y un origen arbitrarios, de modo que la
distancia entre cada uno de los valores puede ser determinada con exactitud

(la longitud del intervalo entre dos valores es la misma, pero no se observa un
cero verdadero). Cada unidad elemental puede ser igual, diferente, mayor o
menor que otra, y es posible realizar operaciones de suma y resta entre ellas.
Por ejemplo, la temperatura se mide en escala de intervalo, ya que la unidad
de medida y el punto cero se tomaron de forma arbitraria; en este caso, el
valor asignado mide la cantidad de calor y el cero no implica la ausencia de
esta. El valor de la temperatura origen en grados Celsius es 0 ºC, que es un
cero relativo; la diferencia entre 5 ºC y 10 ºC y entre 25º y 30º es la misma; la
temperatura entre 5 ºC y 10 ºC indica que la cantidad de calor ha aumentado,
pero no implica que se haya duplicado.
iv) Escala de razón
En esta escala, a cada unidad de análisis también se le asigna un valor numérico
que indica la fuerza o la intensidad de la característica observada, pero, en
este caso, el cero es absoluto e indica ausencia de esta. Es decir, la unidad de
medida y el origen son fijos, de modo que la razón entre los valores asignados
a dos unidades elementales es independiente de la unidad de medida, con lo
que se mantiene la igualdad de las proporciones. Cada unidad elemental puede
ser igual, diferente, mayor o menor que otra, y es posible realizar operaciones
de suma, resta y división entre ellas. Por ejemplo, en la variable “ingreso de los
trabajadores”, si Juan percibe 6000 soles y Pedro, 2000 soles, se puede afirmar
lo siguiente: un ingreso de 0 soles indica ausencia total de ingresos; Juan tiene
mayor ingreso que Pedro; Juan tiene un ingreso de 4000 soles más que Pedro;
Juan tiene el triple del ingreso de Pedro.
3.3 Tipos de datos
Las investigaciones cuantitativas de los negocios utilizan una serie de datos que están
ligados a las escalas de medición que se indicaron líneas arriba y que podemos clasificar
de acuerdo con su naturaleza, es decir, de acuerdo con el tipo de variable o característica
de la unidad de análisis correspondiente, según lo cual pueden ser cualitativos o
categóricos y cuantitativos o numéricos.
i) Datos cualitativos o categóricos
Se originan a partir de las variables que suelen expresarse en categorías, cada
una de las cuales corresponde a un atributo de la unidad de análisis.
1. Datos nominales
El individuo o unidad de análisis es asignado solo a una de las categorías
en las que se ha clasificado a la variable, y no existe un orden definido
entre las categorías; sin embargo, es posible asignar códigos numéricos
para cada una de dichas categorías. En el caso de que la variable tenga
solo dos categorías, se dice que la misma es dicotómica, y en general se
registra la ausencia (fracaso) o presencia (éxito) del atributo, por lo que
resulta conveniente asignar los códigos 0 y 1, respectivamente.

2. Datos ordinales
El individuo o unidad de análisis es asignado solo a una de las categorías en
las que se ha clasificado la variable, y es posible establecer un orden natural
o lógico entre las categorías de la variable, lo que implica una especie
de “jerarquía” entre dichas categorías. También en este caso es posible
asignar códigos numéricos para cada una de las categorías establecidas.
Para el tratamiento estadístico de las variables cualitativas o categóricas que
previamente han sido codificadas de forma numérica, debemos proceder
con mucho cuidado, ya que los métodos que se tienen que utilizar en el
análisis no deben considerar los datos como números, sino como categorías.
ii) Datos cuantitativos o numéricos
Se originan a partir de las variables que se expresan de forma numérica. En
este caso, el dato es el resultado de la operación de conteo o medición de la
característica en la unidad de análisis que por supuesto es un número, de modo
que será posible realizar con ellos las operaciones aritméticas conocidas. Los
datos cuantitativos o numéricos se clasifican en discretos y continuos.
1. Datos discretos
Se obtienen como resultado de realizar una operación de conteo en
el individuo o unidad de análisis, lo que permite a la variable tomar un
número contable (finito o infinito numerable) de valores.
2. Datos continuos
Se obtienen como resultado de realizar una operación de medición en
el individuo o unidad de análisis, lo que permite a la variable tomar un
número no contable (infinito no numerable) de valores en un rango
determinado. Estos valores se expresan en alguna unidad de medida.
4. Ventajas de las pruebas no paramétricas
Los procedimientos estadísticos clásicos, llamados también paramétricos, están
diseñados para analizar variables cuantitativas, y tienen las siguientes características:
– Permiten contrastar hipótesis referidas a algún parámetro.
– Exigen el cumplimiento de determinados supuestos sobre las poblaciones ori-
ginales de las que se extraen los datos.
– Analizan los datos obtenidos con una escala de medida de intervalo o razón.
En aquellos casos donde no se cumplen los requerimientos señalados, existen como
alternativa otros procedimientos que están enmarcados en la estadística no paramétrica,
los cuales permiten al investigador realizar el análisis de los datos con mayor flexibilidad,
obtener resultados más consistentes y enriquecer la investigación por el hecho de ser
factible la aplicación de la inferencia estadística.

Por lo tanto, se puede afirmar que las pruebas no paramétricas tienen las siguientes
ventajas:
–– No requieren el cumplimiento del ajuste de los datos a distribuciones teóricas.
–– Pueden aplicarse en la mayoría de los casos donde comúnmente se usan las
pruebas paramétricas.
–– Tienen la facilidad en su desarrollo y comprensión complementada con el hecho
de que, en la actualidad, la parte operativa se puede desarrollar con el apoyo de
software estadístico.

Caycho castillo merino_estadistica_aplicada

Caycho castillo merino_estadistica_aplicada

Recomendados

Recomendados

Más contenido relacionado

Similar a Caycho castillo merino_estadistica_aplicada

Similar a Caycho castillo merino_estadistica_aplicada (20)

Más de Michael Mendosa Ortiz

Más de Michael Mendosa Ortiz (12)

Último

Último (20)

Caycho castillo merino_estadistica_aplicada