Estadística descriptiva y aplicación de pruebas de hipótesis

ALVARO ORDOÑEZ CIFUENTES, Mgtr.
DOCENTE UNIVERSITARIO
ESPECIALISTA EN ESTADÍSTICA
ESTADÍSTICA
APLICADA
A LA INVESTIGACIÓN

APLICACIÓN
DE LA ESTADÍSTICA
1. Descriptiva: Al censar
(analizar el universo: N).
a. Porcentajes: % (percentiles)
_
b. Media aritmética: X
c. Desviación típica: S

APLICACIÓN
DE LA ESTADÍSTICA
2. Inferencial: Al muestrear (n)
a. Regresión lineal: r
b. Hipótesis: H

1. Estadística descriptiva
a. Porcentajes%
Es repartir proporcionalmente cada
frecuencia (número de casos) f entre su
población N, multiplicada por 100.
% = (f /N) (100)

Ejemplo de %
I. Las respuestas son únicas (suman N: 100%)
1. Notas del curso de Tortrix 1
Tabla 1
Nota X f % (f/n) (100)
60 10 17
70 5 8
75 7 12
80 15 25
85 8 13
90 15 25
Ʃ 60 100
FI: Trabajo de campo

Ejemplo de %
II. Las respuestas son múltiples (suman más que N:
el total de respuestas es el 100%)
1. ¿Qué me gusta del curso de Tortrix 1?
Tabla 2
Respuesta f % (f/n)
(100)
Fácil 30 25
Relax 20 17
Divertido 10 8
Ameno 12 10
Interesante 18 15
Otros 30 25
Ʃ 120 100

Ejemplo de %
Notas
* Las respuestas son múltiples, por lo que el 100%
ya no son los 60 encuestados, sino las 120
respuestas.
* % = ( f / n) (100) = ( f / 60) (100)
El 100 es K (constante) universal (fórmula) y el
60 particular, sólo del problema.
Por lo que queda: (100 / 60 ) f

Ejemplo de %
1. ¿Qué me gusta del curso de Tortrix 1?
Tabla 2 Incorrecta
Respuesta f % (f/60)
(100)
Fácil 30 50
Relax 20 33
Divertido 10 17
Ameno 12 20
Interesante 18 30
Otros 30 50
Ʃ 60

Ejemplo de %
Notas
* Es incorrecto dividir entre los encuestados, que
son 60, sino debe dividirse entre 120 que suman
todas las respuestas al item.

2. Estadística inferencial
a. Regresión Lineal ó método de mínimos
cuadrados
Es el proceso de linealizar una cuasi -
recta (casi), estimando los valores de Y a
partir de X.

Conceptos básicos
1. Y (variable dependiente) depende de X
(variable independiente).
Y X
2. Pero se ordena en forma alfabética
(machismo matemático).

Conceptos básicos
3. La ecuación es la de una recta.
Y = a + b X
Donde:
X = variable independiente (puede tomar
cualquier valor)
Y = variable dependiente (según X).

Conceptos básicos
b = m = pendiente de la recta.
Si es + = pendiente positiva.
Si es - = pendiente negativa
Si es = 0 es constante (matemática).

Conceptos básicos
Por lo que queda la ecuación:
^
Y est = Y = a + b X
Y est = Y estimada (calculada)
^ = circunflejo

Conceptos básicos
a = intersecto (altura desde el origen a la
pendiente).

Ejemplos ilustrativos
1. Variables dependientes
Y X
Peso Altura
Precio Costo
Rendimiento Motivación
Enfermedad Stress
Rendimiento Asistencia
Asistencia Didáctica
Clima organizacional Relaciones humanas
Confianza Estabilidad
Fuerza Masa

2. Variables independientes
Y X
Inteligencia Altura
Color Costo
Talla Motivación
Sueldo Estrés
Amistad Asistencia
Didáctica Vestuario
Nota Relaciones humanas
Ingresos Necesidad
Felicidad Ingresos

3. Variables cuasi – dependientes
(ambiguas)
Y X
Rendimiento Motivación
Rendimiento Asistencia
Asistencia Didáctica
Sueldo Estrés
Ingresos Titulación
Rendimiento Tiempo de estudio
Educación Nivel social
Ingresos Necesidad
Felicidad Ingresos

NOTA
* Los ejemplos son ilustrativos de variables
obvias, ya en el trabajo de campo se
relacionan variables desconocidas para el
investigador o que difieren contextualmente.

Coeficiente de correlación lineal r
Es el índice de relación de la variable
dependiente Y respecto a la independiente X.
Notas:
* Si r = - porque la pendiente m = -
* Si r = + porque la pendiente m = +
* Si r = 0 porque no hay relación lineal
(recta horizontal, con m = 0)

Coeficiente de determinación r ²
Es el % de dependencia de Y respecto a X
r ² = (r )² * 100
Notas:
* Si r ² = 0 porque no hay relación lineal
(recta horizontal, con m = 0)
* Si r ² = 1 ajuste perfecto
(Y depende de X en un 100%): es irreal,
ya que siempre hay un % de independencia.

Coeficiente de determinación r ²
* Si r ² < 1 ( * 100)
(Y depende de X en un %): y el complemento
para suma de 100%, es el % de
independencia.

EJEMPLO
1. Autoestima U (pts): Y respecto al
Bienestar familiar F (pts): X
F (pts) 150 155 163 172 180 185 200
U (pts) 200 210 225 250 279 300 400

EJEMPLO
Hallar:
a. Gráfica.
b. Ec Y est.
c. Media de F.
d. Típica de F.
e. Media de U.

EJEMPLO
f. Típica de U.
g. r.
h. r²
i. Interpretar r²

Respuestas
b. Y est = - 384.31 + 3.78 X
c. Media de F = 172 pts
d. Típica de F = +/- 17 pts
e. Media de U = 266 pts
f. Típica de U = +/- 64 pts

Respuestas
g. r = 0.96
h. r² = 0.92
i. Interpretar r²
en un 92% depende la autoestima
del bienestar familiar, para los sujetos
encuestados.

TEST o PRUEBA DE HIPÓTESIS H
Es tomar una decisión en función de H.
* Clases de H
a. Ho: Hipótesis Nula: es la que se quiere
comprobar.
Historia de Ho: En USA un grupo de agrónomos
desean un cambio en sus cultivos, al aplicar una
nueva técnica, pero no lo logran (nula) y por ello
se llama así a lo que se desea investigar.

b. Ha: Hipótesis alternativa: es lo opuesto a
lo que se quiere investigar, por lo que
puede ser menor o mayor.
Ejemplo ilustrativo: Un juicio
Ho: ¿Inocente? (hay duda)
Ha: Culpable (seguridad)

Por lo que se está seguro: al rechazar la Ho y
cuando se acepta: no se puede demostrar lo
contrario.
División de H
1. Una muestra: 1 n
2. Dos muestras: 2 n (diferencias)

1. Una muestra: 1n
i) Muestras grandes (n≥ 30): Z (Normal)
ii) Muestras pequeñas (n < 30): t student
Nota: con el software, se trabaja solo con t
student (al ser mayor o 30 se normaliza a
Z).
iii) Proporciones: P

1. t student
Historia: En una cervecería danesa, realizan
un concurso de investigación, utilizando
pseudónimo, por lo que un ingeniero cervecero,
se recuerda cuando era universitario y utiliza
“student” (no se llama s, porque es la típica, por
lo que se corre a la t)
Grados de libertad: gl: Es el número de típicas
libremente seleccionadas, menos la última.
gl = n -1

t student
Nivel de
confianza NC
Error α Error /2 α /2
90% 10% 5%
95% 5% 2.5%
99% 1% 0.5%
NC = 100% - α ó 1 - α
* 90% es el mínimo aceptable y 99% óptima,
por lo que el 95% moderado (recomendado)

Planteamiento
1. Hipótesis
-
Ho: X = μ
_
Ha: X ≠ μ
Media muestral media poblacional
(trabajo de campo) (real o requerida)

Planteamiento
3. Regla de aceptación Ho
_
Aceptar Ho si X Ɛ IC
Intervalo de confianza IC = μ ± (t (α, gl)) Sμ
Donde:
Nivel crítico de confianza: t (α, gl) = tabla o software
(de 2 colas) y de 1 cola el α /2.

Planteamiento
Típica muestral: la típica S se reduce aún
más.
Sμ = ± S / √ n

Ejemplo
1. La edad de 26 estudiantes de III semestre
de una carrera es de 19 años y S = +/- 1
año. ¿Cuál es la conclusión al 95% de
que cumplen con la edad de 20 años?

Solución
X = edad de un estudiante
μ = 20 años (media poblacional)
-
X = 19 años (media muestral), (es menor a μ)
Notas:
* si es Ho ( menor, pero no hay diferencia significativa)
* si es Ha (si es menor)
S = ± 1 año

Solución
NC = 95%
α = 5%
α / 2 = 2.5%
n = 26
gl = n – 1 = 25
t (α, gl) = t (0.05, 25) = 2.060 (Tabla t: 2 colas)

Planteamiento
1. Hipótesis
_
Ho: X = μ
_
Ha: X ≠ μ
_
Ho: X 20
_ = años
Ha: X ≠ 20

Planteamiento
_
Aceptar Ho si X Ɛ IC
Donde: Sμ = s / √26 = 0.2
IC = μ ± (t (α, gl)) Sμ = 20 ± 2.060 (0.2)
= 20 ± 0.4

Planteamiento
α /2 NC α /2
ICI μ ICS
19 19.60 20 20.40
años
Rechazar Ho

Planteamiento
ICI = Intervalo de confianza inferior = 20 – 0.4 = 19.60
ICC = Intervalo de confianza central = μ = 20 años
ICS = Intervalo de confianza superior = 20 + 0.4 = 20.40
19 Ɇ (19.60 a 20.40) V
Rechazar Ho: la edad de los estudiantes, si es
menor a 20 años.

2. Proporción P
Se utiliza la misma Z α /2 (nivel crítico de confianza) de
la normal Z
_
P media = P = n / N ó n’ /n * 100
NC α α/2 Z α /2
Mínimo 90% 10% 5% 1.64
Óptimo 95% 5% 2.5% 1.96
Máximo 99% 1% 0.5% 2.58

Planteamiento
1. Hipótesis
_ P hipotética
Ho: P media P PH
(parámetro) = (estadístico)
Estándar, dato anterior, trabajo de campo
real, requerida
_
Ha: P ≠ P H

Planteamiento
_
Aceptar Ho si p Ɛ IC
Intervalo de confianza IC = PH ± (Z α / 2 ) Sμ
Donde:
Sμ = √ ((PH QH) / n)

Ejemplo
1. En el colegio “El borrador feliz”, se quiere
superar que el 60 % obtenga
satisfactorio Sa en Tortrix I, de 1000
estudiantes, se toma una muestra de 150
estudiantes y 80 logra el Sa. ¿Al 95 % se
lograría superar la meta?

Solución
Datos originales
X = % nota Satisfactoria Sa
P H = 60 % = 0.6 Q H = 1 - P H = 1 – 0.6 = 0.4
N = 1,000 estudiantes
n = 150 estudiantes
n’ = 80 estudiantes Sa

Solución
Datos originales
NC = 95%
α = 5%
α / 2 = 2.5%
Z α / 2 = 1.96

Solución
Datos calculados
-
P = n’ / n = 80/ 150 = 0.53 (menor a P H )
Notas:
Sμ = √ ((PH QH) / n) = √ (( 0.6 * 0.4) / 1000)
Sμ = + / - 0.02

Planteamiento
1. Hipótesis
_
Ho: P = P H
_
Ha: P ≠ P H
_
Ho: P 0.60
_ =
Ha: P ≠ 0.60

Planteamiento
_
Aceptar Ho si P Ɛ IC
IC = P H ± (Z α /2) Sμ = 0.60 ± 1.96(0.02)
= 0.60 ± 0.4

Planteamiento
α /2 NC α /2
ICI μ ICS
0.53 0.56 0.60 0. 64
Rechazar Ho
. .

Planteamiento
ICI = Intervalo de confianza inferior = 0.6 – 0.04 = 0.56
ICC = Intervalo de confianza central = 0.60
ICS = Intervalo de confianza superior= 0.60+0.04 = 0.64
0.53 Ɇ (0.56 a 0.64) F
Rechazar Ho El % Sa es menor al requerido.

2. 2 muestras: 2n
_
a.
Diferencias de medias ∆ X
i) Muestras grandes (n≥ 30): Z (Normal)
ii) Muestras pequeñas (n < 30): t student
Nota: con el software, se trabaja solo con t
student (al ser mayor o 30 se normaliza a

2. 2 muestras: 2n
_
b.
Diferencias de proporciones ∆ P

_
a. Diferencias de medias ∆ X
Planteamiento
1. Hipótesis
Ho: Diferencia de _
Media muestral ∆ X Diferencia de Media ∆ μ
real, requerida
_
Ha: ∆ X ≠ ∆ μ

-
a. Diferencias de medias ∆ X
Planteamiento
1. Hipótesis
_
Ho: ∆ X = 0 *
_
Ha: ∆ X ≠ 0 *
* ∆ μ: Si se indica lo contrario.

Planteamiento
_
Aceptar Ho si ∆ X Ɛ IC
Intervalo de confianza
IC = ∆ μ ± (t (α, gl)) S ∆ μ
Donde: gl = gl 1 + gl 2
Nivel crítico de confianza: t (α, gl) = tabla o software
(de 2 colas) y de 1 cola el α /2.

Planteamiento
Típica muestral: la típica S se reduce aún
más.
Sμ = ± S p / √ ( 1/n1 + 1 /n 2)
Y S² p = Variación conjunta
= ( gl 1 S 1 ² + gl 2 S 2 ² ) / gl
Y S p = ± √ S² p

Ejemplo
1. ¿ Hay diferencia de edades entre los
alumnos del IV semestre de AE de la MESO
en el 2009 al 95% ? Si 11 jóvenes M tienen 23
años y S = 3 años, y 4 sritas F de 21 años y S
= 1 año?

Tabla
gl = gl1 + gl2
t (α, gl) = t (0.05, 13) = 2.16
Sexo n X S S² gl 1/n
M 11 23 3 9 10 1/11
F 4 21 1 1 3 1/4
Ʃ 15 2 ∆ X Ʃ 13 0.34

Solución
X = edad de un estudiante
∆ μ = 0 (no se indica lo contrario)
-
∆ X = 2 años (es mayor a ∆ μ)
Notas:
* si es Ho ( mayor, pero no hay diferencia significativa)
* si es Ha (si es mayor)

Solución
S² p = Variación conjunta
= ( gl 1 S 1 ² + gl 2 S 2 ² ) / gl
= ((10 * 9) + (3 *1) ) / 13 = 7.15
S p = ± √ S²p = √ 7.15 = 2.67 años

Solución
Típica muestral
S∆μ = ± S p / √ ( 1/n1 + 1 /n 2)
= 2.67 √0.34 = 1.56

Solución
_
Aceptar Ho si ∆ X Ɛ IC
IC = ∆ μ ± (t (α, gl)) S ∆ μ
= 0 ± 2.16 (1.56)
= 0 ± 3.37

Solución
α /2 NC α /2
ICI μ ICS
- 3.37 0 2 3. 37
Aceptar Ho
. .

Solución
ICI = Intervalo de confianza inferior = 0 – 3.37 = - 3.37
ICC = Intervalo de confianza central = 0
ICS = Intervalo de confianza superior= 0 + 3.37 = 3.37
2 Ɛ (-3.37 a 3.37) V
Aceptar Ho No hay evidencia para demostrar
que los estudiantes difieren en su edad.

b. Diferencias de Proporciones ∆ P
Planteamiento
1. Hipótesis
Ho: Diferencia de _
Media muestral ∆ P Diferencia de Media ∆ P H
real, requerida
_
Ha: ∆ P ≠ ∆ P H

-
a. Diferencias de medias ∆ P
Planteamiento
1. Hipótesis
_
Ho: ∆ P = 0 *
_
Ha: ∆ P ≠ 0 *
* ∆ PH: Si se indica lo contrario.

Planteamiento
_
Aceptar Ho si ∆ P Ɛ IC
_
IC = ∆ P ± (Z α / 2) S ∆ P

Planteamiento
Típica muestral de P
S ∆ P = ± √ ( /ƥƢ n1 + /ƥƢ n 2)
P conjunta Q conjunta
Y ƥ = n′ / nƩ Ʃ Ƣ = 1 - ƥ

Ejemplo
1. En el 2007 se realizó una encuesta en la
Meso, sobre la confianza en el banco, de
87 encuestados, 34 indicaron que si y en
el 2009 de 18, 10 indicaron que si. ¿Hay
diferencia al 95%?

Tabla No
ƥ = n′ / n = 44/105 =Ʃ Ʃ 0.42 Ƣ = 1 - = 1-0.42 =ƥ 0.58
NC = 95% α = 5% α /2 = 2.5% Z α /2 = 1.96
Año n n ′ P Q ƥ Ƣ ƥƢ (ƥƢ) /n
2007 87 34 0.39 0.61 0.42 0.58 0.24 0.0028
2009 18 10 0.56 0.44 0.42 0.58 0.24 0.0133
Ʃ 105 44 - 0.17 ∆ Ʃ 0.0161

Planteamiento
Típica muestral de P
S ∆ P = ± √ ( /ƥƢ n1 + /ƥƢ n 2)
= ± √ 0.0161 = 0.13

Solución
X = % confía en el banco
∆ PH = 0 (no se indica lo contrario)
-
∆ P = - 0.17 (es menor a ∆ P H)
Notas:

Solución
_
Aceptar Ho si ∆ P Ɛ IC
IC = ∆ P H ± Z α/2 S ∆ P
= 0 ± 1.96 (0.13)
= 0 ± 0.25

Solución
α /2 NC α /2
ICI μ ICS
- 0.25 - 0.17 0 0.25
Aceptar Ho
. .

Solución
ICI = Intervalo de confianza inferior = 0 – 0.25 = - 0.25
ICC = Intervalo de confianza central = 0
ICS = Intervalo de confianza superior= 0 + 0.25 = 0.25
- 0.17 Ɛ (- 0.25 a 0.25) V
Aceptar Ho No hay evidencia para demostrar
que hay variación en la confianza en el banco en
ambos años.

ANÁLISIS DE VARIANZA
ANDEVA o ANOVA
Es el estudio de las varianzas (típica al
cuadrado) muestral: S² é hipotética: σ².
Se divide en:
1. 1 muestra (1n): Chi ó Ji cuadrada X ²
2. 2 muestras (2n): F de Fisher

a. Chi cuadrada X²
Planteamiento
1. Hipótesis
Ho: S² = σ²
Ha: S² ≠ σ²
Dato de campo Dato real

Planteamiento
Aceptar Ho si X² Ɛ IC
IC = (ICI, ICS)

Planteamiento
ICI = X² (1 – α / 2 , gl)
ICS = X² (α / 2 , gl)
Estadístico de prueba X² = ( (n – 1) S² ) / σ²

Ejemplo
1. La típica de la edad de los estudiantes
de 6to semestre de AE Meso 2009 era de 2
años, se tomó una muestra de 11
estudiantes en el 1er semestre con S = 3
años. ¿Cuál es su conclusión al 95%?

Datos originales
X² = varianza de la edad (años ²)
σ = 2 años σ ² = (2) ² = 4 años ²
S = 3 años S ² = 9 años ²
Notas: (de S ²)
* si es Ho ( mayor, pero no hay diferencia
significativa)

Datos originales
n = 11 estudiantes gl = n – 1 = 11 -1 = 10
NC = 0.95 α = 0.05 α / 2 = 0.025
1 - α / 2 = 0.975

Planteamiento H
Ho: S² = σ²
Ha: S² ≠ σ²
Ho: S² = 4
años²
Ha: S² ≠ 4

Planteamiento H
Ho: 9 = 4
años²
Ha: 9 ≠ 4

Planteamiento
ICI = X² (1 – α / 2 , gl) = X² (0.975 , 10) = 3.247
ICS = X² (α / 2 , gl) = X² (0.025 , 10) = 20.483
Estadístico de prueba X² = ( (n – 1) S² ) / σ²
= (10 * 9) / 4 = 22.5

Solución
22.5 Ɇ (3.247 a 20.483) F
Rechazar Ho La varianza de los estudiantes de
AE del 1er semestre de la Meso, si es mayor que los
del 6to semestre del 2009

b. F Fisher
Planteamiento
1. Hipótesis
Ho: ∆S² = 0 *
Ha: ∆S² ≠ 0 *
Dato de campo Dato real
* Sino es lo contrario σ²

Planteamiento
3. Regla de rechazo de la Ho
Rechazar la Ho si F > F (α /2, gl1, gl2)
Estadístico de prueba
F = S 1 ² / S 2 ²

Ejemplo
1. La variación de notas de 25 estudiantes
hombres en un curso es de 48 pts (²) y 16
sritas con 20 pts (²). ¿Cuál es su
conclusión al 90%?

Datos originales
X² = varianza de pts (²)
S1 ² = 48 pts (²) S2 ² = 20 pts (²)
∆ S² = 48 – 20 = 28 pts (²)
* si es Ho (mayor a 0, pero no hay diferencia
significativa)

Datos originales
n1 = 25 gl = n – 1 = 25 – 1 = 24
n2 = 16 gl = n – 1 = 16 – 1 = 15
F = S 1 ² / S 2 ² = 48 / 20 = 2.4
F (α /2, gl1, gl2) = F (0.05, 24,15) = 2.29

Planteamiento H
Ho: ∆S² = 0
Ha: ∆S² ≠ 0
Ho: 28 = 0
Ha: 28 ≠ 0

Solución
3. Regla de rechazo de la Ho
Rechazar la Ho si F > F (α /2, gl1, gl2)
2.4 > 2.29 V
Rechazar Ho La varianza de las notas de los
estudiantes hombres es mayor a la de las sritas.

Estadística descriptiva y aplicación de pruebas de hipótesis

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Estadística descriptiva y aplicación de pruebas de hipótesis

Similar a Estadística descriptiva y aplicación de pruebas de hipótesis (20)

Más de abemen

Más de abemen (20)

Último

Último (20)

Estadística descriptiva y aplicación de pruebas de hipótesis