Serie aprender a investigar 4

YOLANDA GALLARDO DE PARADA
ADONAY MORENO GARZÓN
Serie
APRENDER A INVESTIGAR
Módulo 4
ANÁLISIS DE LA INFORMACIÓN

INSTITUTO COLOMBIANO PARA EL FOMENTO
DE LA EDUCACIÓN SUPERIOR, ICFES
Subdirección General Técnica y de Fomento
PATRICIA MARTÍNEZ BARRIOS
Directora General
PATRICIA ASMAR AMADOR
Subdirectora General Técnica y de Fomento
MÓNICA IBARRA ROSERO
Jefe División de Fomento (A)
MARÍA JESÚS RESTREPO ALZATE
Coordinadora del Proyecto
Serie: APRENDER A INVESTIGAR
ISBN: 958-9279-11-2 Obra completa
ISBN: 958-9279-15-5 Módulo 4
1ª Edición: 1987
1ª Reimpresión: 1988
2ª Reimpresión: 1991
2ª Edición: 1995
Reimpresión: 1998
3ª Edición: (corregida y aumentada) 1999
© ICFES
Calle 17 Nº 3-40 A.A. 6319
Teléfono: 2819311 - 2834027 - 2834067 - 2435129
Fax: 2845309 - 2834047 - 2845980
Santa Fe de Bogotá
Diseño de carátula, diagramación e impresión:
ARFO EDITORES LTDA.
Carrera 15 Nº 53-86
Tels.: 2355968 - 2175794
Santa Fe de Bogotá, D.C.

INSTITUTO COLOMBIANO PARA EL FOMENTO
DE LA EDUCACIÓN SUPERIOR
Serie: APRENDER A INVESTIGAR
Módulos: 1. CIENCIA, TECNOLOGÍA, SOCIEDAD Y DESARROLLO
2. LA INVESTIGACIÓN
3. RECOLECCIÓN DE LA INFORMACIÓN
4. ANÁLISIS DE LA INFORMACIÓN
5. EL PROYECTO DE INVESTIGACIÓN
La serie APRENDER A INVESTIGAR ha sido realizada por el ICFES. Para las ediciones anteriores se contó
con el siguiente grupo de autores:
CARLOS ESCALANTE A. HUMBERTO RODRÍGUEZ M.
Profesor Universidad Nacional de Colombia Profesor Universidad Nacional de Colombia
ALBERTO MAYOR M. EDUARDO VÉLEZ B.
Profesor Universidad Nacional de Colombia Investigador Instituto SER de Investigaciones
ÁNGEL FACUNDO D.
Exjefe División de Fomento
Investigativo ICFES
El proyecto de actualización y revisión de la presente edición de la serie APRENDER A IN-VESTIGAR
fue realizado por el ICFES, para lo cual se conformó el siguiente grupo de autores:
Módulo 1:
LUIS JAVIER JARAMILLO
Módulos 3 y 4:
ADONAY MORENO Universidad San Buenaventura - Cali
YOLANDA GALLARDO DE PARADA Universidad de Pamplona (N.S.)
Módulos 2 y 5:
MARIO TAMAYO Y TAMAYO Universidad ICESI - Cali
Instructivos para videos:
LUZ ESTELLA URIBE VÉLEZ EAFIT - Medellín

MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 5
Contenido
SERIE APRENDER A INVESTIGAR
Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Propósito, población y objetivos de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Estructura de aprendizaje de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
La organización de la serie: los módulos, y material audiovisual . . . . . . . . . . . . . . . 17
Descripción sintética de los módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
La asesoría de tutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Módulo 4: ANÁLISIS DE LA INFORMACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1. NATURALEZA DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2. DIVISIÓN DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1 Estadística descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1.1 Descripción de datos, técnicas de representación gráfica . . . . . . . . . . 29
2.1.2 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.3 Elaboración de una tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.4 Presentación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.4.1 Histogramas y polígonos de frecuencias . . . . . . . . . . . . . . . . 34
2.1.4.2 Gráficas de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.1.4.3 Gráficas lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.4.4 Gráficas circulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3. DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS . . . . . . . . . . . . . . . . . . . . . 41
3.1 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.2 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.3 La media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2.1 El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.2 Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.3 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.4 Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.5 Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.3 Asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4 Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5 Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6 SERIE: APRENDER A INVESTIGAR
4. INTRODUCCIÓN A LAS PROBABILIDADES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.1 Probabilidades elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3 Leyes de las probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.4 Análisis combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4.1 Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4.2 Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.4.3 Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.5 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.6 Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.7 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.8 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5. ESTADÍSTICA INFERENCIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.1 La prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2 Pruebas de significancia de muestras únicas o simples . . . . . . . . . . . . . . . . . 86
5.2.1 Prueba Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2.2 Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.3 Distribución Chi cuadrado: c2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6. REGRESIÓN Y CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1 Introducción a la bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.2 Ajuste de una recta de regresión rectilínea simple . . . . . . . . . . . . . . . . . . . . . 101
6.3 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.4 Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
7. ANÁLISIS DE LA VARIANZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
8. ESTUDIO DE FACTIBILIDAD DEL SOFTWARE ESTADÍSTICO . . . . . . . . . . . . . . 117
8.1 SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.2 SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
8.3 Requerimientos mínimos para la instalación del Software SAS . . . . . . . . . . . 120
8.4 Requerimientos mínimos para la instalación del Software SPSS . . . . . . . . . . 120
8.5 Manejador de Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
9. STATGRAPHICS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
9.1 Grupo I: Data handling and system utilities . . . . . . . . . . . . . . . . . . . . . . . . . . 125
9.2 Grupo II: Plotting and descriptive statistics . . . . . . . . . . . . . . . . . . . . . . . . . . 125
9.3 Grupo III: Anova and regression analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.4 Grupo IV: Time series procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.5 Grupo V: Advanced procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.6 Grupo VI: Mathematical procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
9.7 Requerimientos físicos para la instalación de Statgraphics . . . . . . . . . . . . . . 127
ANEXO: Instructivo para el uso del video
1. Uso didáctico del video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
2. Videos:
• La medición y las ciencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
• La curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
• La muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

Módulo 4
Análisis
de la información
El análisis de la información en el proceso investigativo, depende del
enfoque y del tipo de investigación que se haya seleccionado, como tam-bién
de los objetivos que se hayan planteado.
La estadística se constituye en una herramienta fundamental para el
análisis de la información. Sin embargo es necesario precisar y seleccio-nar
el tratamiento estadístico dependiendo del enfoque cuantitativo o cua-litativo,
de la escala de medición de las variables, de las hipótesis y de los
objetivos.
La estadística es fundamental para resolver problemas de descripción
de datos, análisis de muestras, contrastación de hipótesis, medición de
relaciones y predicciones.
1. NATURALEZA DE LA ESTADÍSTICA
La estadística es una rama de la ciencia, encargada del diseño y apli-cación
de métodos para recolectar, organizar, analizar y hacer deduccio-nes
a partir de ellos.
Aunque los orígenes de la estadística se remontan a los estudios de
los juegos de azar del siglo XVIII, sólo en los últimos 60 años se han desa-

rrollado las aplicaciones de los métodos estadísticos en casi todos los
campos de la ciencia (social, comportamental y física). La mayor parte de
las primeras aplicaciones de la estadística consistieron principalmente en
la presentación de datos en forma de tablas y gráficas. Este campo se
desarrolló con rapidez llegando a incluir gran variedad de métodos para
ordenar, resumir y expresar en alguna forma las características de un con-junto
de números. Hoy estas técnicas cubren lo que es sin duda la más
visible aplicación de la estadística: la masa de información cuantitativa
que se recopila y se publica todos los días en nuestra sociedad. Las tasas
de natalidad, de mortalidad, los índices de precios, los promedios de go-les
obtenidos en las fechas semanales de fútbol, son algunas de las mu-chas
«estadísticas» que nos resultan familiares.
Además de expresar las características de la información cuantifica-ba,
estas medidas proporcionan una base importante para el análisis en
casi todas las disciplinas académicas, especialmente en las ciencias so-ciales
y del comportamiento, donde la conducta humana no puede gene-ralmente
ser descrita con la precisión que se consigue en las ciencias
exactas. Las medidas estadísticas de satisfacción, inteligencia, aptitud
para el trabajo y capacidad de liderazgo, que sirven para ampliar nuestro
conocimiento de las motivaciones y del rendimiento humano, son ejem-plos
de lo dicho. Del mismo modo, los índices de precios, productividad,
producto nacional bruto, empleo, reservas disponibles y exportaciones son
elementos útiles tanto para el gerente como para el gobernante cuando se
trata de trazar una política encaminada a lograr el desarrollo y la estabili-dad
económica a largo plazo.
La estadística proporciona una metodología para evaluar y juzgar las
discrepancias entre la realidad y la teoría. Además de su papel instrumen-tal,
el estudio de la estadística es importante para entender las posibilida-des
y limitaciones de la investigación experimental, para diferenciar las
conclusiones que pueden obtenerse de los datos de aquellas que carecen
de base empírica y en definitiva para desarrollar un pensamiento crítico y
antidogmático ante la realidad.
En la actualidad con la ayuda de la informática y la tecnología el trata-miento
estadístico de la información se hace más sencillo.
Para el análisis de datos cuantitativos, tenemos en la actualidad progra-mas
como el SAS, SPSS, MINITAB, SVSTAT, RESAMPLING, STATGRA-PHIS.
Para el análisis de datos cualitativos existen programas como el
QUALPRO, ETHNOGRAPH, NUDIST, AQUAD.

2. DIVISIÓN DE LA ESTADÍSTICA
La estadística se divide en dos grandes ramas, dependiendo del méto-do
empleado para manejar la información y hacer que tenga sentido: esta-dística
descriptiva y estadística inferencial.
Población
Muestra
K
Gráfica 1.
Estadística
descriptiva
Estadística inferencial
K
2.1 Estadística descriptiva. Permite describir resumir y analizar la
información obtenida de la muestra.
Para tal fin se recolecta la información, se tabula, se grafica y en mu-chos
casos en vez de trabajar con todas las observaciones, es preferible
tener unas medidas que resuman los datos.
Básicamente hay tres tipos de medidas de resumen: medidas de ten-dencia
central, medidas de dispersión o variabilidad de los datos y medi-das
de ubicación.
La gráfica 1 se interpreta así: con los datos de la muestra se aplica la
estadística descriptiva; con los resultados de la estadística descriptiva se
hacen análisis de estadística inferencial referidos a la población.

MAPA CONCEPTUAL DE ESTADÍSTICA DESCRIPTIVA
TABLAS DE FRECUENCIAS
TABULACIÓN
TABLAS DE CONTINGENCIA
PUNTOS
GRÁFICAS O LÍNEAS
DIAGRAMAS BARRAS HISTOGRAMAS
CÍRCULO
CAJA
MEDIA
MEDIDAS DE MEDIANA
TENDENCIA MODA
CENTRAL MEDIA GEOMÉTRICA
RANGO
MEDIDAS MEDIDAS DE DESVIACIÓN ESTÁNDAR
DE DISPERSIÓN VARIANZA
RESUMEN ÍNDICE DE DISPERSIÓN
CATEGÓRICO
CUARTILES
MEDIDAS DE QUINTILES
UBICACIÓN DECILES
PERCENTILES

2.1.1 Descripción de datos, técnicas de representación gráfica
El concepto de la descripción está asociada a la distribución de fre-cuencias,
que consiste en el ordenamiento o clasificación de los valores
observados en una variable, de acuerdo con su magnitud numérica. Per-mite
al investigador identificar la forma como ciertos puntos o caracterís-ticas
están distribuidos.
La distribución de frecuencia se puede construir a partir de variables
medidas a cualquier nivel, desde nominal hasta de razón.
Podríamos suponer que queremos ver cuántos productores agrícolas
en una vereda son grandes, medianos o pequeños productores.
Entrevistamos a los productores de la vereda y les preguntamos la
extensión de su explotación y la clasificamos de acuerdo con el tamaño
(magnitud) en una de las tres categorías.
Se construye la distribución de frecuencias que muestre cuántos pro-ductores
son grandes, cuántos medianos y cuántos pequeños. El recuen-to
será:
Tabla 1 - Tipo de productor agrícola
Tipo de productor Frecuencia
Pequeño 7
Mediano 12
Grande 9
Total 28
En el cuadro sólo se ha agrupado el número de agricultores pertene-cientes
a cada categoría. El número de agricultores se denomina obser-vaciones
o frecuencia (f).
Para el caso de variables medidas a nivel intervalo o de razón, pode-mos
hacer exactamente el mismo ejercicio.
Si se tiene, por ejemplo, la información acerca del número de cajas de
madera que construyen al día unos carpinteros en un taller, podríamos
clasificarlos por su productividad.

Tabla 2 - Número de cajas construidas por 15 carpinteros
N° de cajas
Carpinteros construidas
1 11
2 10
3 8
4 12
5 12
6 10
7 7
8 8
9 10
10 11
11 10
12 9
13 9
14 10
15 11
A partir de esta información podemos aclarar aún más la naturaleza de
la producción por carpintero y se podría entrar a comparar esta productivi-dad
con la de otro tipo de taller o fábrica.
En la tabla 3 introducimos un mayor significado y ordenamiento a la
información que se está analizando.
Tabla 3 - Número de cajas construidas por 15 carpinteros
Nº de carpinteros
Nº de cajas que construyen X F
construidas Nº de cajas
7 I 1
8 II 2
9 II 2
10 5
11 III 3
12 II 2
Hasta ahora los ordenamientos que se han hecho son bastante simples,
pero en la vida real muchas veces la información analizada es más compleja
y la distribución de frecuencias debe ser construida a partir de un mayor
número de puntajes.

2.1.2 Distribuciones de frecuencias
La distribución de frecuencias es un método para organizar y resumir
datos. Bajo este método los datos que componen una serie, se clasifican
y ordenan, indicándose el número de veces en que se repite cada valor.
Los caracteres de los elementos de una población pueden ser: cualita-tivos
y cuantitativos.
Los datos cualitativos, denominados también atributos, son todos aque-llos
fenómenos que pueden ser descritos cualitativamente, es decir me-diante
palabras; son ejemplos de atributos: la clasificación de los alum-nos
de una universidad por departamento de origen, clasificación de un
grupo de personas por ocupación, por sexo, por cargo, etc.
Los caracteres cuantitativos, denominados variables, son todos aque-llos
fenómenos susceptibles de ser expresados cuantitativamente, es decir
mediante números. Por ejemplo: peso, estatura, edad, número de hijos,
salarios, etc.
Las variables se dividen en: discretas y continuas, teniendo en cuenta
que ésta clasificación tiene más valor teórico que práctico.
Las variables discretas son aquellas que admiten solamente valores
enteros, es decir no tienen valores intermedios; por ejemplo el número de
hijos por familia, ya que no se puede decir que una familia tiene dos hijos
y medio.
Las variables continuas, son aquellas que admiten valores fraccionar-los,
pudiéndose establecer intervalos. Por ejemplo, la estatura de una per-sona
que mide un metro con setenta centímetros, que pesa sesenta kilos,
una libra y cuatro onzas, etc.
2.1.3 Elaboración de una tabla de frecuencias
Tomemos como ejemplo una muestra de 20 alumnos, determinando
su peso en kilos; para facilitar el trabajo redondeamos las cifras.
X1 = 74 X5 = 69 X9 = 47 X13 = 65 X17 = 76
X2 = 67 X6 = 61 X10 = 85 X14 = 88 X18 = 57
X3 = 94 X7 = 71 X11 = 82 X15 = 52 X19 = 72
X4 = 70 X8 = 79 X12 = 55 X16 = 58 X20 = 66

El primer paso a seguir consiste en determinar el valor máximo y el
mínimo.
En el ejemplo tenemos:
Xmáximo = 94; Xmínimo = 47
La diferencia entre el valor máximo y el mínimo se denomina recorrido
o rango.
94 - 47 = 47
El rango, será entonces de 47.
Introducimos dos nuevos símbolos que son:
m = número de intervalos (o clase de la distribución)
c = amplitud de intervalo (o de clase de la distribución)
El valor de m, o sea, el número de intervalos se puede obtener me-diante
la siguiente fórmula:
m = 1 + 3.3 log n , donde n es el número de datos
Es de anotar que la anterior fórmula es poco conocida, por consiguien-te,
es poco usual. Sin embargo, se recomienda que el número de interva-los,
hasta donde sea posible, no sea menor de 5 ni mayor de 16.
Para el cálculo de amplitud del intervalo se puede aplicar la siguiente
fórmula:
Xmax.
- Xmin. o sea rango
C = C =
m m
En el caso de nuestro ejemplo, el número de intervalos será:
m = 1 + 3.3 log2O de donde m = 1 + 3.3,x 1,30
m = 1 + 4,29
m = 5.29 @ 5 intervalos.

La amplitud del intervalo de clase será:
Rango R =47
Número de intervalos m = 5
C = R
de donde C = 47 = 9.4
m 5
Redondeando y para mejor manejo de los datos, se puede considerar
que la amplitud del intervalo sea de 9.
La tabla de frecuencias nos quedará en la siguiente forma,
Tabla 4 - Distribución de frecuencias del peso de 20 alumnos
Peso Frecuencias (f) Frecuencia Relativa Fr
46 - 55 3 3/20 = 0.15 = 15%
56 - 65 4 4/20 = 0.20 = 20%
66 - 75 7 7/20 = 0.35 = 35%
76 - 85 4 4/20 = 0.20 = 20%
86 - 95 2 2/20 = 0.10 = 10%
Total 20 20/20 = 1 = 100%
Frecuencia relativa (Fr)
Es su frecuencia dividida por el total de datos y se expresa general-mente
como un porcentaje:
f
Fr = __
n
2.1.4 Presentación gráfica
Aunque las tablas sean ya el resultado de una concentración de datos,
pueden ser, sin embargo, demasiado amplias y complejas, de modo que
pierden una buena parte de lo que debería ser su cualidad primordial, la
claridad.
Entonces, podemos recurrir a la presentación gráfica, para la mejor
comprensión y análisis de los datos. En las variables discretas se hace la
representación mediante diagramas de frecuencias; para ello, en el eje hori-

zontal, se colocan los distintos valores de las frecuencias absolutas o rela-tivas.
Si la representación se refiere a las frecuencias absolutas o relativas
acumuladas se denomina: Diagrama de frecuencias acumuladas, colocán-dose
los valores de la variable en el eje horizontal y las frecuencias Fr, en el
vertical.
2.1.4.1 Histogramas y polígonos de frecuencias
Una distribución de frecuencias, se puede describir por medio de histo-gramas
de frecuencias, que son gráficos que representan la información
contenida en una distribución de frecuencias.
El ejemplo de la tabla 4, sobre el peso de los alumnos, se puede pre-sentar
en un histograma que representa exactamente lo mismo.
Gráfica 1.
Peso en kilos de 20 alumnos de un colegio
Otra manera de describir la distribución de la información obtenida, es
por medio del polígono de frecuencias.
Estos son gráficos en la forma de una serie de líneas rectas conecta-das
entre sí y que unen puntos medios de intervalos a lo largo del eje
horizontal.
El caso del peso de los alumnos, puede servirnos para ilustrar la técnica
de los polígonos de frecuencia. Para construirlo se siguen los mismos pa-sos
que para construir un histograma, pero en lugar de construir los rectán-gulos
a partir de los límites superior e inferior de los intervalos, se calcula el
punto medio del mismo y se unen, por medio de una línea recta que se
conecta a los puntos medios de los demás intervalos.

Así por ejemplo en el gráfico 1 podemos trazar el polígono de frecuen-cias,
uniendo los puntos medios del histograma de frecuencias.
2.1.4.2 Gráficas de barras
La gráfica de barras es fácil de construir y su interpretación es de
gran utilidad. Una gráfica diseñada para mostrar magnitudes absolu-tas
deberá tener su inicio en cero y una escala de cantidades conti-nuas.
Las gráficas de barras pueden construirse en forma vertical u
horizontal.
Las gráficas de barras pueden dividirse en tres tipos:
a. Gráficas de barras con partes componentes. En esta gráfica cada ba-rra
ha sido segmentada en dos partes componentes; así, por ejemplo,
en la siguiente gráfica se tiene que la población de estudiantes de 100
semestre de la facultad X, de la Universidad Y, se distribuye según el
sexo y la edad así:
Distribución de los estudiantes de décimo semestre de la Facultad X,
de la Universidad Y, por sexo y edad
0 10 2 0 3 0 4 0
N úm e ro d e E s tu d ia n te s
1 5 -1 9
2 0 -2 4
2 5 -2 9
3 0 -3 4
En la gráfica se muestra el número de estudiantes clasificados por
sexo y edades, en cada barra se presentan los dos componentes, los
hombres y las mujeres.
b. Gráficas de barras agrupadas. En esta gráfica, se presentan los mis-mos
datos de estudiantes, excepto que los componentes por sexo se
muestran separadamente así:
Edad
h o m b re s
m uje re s

Distribución de los estudiantes de décimo semestre de la Facultad X,
de la Universidad Y, según el sexo y la edad
0 5 1 0 1 5 2 0 2 5 3 0
1 5 - 1 9
2 0 - 2 4
2 5 - 2 9
3 0 - 3 4
Edad
N ú m e r o d e E s t u d ia n t e s
m u je re s
h o m b r e s
c. Gráficas de barras bidireccionales. Cuando se desea graficar cantida-des
positivas y negativas, tales como pérdidas y ganancias en la pro-ducción
de una empresa, por tipo de producto. Así, en la gráfica de
producción de la empresa X, se tiene que las pérdidas y ganancias por
tipo de producto son:
Utilidad o pérdida en la producción de la Empresa X
Estufas
Calentadores de agua
Secadores
Enfriadores
Planchas
-40 -20 0 20 40 60
2.1.4.3 Gráficas lineales
utilidad o
pérdida
Producción
Cuando debe presentarse una serie que cubre un gran número de pe-ríodos
de tiempo, los datos graficados por medio de barras se ven dema-siado
acumulados; entonces, éstas pueden ser reemplazadas por una
línea, ya que las líneas son más efectivas que las barras, cuando existen
marcadas fluctuaciones en las series, o cuando deben presentarse varias
series sobre la misma gráfica. Por ejemplo, el número de estudiantes de
la facultad X, matriculados por sexo, en el período 1990-1998.

Número de estudiantes de la Facultad X, matriculados por sexo,
en el período 1990-1998
600
500
400
300
200
100
0
90 91 92 93 94 95 96 97 98
2.1.4.4 Gráficas circulares
Años
Las gráficas circulares, llamadas también de tipo pastel, se usan para
mostrar los tamaños relativos de los componentes de un total. Son utiliza-dos,
para indicar cosas tales como participación de cada facultad en el
total de estudiantes matriculados de determinada universidad, en perío-dos
diferentes.
El proceso para realizar el diagrama consiste en una regla de tres.
Para conocer el ángulo de cada sector se debe relacionar los 3600
que tiene una circunferencia con el tamaño de la muestra y con cada una
de sus frecuencias absolutas, así:
360° n
X F1
Por ejemplo, si la siguiente tabla representa el número de docentes de
una universidad, clasificados por modalidad educativa.
Modalidad
Técnica 5
Tecnología 25
Universitaria 80
Post-grado 15
N = 125
El diagrama circular se construirá así:
360° 125 Donde 125 es el tamaño de la muestra y
X 5 5 la frecuencia en la primera modalidad.
Número de Estudiante
Hombres
Mujeres
Total

Luego X =
360° x 5
125
En el siguiente ejemplo, se muestra la distribución porcentual del nú-mero
de estudiantes matriculados en 5 facultades de una universidad X,
en los años de 1990 y 1998.
DESCRIPCIÓN DE DATOS, TÉCNICA DE REPRESENTACIÓN
GRÁFICA - AUTOEVALUACIÓN N° 1
Lea cuidadosamente cada uno de los siguientes enunciados y seña-le
la respuesta correcta.
1. El propósito principal de la estadística descriptiva es:
a) Representar los datos por medio de histogramas.
b) Obtener la información necesaria para la investigación.
c) Medir en escalas nominales, ordinales e intervalos.
d) Conocer las características generales de una distribución de
frecuencias.
e) Todas las anteriores.
2. Una distribución de frecuencias sólo se puede construir a partir de
variables medidas en escalas intervalos.
Sí _______ No _______
a
15%
b
18%
c
d 8%
36%
c
13%
d
27%
e
15%
b
14%
a
31%
e
23%

¿Por qué? _______________________________________________
_________________________________________________________
3. Si clasificamos 220 municipios en grandes, medianos y peque-ños,
de acuerdo con el número de habitantes, de forma tal que
tenemos 49 grandes, 63 medianos y 108 pequeños, ¿cómo los
representaría en un histograma de frecuencias como en un diagra-ma
circular?
4. Para construir un histograma de frecuencias, primero es necesa-rio
construir un polígono de frecuencias.
Sí _______ No _______
5. En un examen general de matemáticas los 30 alumnos de un cur-so
obtuvieron las siguientes calificaciones:
Calificación N° de alumnos
78 1
77 1
76 0
75 2
74 1
73 0
72 2
71 2
70 4
69 5
68 3
67 0
66 3
65 2
64 0
63 1
62 2
61 1
Represente la misma información en una distribución de frecuencias,
basada en intervalos. Determine el rango, el número de intervalos y
la amplitud de los intervalos. Represente los resultados por medio de
un histograma y un polígono de frecuencias.

1. d
2. No
3. Gráfico
4. No
5. Rango = 17; número de intervalos = 6; amplitud de intervalo = 3
Calificaciones F Frecuencia
Relativa %
61-63 4 13.3
64-66 5 16.7
67-69 8 26.7
70-72 8 26.7
73-75 3 10.0
76-78 30 100.0
RESPUESTAS A LA AUTOEVALUACIÓN N° 1
Graficar

3. DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS
La segunda técnica utilizada en la estadística descriptiva se basa en
dos tipos de cálculos numéricos: Los de tendencia central y los de dis-persión.
Las medidas de tendencia central se basan en que, en cualquier distri-bución
de frecuencias, los valores tienden a concentrarse al rededor de
un valor central de la distribución.
Las de dispersión, por el contrario, se basan precisamente en la mane-ra
en que los valores se distribuyen alrededor de esos valores centrales.
Para entender la naturaleza de la distribución, tenemos que tratar de
describir el centro de la distribución de las mediciones y la forma como
éstas varían alrededor de ese centro.
Podemos utilizar estas técnicas descriptivas, tanto para estudiar los
parámetros de la población como las estadísticas de las muestras y en
este último caso, a partir de ellas podemos estimar los correspondientes
parámetros de la población.
3.1 Medidas de tendencia central
A continuación describimos las técnicas de tendencia central: moda,
mediana y media aritmética.
3.1.1 La moda
La moda de una distribución se define como el valor que presenta la
mayor frecuencia. Se usa con mediciones de escala nominal, ordinal, de
intervalo o de razón.
Es comúnmente utilizada como una medida de popularidad, que refle-ja
la tendencia de una opinión. En algunas distribuciones sólo hay una
moda, pero en otras puede haber dos o más modas. Si tomamos 1, 4, 4,
4, 2, 5, 5, 8, 3, 6, 5, vemos que tanto el cuatro como el cinco aparecen con
más frecuencia y en tres ocasiones. Es decir, hay dos modas y la distribu-ción
es bimodal.
Cuando se trabaja con datos agrupados, la moda se refiere como el
valor medio del intervalo que constituye la mayor frecuencia.

Tabla 5. Puntajes obtenidos por 50 alumnos de un curso de física
Puntajes Frecuencias
30 - 32 4
33 - 35 4
36 - 38 5
39 - 41 7
42 - 44 12
45 - 47 7
48 - 50 4
51 - 53 3
54 - 56 2
57 - 59 2
Total 50
En la tabla 5, presentamos la distribución obtenida al estudiar los puntajes
obtenidos por 50 estudiantes como calificación en un curso de física.
El intervalo que contiene el mayor número de casos, o mayor frecuen-cia
es 42 - 44. Este intervalo contiene los puntajes 42, 43 y 44. El valor
medio del intervalo es, por lo tanto, 43 y lo denominamos como la moda.
3.1.2 La mediana
La mediana se define como la medida de tendencia central que divide
a cualquier distribución en dos partes iguales.
En la siguiente distribución:
7, 8, 8, 9, 12, 15, 18, 18, 20, 21, 23.
La mediana es 15, porque se sitúa en el punto que divide la distribución
en dos partes iguales. Hay el mismo número de casos antes y después
del 15.
La mediana se usa en variables medidas en escala ordinal, intervalo o
de razón. Su mayor uso es cuando se tienen muchas observaciones y
generalmente se utiliza en distribuciones de ingresos, edades, pesos.
Cuando hay una distribución con un número par de casos, la mediana
es el promedio de los dos valores medios. Así, en la siguiente distribución
de notas:
78,95,86,73,52,90,89,84,76,92

El valor de la mediana es 85, porque, primero al ordenar la distribución
de menor a mayor así:
52,73,76,78,84,86,89,90,92,95
Siendo 10 el total de notas, las que aparecen en la posición quinta y
sexta están en la mitad de la distribución, entonces la mediana será:
84 + 86 = 85
2
Cuando se tiene información agrupada, la mediana se define como el
valor dentro del intervalo que divide la distribución en dos partes iguales.
El símbolo utilizado es Me.
En la tabla 6, tenemos una distribución cualquiera con 5 intervalos de
tamaño 5 y con 30 observaciones.
Tabla 6. Distribución de frecuencias de los pesos de 30 estudiantes
Frecuencias
Intervalos F acumuladas
30 - 34 4 4
35 - 39 7 11
40 - 44 8 19
45 - 49 6 25
50 - 54 5 30
Total 30
Los pasos a seguir para el cálculo de la mediana son:
• Encuentro las frecuencias absolutas acumuladas.
• Con base en las frecuencias acumuladas ubico el intervalo donde que-de
la frecuencias correspondiente a la mitad del tamaño de la mues-tra,
es decir: n
2
• Encuentro el valor del límite real inferior del intervalo donde está n
2
• Aplico la siguiente fórmula:

n _ S Fa
2
Mediana = Li + C
Fn
2
donde Li = Límite real inferior donde está ubicada n
2
SFa = Suma de las frecuencias anteriores a donde está
ubicado n
2
C = Amplitud del intervalo.
En el ejemplo anterior de los pesos de 30 estudiantes la mediana
está dada por:
n = 30 = 15
2 2
Li = 39.5 Corresponde al límite inferior donde está 15 como
frecuencia acumulada.
Corresponde a la frecuencia del intervalo donde está n
2
F n = 8
2
SFa = 11 Corresponde a la suma de las frecuencias antes de n
2
C = 5 Es la amplitud del intervalo.
Luego:
Mediana = 39.5 +
Mediana = 42
(15 - 11)
8
3.1.3 La media aritmética
x 5
Es la medida de tendencia central más conocida, es fácil de calcular, de
gran estabilidad en el muestreo, sus fórmulas permiten tratamiento alge-braico.

Además, presenta el inconveniente de ser muy sensible a los valores
extremos, cuando éstos son demasiado bajos o demasiado altos. Se re-presenta
así: X
La media aritmética se define como la suma de todos los valores ob-servados
dividido por el número de observaciones (n).
X = S xi
La fórmula para datos no agrupados es:
Donde S-Xi corresponde a la sumatoria de todos los valores de la
muestra.
n
La media aritmética de la siguiente distribución es:
1.1, 2, 1, 2.4, 3, 2, 4.5
X =
1.1 + 2 + 1 + 2.4 + 3 + 2 + 4.5
=
16.1
=
2.28
7 7
Para las distribuciones con datos agregados, existe una fórmula, aun-que
un poco más complicada, es bastante fácil de aplicar.
media =
S fx
n
donde f corresponde a las frecuencias, y X al valor de cada marca de
clase.
Tabla 7. De valores de los pesos de los 30 estudiantes
x f
Intervalos Marca de clase Frecuencias fx
30-34 32 4 128
35-39 37 7 259
40-44 42 8 336
45-49 47 6 282
50-54 52 5 260
Total 30 1265
La marca de clase es el punto medio de cada intervalo. Para tal fin se
suman los dos valores extremos y se divide entre dos. Por ejemplo, la
marea de clase para el primer intervalo es:

Por consiguiente al aplicar la fórmula la media aritmética es:
La media aritmética tiene sus ventajas, sobre las otras medidas de
tendencia central, en que:
• Cada caso se incluye en el cálculo.
• Es rígidamente calculada, es decir, sólo hay una para conjunto de datos.
• Es importante para hacer inferencias, es decir sirve también para cal-cular
parámetros de la población.
La media aritmética sólo se puede calcular a valores numéricos, es
decir que estén en escala de intervalos o de razón.
3.2 Medidas de dispersión
Son aquellas que nos determinan cómo se agrupan o se dispersan los
datos alrededor de un promedio.
En este capítulo se estudiarán las medidas que se utilizan para deter-minar
cuán bien representan los promedios a la distribución considerada.
En el siguiente ejemplo se presentan las notas obtenidas por dos gru-pos
de estudiantes:
Grupo A Grupo B
80 97
80 95
75 70
83 72
82 73
81 96
82 80
75 72
79 71
7 71
795 797
X =
30 + 34
=
64
=
32
2 2
media =
1.265
= 42.17
30

XA = 79.5
XB = 79.7
La media aritmética de ambas series es prácticamente igual (79.5 en
el grupo A y 79.7 en el grupo B). Un análisis de las cifras individuales
revelan un gran contraste. En el grupo A hubo muy poca variación entre
las notas, siendo la más alta 83 y la más baja 75. En el grupo B, se nota
mayor variación, en este grupo la mayor nota fue 97 y la menor 71. Como
conclusión se podría decir que en el grupo B hubo notas muy altas y muy
bajas. En el grupo A las notas tuvieron una mayor concentración alrede-dor
del promedio.
Para establecer esta característica se utilizan las medidas de varia-ción
o dispersión, entre las cuales las más utilizadas son el rango, la
varianza y la desviación estándar.
3.2.1 El rango
La medida más simple de dispersión es el rango. Este identifica la
distancia entre el valor mayor y el valor menor de la distribución. Más
específicamente, se define como la diferencia entre el mayor valor y el
menor valor. Se simboliza por r.
Ejemplo, el rango de la siguiente distribución es:
25, 36, 64, 20, 48, 59.
r = 64 - 20 = 44
El rango es sencillo de calcular pero tiene la desventaja de que es
sensible a los valores extremos.
3.2.2 Percentiles
Los percentiles son usados para calcular una segunda medida de dis-persión.
El P-ésimo percentil de un conjunto de mediciones ordenadas
según su magnitud, es el valor que tiene P% de las mediciones por debajo
de él y (100 P%) por encima.
Se utilizan muy frecuentemente para describir los resultados de pruebas
de conocimiento, como los del Sistema Nacional de Pruebas y en la clasi-ficación
de personas en forma comparativa. Entre los percentiles de más
interés están el 25, el 50 y el 75, frecuentemente denominados como el
menor cuartil Q1, el cuartil mediano (mediana) Q2 y el cuartil superior, Q3.

3.2.3 Varianza
De todas las medidas de dispersión, la más importante, más conocida
y usada es la varianza. Se define como la media aritmética de los cuadra-dos
de las desviaciones, respecto a su media. Se simboliza por S2.
Su fórmula es:
para datos no agrupados
datos agrupados
S2 =
S (xi - media)2
n
S2 =
S f (X - media)2
n
Ejemplo con datos no agrupados
Xi = 5; X2 = 3; X3 = 1; X4 = 6; X5 = 10
X =
5 + 3 + 1 + 6 + 10
=
25
=
5
5 5
S2 =
(5-5)2 + (3-5)2 + (1-5)2 + (6-5)2 + (10-5)2
5
S2 =
0 + 4 + 16 + 1 + 25
=
46
=
9.2
5 5
Lo cual indica que la varianza de los datos es de 9.2
Ejemplo para datos agrupados
Supongamos la siguiente tabla de pesos en kilogramos:

Tabla 8 - Pesos de 100 estudiantes de un colegio
Marca de
Pesos clase X X - X (X - X)2 Frecuencias f f (X - X)2
60-62 61 -6.45 41.60 5 208.0
63-65 64 -3.45 11.90 18 214.2
66-68 67 -0.45 0.20 42 8.4
69-71 70 2.55 6.50 27 175.5
72-74 73 5.55 30.80 8 246.4
Total 100 = n 852.51
X = 67.45
donde X es la marca de clase
X la media aritmética
f la frecuencia de cada intervalo
Propiedades de la varianza
a. La varianza siempre debe ser un valor positivo S2> 0
b. La varianza de una constante es 0, es decir: si Xi = C para todo i,
entonces S2 = 0
c. La varianza de una constante más una variable, es igual a la varianza
de la variable.
S2 (k + X): = S2
k + S2
x = 0 + S2
x = S2
x
También es válida para la diferencia
S2 (k + X): = S2
k + S2
x = 0 - S2
x = S2
x
d. La varianza de una constante por una variable, es igual al producto de
la constante al cuadrado por la varianza de la variable:
S2 (kX): = k2 S2
X
S2 =
S f (x - x)2
n
S2 = 852.5 = 8.52
100

3.2.4 Desviación estándar
La desviación típica estándar es la raíz cuadrada de la varianza, con-siderada
siempre con signo positivo.
S = S2
Para el caso del peso de los 100 estudiantes del colegio la desviación
estándar es:
S = 8.52 = 2.92
La varianza se expresa siempre en unidades diferentes a las originales,
es decir, si la variable se refiere a peso en Kg, al calcular la varianza estará
dado el peso en Kg al cuadrado. Es una de las razones por la cual se utiliza
la desviación estándar, pues se expresa en las mismas unidades de la va-riable.
3.2.5 Coeficiente de variación
Esta medida relaciona la desviación estándar y la media, para expre-sar
la variación de la desviación con respecto a la media aritmética. Se
acostumbra expresarlo en porcentaje.
La fórmula que se utiliza es:
Cv =
S
• 100
X
El coeficiente de variación sirve para determinar el grado de homogenei-dad
de la información. Si el valor del coeficiente de variación es pequeño
indica que la información tiene un alto grado de homogeneidad y si el coefi-ciente
de variación es grande es porque la información es heterogénea.
Ejemplo: al hallar el coeficiente de variación de 6, 3, 4, 7, 8
S = 1.85 Cv =
Lo cual indica que la información es homogénea, pues el coeficiente
de variación es de 33.04%.
1.85
=
0.3304 = 33.04%
5.6
X =
28
=
5.6
5

3.3 Asimetría
Una distribución es simétrica si se tiene que: la media es igual diana e
igual al modo (X = Md = Mo); pero si la distribución se vuelve asimétrica
las tres medidas se separan y entonces el valor promedio ar será mayor
que la mediana, que a su vez será mayor que el modo, deduciéndose que
la distribución es asimétrica positiva. Si la media aritmética es menor que
la mediana y ésta menor que el modo, se dice que la distribución es
asimétrica negativa. En la distribución asimétrica positiva, la curva pre-senta
un alargamiento a la derecha; en la negativa el alargamiento pre-senta
hacia la izquierda. Véase gráficas 4.
Gráfica 4. Asimetría
Las fórmulas para calcular la asimetría y su grado son:
As =
3.4 Kurtosis
Una característica importante de la variación de algunas distribucio-nes
es su grado de agudeza en la cima de la curva que las representa
agudeza que se observa en la región del modo, comparada con las con-diciones
halladas para el mismo sitio en la curva normal, es lo que
Kurtosis.
3(Media aritmética - Mediana)
=
3(X - Md)
Desviación estándar s
As =
Media aritmética - Modo
=
X - Mo
Desviación estándar s

Si la curva es más plana que la normal, la distribución se llama achatada
o platicúrtica; si es más aguda, lleva el nombre de apuntada o leptocúrtica,
y si la curva es normal, se denomina mesocúrtica.
La Kurtosis es una medida de altura de la curva, por lo tanto está re-presentada
por el cuarto momento de la media. En la misma forma que
para la asimetría, su cálculo se efectúa en función de la desviación estándar
y de los momentos unidimensionales de orden cuatro con respecto a la
media aritmética.
Su fórmula es:
a4 =
m4
=
m4
s4 m2
2
Otra formula para medir la Kurtosis es la que se basa en los cuartiles
y percentiles.
K
=
Q
P90 - P10
En donde Q = 1/2 (Q3-Q1). Si el valor encontrado de la Kurtosis es
igual a 0.263 se dice que la curva es mesocúrtica o normal; si es mayor, la
curva es leptocúrtica y si es menor, la curva es platicúrtica.
Por ejemplo, calcular el coeficiente de Kurtosis, si el valor del primer
cuartil es Q1 = 68.25; Q3 = 90.75; P10 D1 =58.12 y P90 = D9 = 101.00
Aplicando la fórmula se tiene:
K
=
Q
P90 - P10 2
Se tiene Q
K
=
=
1
en donde Q =
1
(Q3-Q1) reemplazando
2 2
11.25
(90.75 - 68.25) =
=
11.25
1
= 0.262
101.00 - 58.12 42.88
(22.5) = 11.25
Se puede decir que la curva es normal o mesocúrtica.

3.5 Tablas de contingencia
En muchas ocasiones, la información puede organizarse y presentar-se
de acuerdo con la relación entre dos o más variables.
Es cuando se habla de tablas de doble entrada o múltiples entradas o
comparación de colectivos. Las variables pueden ser categóricas o nu-méricas.
Esta forma de representación presenta grandes ventajas, entre otras
resume información y posibilita el análisis de dependencia, asociación,
correlación y homogeneidad.
Supongamos que a partir de datos disponibles en nuestro estudio se
ha elaborado el siguiente cuadro:
Tabla 9. Distribución de alumnos por jornadas y clase de colegio
CLASIFICACIÓN DE NÚMERO DE ALUMNOS
LA JORNADA COLEGIOS COLEGIOS TOTAL
OFICIALES PRIVADOS
Única 230 840 1070
Mañana 583 614 1197
Tarde 418 234 652
Total 1231 1688 2919
Si comparamos los datos en dirección horizontal constatamos que el
mayor número de estudiantes corresponde a la jornada de la mañana,
mientras que si leemos los datos en dirección vertical el mayor número de
estudiantes corresponde los colegios privados.
En ocasiones el investigador desea especificar y analizar los datos
con más variables. Para el ejemplo anterior podría ser sexo y edad.

Tabla 10. Distribución de alumnos por jornadas,
clase de colegio, sexo y edad
Clasificación COLEGIOS OFICIALES COLEGIOS PRIVADOS
de la jornada Hombres Mujeres Hombres Mujeres
10-15 15-20 10-15 15-20 10-15 15-20 10-15 15-20
Única 52 80 22 76 132 180 423 105
Mañana 121 47 168 247 241 132 86 155
Tarde 123 154 49 92 76 51 47 60
Subtotal 296 281 239 415 449 363 5561 320
TOTAL 1231 1688
En este ejemplo, el 52 corresponde al número de estudiantes hombres
entre los 10 y 15 años, de jornada única pertenecientes a colegios oficiales.
Las tablas de contingencia se pueden realizar con frecuencias relati-vas,
es decir, con porcentajes.
ÍNDICE DE DISPERSIÓN CATEGÓRICO
Para datos ordinales y nominales se utiliza el llamado ÍNDICE DE DIS-PERSIÓN
CATEGÓRICO, cuya fórmula es:
D
=
K(N2 - Sf2)
N2(K - 1)
Donde K es el número de categorías de la variable.
Sf2 es la suma de las frecuencias al cuadrado
N = número de casos (tamaño de la muestra)
Por ejemplo:
Si tenemos la siguiente clasificación de 15 estudiantes por preferen-cias
deportivas:

DEPORTES ALUMNOS f2
FÚTBOL 8 64
VOLEIBOL 2 4
BASKET 5 25
TOTAL 15
El índice de dispersión categórico sería:
Lo cual indica que los datos presentan una dispersión del 88%.
DISTRIBUCIÓN DE DATOS, TÉCNICAS NUMÉRICAS
AUTOEVALUACIÓN N° 2
Lea cuidadosamente cada uno de los siguientes enunciados y seña-le
la respuesta correcta.
1. Para entender la naturaleza de la distribución de frecuencias, las
medidas de tendencia central son mejores que las de dispersión
Sí _______ No _______
2. Las medidas de tendencia central son-.
___________________________________________________
3. ¿Cuál es la mediana de la siguiente distribución?
4, 4, 5, 3, 7, 9, 5, 1, 7, 3, 7, 7, 5
D
=
3(225 - 93)
225(3 - 1)
D
=
396
= 0.88
450

4. Un profesor pidió los pesos en Kg a 30 estudiantes del curso de
álgebra y obtuvo los siguientes resultados:
No. de estudiantes
Edad f
30-34 5
35-39 6
40-44 8
45-49 7
50-54 4
Total 30
a. ¿Cuál es el peso promedio de sus alumnos? _________
b. ¿Cuál es la mediana? _________
c. ¿Cuál es la moda de las edades? _________
5. ¿Cuáles son las modas de las siguientes series de números?
a) 122, 103, 148, 113, 103, 118.
b) 75, 84, 37, 49, 51, 83.
c) 22, 43, 22, 38, 41, 43, 20.
6. ¿Cuál es la medida de dispersión más sencilla?
___________________________________________________
7. El rango tiene la desventaja de ser sensible a los valores
extremos.
Sí _______ No _______

8. La varianza siempre debe ser un valor positivo.
Sí _______ No _______
9. ¿Cómo se define la Desviación Estándar?
___________________________________________________
10. Una de las características de la Kurtosis es el grado de agudeza
de la curva, la cual se puede clasificar en tres tipos:
a. Una más plana que la normal 0: __________________
b. La segunda más aguda 0: __________________
c. Si la curva es normal 0: __________________
RESPUESTA A LA AUTOEVALUACIÓN N° 2
5. a) 103 b) No hay c) 22 y 43
6. El rango
7. Sí
8. Sí
9. La raíz cuadrada de la varianza
10. a. Platicúrtica. b. Leptocúrtica. c. Mesocúrtica
b. Mediana = 42
c. moda= 8
1. No
2. Media, mediana y moda
3. 5
4. a. X = 4.18

Taller de estadística N° 1
Se realizó un experimento para evaluar el efecto de la edad en la fre-cuencia
cardíaca, cuando se somete una persona a un grado específico
de ejercicios. Se seleccionaron al azar hombres de cuatro grupos de eda-des,
10-19, 20-39, 40-59, 60-69. Cada individuo recorrió la banda sin fin a
una velocidad específica durante 12 minutos y se registró el aumento de
la frecuencia cardíaca, la diferencia antes y después del ejercicio, (en la-tidos
por minuto)
¿Qué puede usted concluir, si los siguientes datos son el resultado del
procesamiento de la información apoyada en el computador.
VARIABLE GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4
Talla 15 10 12 12
Promedio 30.1333 27.5 29.5 38.3333
Mediana 30 27.5 29 37.5
Moda 22 24 33 36
Varianza 24.8381 23.8333 19.1818 50.6061
Desviación estándar 4.98378 4.88194 4.37971 7.11379
Mínimo 22 21 22 28
Máximo 39 34 37 54
Rango 17 13 1.5 26
Quartil inferior 26 24 26.5 34.5
Quartil superior 34 32 33 42
Rango interquartil 8 8 6.5 7.5
Skewness -0.0873053 -0.0716212 0.0311649 0.668752
Kurtosis -0.612727 -1.59948 -0.726827 1.02909
Coeficiente de variación 16.5391 17.7525 14.8465 18.5577
Suma 452 275 354 460
Preguntas
1. ¿Qué tipo de muestreo se realizó?
2. ¿Qué grupo fue más homogéneo en los resultados? ¿Por qué?
3. Comparando las medias aritméticas ¿qué grupo obtuvo la menor
media?
4. ¿Qué grupo presenta un mayor rango? ¿Qué significa?
5. Si consideramos el grupo 4
5.1 ¿Cuál es el mínimo valor?
5.2 ¿Cuál fue el mayor aumento de frecuencia cardíaca?
5.3 ¿Qué porcentaje de la información está por debajo de 34.5?

5.4 ¿Qué porcentaje de la información está por encima de 34.5?
5.5 ¿Qué porcentaje de la información está entre 34.5 y 42?
6. Si consideramos el grupo 2
6.1 ¿Qué porcentaje de la información está por encima de 32?
6.2 ¿Qué valor corresponde al dato que más se repite?
6.3 ¿Qué dato está ubicado en el primer cuartil?
6.4 ¿Qué significado tienen las dos respuestas anteriores?
Respuestas
1. Muestreo aleatorio por estratos según edades.
2. El grupo No. 3 porque obtuvo el menor coeficiente de variación.
3. El grupo No. 2 con un valor de 27.5.
4. El grupo No. 4 significa que obtuvo mayor variabilidad entre el dato
mayor y el dato menor.
5. 5.1 28
5.2 54
5.3 El 25%
5.4 El 75%
5.5 El 50%
6. 6.1 El 25%
6.2 24
6.3 24
6.4 Significa que por debajo del dato que más se repite hay un 25%
de la información.

4. INTRODUCCIÓN A LAS PROBABILIDADES
4.1 Probabilidades elementales
Consideramos varios ejemplos: es casi seguro que hoy no llueve, con
ello expresamos algún grado de confianza de que no llueve, a pesar de la
completa seguridad.
¿Qué posibilidad existe de obtener una buena nota en el examen de
economía? ¿En el de estadística?
«En el próximo examen tengo la oportunidad de obtener una nota alta».
Si un aficionado a la hípica es preguntado sobre una fija en una deter-minada
carrera, puede darnos una insinuación de cuál caballo puede ga-nar.
«El caballo X tiene una buena oportunidad».
Nos encontramos con un conjunto cuya técnica se refiere a resultados
que no estamos muy seguros. Asociamos cierto grado de confianza, con
relación a que cada una de estas predicciones se realice. El cierto grado
de confianza reposa en la experiencia (pasada y presente).
Los Bayecianos definen la probabilidad de un acontecimiento, como
una medida del grado de confianza que uno tiene, en que ocurra el acon-tecimiento.
Otros autores consideran que la probabilidad pertenece a aquellas no-ciones
imposibles de ser definidas adecuadamente y se les considera
basadas en la experiencia. Por lo tanto, se puede decir que la probabilidad
es una creencia basada en la experiencia.
Consideramos algunas definiciones, según el método.
a. Método axiomático. El cual concibe la probabilidad de ocurrencia
de un suceso, como un número comprendido entre cero y uno. Este con-cepto
tiene que ver directamente con la noción de frecuencia relativa,
donde: 0 < p < l.
Supongamos que se lanza 100 veces una moneda, anotamos el número
de veces que sale cara y las veces que sale sello; los resultados fueron los
siguientes:
Frecuencias absolutas: cara 56 veces; sello 44 veces
Frecuencias relativas: 56/100; 44/100
Posibilidad: p = 56% (éxito); q = 44% (fracaso)

b. Método empírico o práctico. Considera la probabilidad de un su-ceso,
como aquel número al cual se aproxima cada vez la frecuencia re-lativa
de la ocurrencia de un suceso, cuando las veces que se repite el
experimento que origina ese suceso es bastante grande. Este concepto
tiene algo que ver con el experimento de Quetelet, en donde la probabili-dad
de un suceso tiende a estabilizarse en un punto, cuando el número de
experimentos se va haciendo cada vez más grande.
c. Método clásico. Considera la probabilidad como el cuociente de
dividir los casos favorables, que pueden ocurrir en un suceso, por el total
de casos posibles.
Número de casos favorables
p = __________________________
Número de casos posibles
Ejemplos:
– En el lanzamiento de una moneda hay:
2 posibilidades N° Combinaciones Probabilidades
C (C) 1/2 = 0.5
S (S) 1/2 = 0.5
2 1 = 1.0
– Lanzamiento de dos monedas.
4 Posibilidades N° Combinaciones Probabilidades
2C (C,C) 1 1/4 = 0.25
1 C y 1 S (C, S) (S, C) 2 2/4 = 0.50
2S (S,S) 1 1/4 = 0.25
4 1 = 1.00
– Lanzamiento de tres monedas.
8 posibilidades N° Combinaciones Probabilidades
1C (C, C, C) 1 1/8 = 0.125
2C y 1S (C, C, S) (C, S, C) (S, C, C) 3 3/8 = 0.375
2S y 1C (S,S,C)(S,C,S)(C,S,S) 3 3/8 = 0.375
3S (S, S, S) 1 1/8 = 0.125
8 1 = 1.000

En efecto el número de casos posibles en los ejemplos anteriores se
obtiene:
21 = 1 2n
22 = 4 2 = casos posibles en una moneda
23 = 8 n = número de lanzamientos
En un dado sería: 6n
61 = 6 6 = casos posibles en un dado
62 = 36 36 = casos posibles al lanzar dos dados
4.2 Esperanza
Si p es la posibilidad de éxito en un suceso, en un solo ensayo, el
número de sucesos o esperanzas de ese suceso en n ensayos, estará
dado por el producto de n y la probabilidad de éxito p.
E = n p
Ejemplo:
En el lanzamiento 900 veces de dos dados, ¿cuál es la esperanza de
que la suma de sus caras sea un valor menor a 6?
Primero obtenemos la probabilidad de éxito del suceso en un solo
ensayo.
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10
Como se lanzan 900 veces, en dos dados, se tiene:
E = np = 900
10
=
900
=
250
36 36
La esperanza es que en 250 de los 900 lanzamientos, la suma de sus
caras sea menor de 6.
4.3 Leyes de las probabilidades
Para facilitar el cálculo de las probabilidades se emplean estas leyes.
1. Si dos o más sucesos son tales que solamente uno de ellos puede ocu-rrir
en un solo ensayo, se dice que son mutuamente excluyentes. Se

denomina probabilidad aditiva y será igual a la suma de las probabilidades
de cada suceso.
P = P1 + P2 + P3........... + Pn
Ejemplo:
La probabilidad de obtener un as o un rey, sacando una sola carta en
una baraja española de 40 cartas. Si uno de los casos aparece, queda
excluido el otro.
P1 =
4
=
1
(As)
40 10
P2 =
4
=
1
(Rey)
40 10
P = P1+P2 =
1
+
1
=
2
=
1
10 10 10 5
2. Se dice que dos o más sucesos son independientes, si la probabilidad
de presentación de alguno de ellos queda influenciada por la presenta-ción
del otro. En caso contrario, se dice que son dependientes.
En otras palabras, si el resultado de un suceso no afecta al otro, se
dice que son independientes, por lo tanto se efectuará la multiplicación
de las probabilidades para cada suceso.
P = P1 x P2 x P3..... x Pn
Ejemplo:
¿Qué probabilidad tendremos de obtener dos reyes, sacando una car-ta
de una baraja y la otra de una segunda baraja?
P =
4
x
4
=
16
=
1
40 40 1600 100
Se dice que los sucesos son dependientes, o eventos compuestos, si la
ocurrencia o no ocurrencia de un evento en cualquier prueba afecta la
probabilidad de otros eventos en otras pruebas, es decir que la probabi-lidad
del segundo suceso depende del primer suceso, el del tercero, de
lo que haya sucedido en el primero y segundo y así sucesivamente.

Ejemplo:
La probabilidad de obtener tres ases, sacando sucesivamente tres
cartas de una baraja española, sin volverlas a incluir (sin reposición)
en el montón.
P1 =
4
40
P2 =
3
39
P =
P =
4
40 39 38 59280
1
2470
•
3
•
2
4.4 Análisis combinatorio
P3 =
2
38
=
24
El análisis combinatorio es un sistema que permite agrupar y ordenar,
en diversas formas, los elementos de un conjunto.
Los tres principales tipos de análisis combinatorio son:
4.4.1 Permutaciones
Se denominan permutaciones de h elementos, los diferentes grupos
que se pueden hacer, tomándolos todos cada vez.
Las permutaciones implican orden.
Cada conjunto ordenado de h elementos se denominará una permuta-ción
de los n elementos diferentes.
La formula es Pn = n!, donde Pn corresponde al número de permuta-ciones
posibles.
Por ejemplo:
Determine el número de permutaciones posibles de las letras A, B, C, D.
P4 = 4! = 4 x 3 x 2 x 1 = 24
Representémoslas:

ABCD BACD CABD DABC
ABDC BADC CADB DACB
ACBD BCDA CBAD DBAC
ADBC BDAC CDAB DCBA
ADCB BDCA CDBA DCAB
ACDB BCAD CBDA DBCA
Otro ejemplo:
¿Cuántos números diferentes de 9 cifras se pueden formar con los dígitos
del cero al 9, usándolos una sola vez?
P10,= 10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 3.628.800
Permutaciones con repetición
Las permutaciones con repetición r, son un caso particular de las variacio-nes
y no existe una ley sencilla para su formación. Dado lo complicado del
sistema, sólo, se presenta la fórmula que logra el número de esta clase de
permutaciones.
Sean los elementos aa - bbb - cc - d, para permutar con repetición, ten-dremos
8 elementos repartidos así: dos del primero, tres del segundo, dos
del tercero y uno del cuarto, entonces las permutaciones se presentarán
así:
P8(r: 2,3,2,1) y la fórmula respectiva será:
P8(r:2,3,2,1) =
P8(r:2,3,2,1)=1680
La formula será
Ejemplo:
¿De cuántas maneras distribuiríamos 3 monedas de $100 y 4 monedas
de $500 en una misma línea?
P7(r: 3,4) = 35
8!
=
8 x 7 x 6 x 5 x 4 x 3 x 2 x 1
2!3!2! 2 x 1 x 3 x 2 x 1 x 2 x 1
Pn(r: r1, r2) =
n!
r1!r2!
P7(r: 3,4) =
7!
=
7 x 6 x 5 x 4 x 3 x 2 x 1
3!4! 3 x 2 x 1 x 4 x 3 x 2 x 1

Otro ejemplo:
Cuántos grupos de 2 letras se pueden formar con las letras de la palabra
amigas.
P6(r: 2) =
6!
= 360
2!
4.4.2 Variaciones
Las variaciones corresponden a aquellas permutaciones donde los ele-mentos
no se toman en su totalidad.
Dado un conjunto de n elementos diferentes, se denominará permutación
parcial o variaciones, de subconjunto de r elementos (r<n) pertenecientes al
conjunto dado.
n!
(n - r)! r
La fórmula es: Vn =
En el ejemplo de las cuatro letras o elementos (n) vamos a permutar de a 2 (r)
4! = 4 x 3 x 2 x 1
= 12
(4 - 2)! 2 x 1 2
AB BA CA DA
AC BC CB DB
AD BD CD DC
Ejemplo:
¿Cuántas cifras diferentes de 4 dígitos se pueden formar con los dígitos
del 0 al 9, usándolos una vez?
10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1
= 5.040
(10 - 4)! 6 x 5 x 4 x 3 x 2 x 1 4
4.4.3 Combinaciones
Son aquellas en las que no interesa el orden de la aparición de ele-mentos
del conjunto. Será lo mismo AB que BA.
V4 =
V10 =

Cuando se toma la totalidad de elementos, solamente se puede hacer una
combinación. Si se tiene las letras A, B, C, D y se combinan de dos en dos, se
obtienen 6 casos:
AB BC CD
AC BD
AD
La fórmula será:
n!
r!(n - r)! r r
(n) = Cn =
Y se lee combinación de n elementos tomados de r en r.
Ejemplo:
Cuál es la combinación de las 4 letras A, B, C, D, tomadas de 4 en 4.
(4) = C4 =
El factorial de cero es uno (0! = l).
En la combinación de estas 4 letras tomadas de 2 en 2 será,
4.5 Probabilidad condicional
En algunos eventos probabilísticos se tiene alguna información, que
reduce el espacio muestral original a uno de sus subconjuntos; las probabi-lidades
asociadas a esos subconjuntos determinan la probabilidad condi-cional.
Su fórmula está dada así:
Ejemplo:
4! = 4 x 3 x 2 x 1 = 1
4!(4 - 4)! 4 x 3 x 2 x 1 x 1 4 4
(4) = C4 =
4! = 4 x 3 x 2 x 1 = 6
2!(4 - 2)! 2 x 1 x 2 x 1 2 2
P(B/A) =
P(BÇA)
P(A)

El 18 % de las familias de un barrio tienen vehículo propio, el 20% tiene
vivienda de su propiedad y el 12% tiene vivienda y vehículo. ¿Cuál es la posi-bilidad
de tener vivienda si se tiene vehículo?
A = Propietario de vehículo
A’ = No propietario de vehículo
B Propietario de vivienda
B’ No propietario de vivienda
B B’ Total
A 0.12 0.06 0.18
A’ 0.08 0.74 0.82
Total 0.20 0.80 1.00
0.12
= 0.66
0.18
INTRODUCCIÓN A LAS PROBABILIDADES
P(B/A) =
1. La definición clásica de probabilidades es el cociente de dividir el
número de casos favorables que pueden ocurrir en un suceso, por
el número de casos posibles: Sí ______ No ______
2. ¿Cuál es la probabilidad de que una bola, extraída al azar de una
urna que contiene 3 bolas rojas, 4 blancas y 5 azules, sea blanca?
a. 3/12
b. 1/3
c. 5/16
d. Ninguna

3. Una señora invita a cenar a 8 personas; después de sentarse ella,
¿de cuántas maneras se pueden sentar sus invitados?
4. En un juego de moneda, entre dos personas, con un premio de
$1.000 por aparición de cara, ¿cuál es la esperanza de ganar con el
resultado de cara?
5. ¿De cuántas maneras se pueden sacar dos manzanas de una caja
que contiene 8 manzanas?
2 = 28
1. Sí.
2 . 1/3
3 . 40.320
4 . $500
5 . C8

4.6 Distribución binomial
En repetidos ensayos, siendo p la probabilidad de éxito en un solo ensayo
la cual debe permanecer fija y q la probabilidad de fracaso, entonces la proba-bilidad
P de que se obtengan r éxitos en n ensayos, es el termino del desarro-llo
binomial (q+p)n.
La fórmula general será:
p = Cn
r pr qn-r
Los criterios que deben satisfacer una experiencia binomial son:
a) Existir un número fijo de pruebas repetidas (n).
b) Cada una de las n pruebas debe tener dos resultados: favorable o desfa-vorable;
en el caso de una moneda será: cara o sello.
c) La probabilidad de éxito de un acontecimiento es fija.
d) Las pruebas son independientes.
e) Nos interesa el número de éxitos en n pruebas.
En caso de lanzar 4 monedas y se quiera determinar la probabilidad de
obtener exactamente dos caras, será:
P = C4
2 4-2 2 2
1
1
=
2 2 2!2! 2 2 2.1.2.1 4 4 2
P = 6
1
=
6
=
16 16
4.7 Distribución normal
4! 1
1
=
4.3.2.1
1 1
0.375 = 37.5%
Muchas distribuciones de mediciones, que se hacen tanto en las cien-cias
sociales como en las ciencias naturales, tienden a tener un polígono
de frecuencias con una forma que se asemeja al corte transversal de una
campana.
Esta distribución se observa más cuando el número de observaciones
es grande y cuando en muchos casos las investigaciones se realizan con
muestras de poblaciones grandes; en la mayoría de los casos las distri-

buciones tienden a aproximarse a la curva en forma de campana ya men-cionada.
Una distribución de frecuencias que se asemeja a una campana se reco-noce
como una Distribución Normal, que por tener características especia-les,
se convierte en un requisito fundamental para entender el proceso rela-cionado
con la inferencia estadística y la prueba de hipótesis.
Cuando el número n de experimentos es grande, se hace difícil el cálculo
de las probabilidades mediante el teorema del Binomio; para facilitar el cálculo
y agilizar las operaciones, utilizaremos la distribución normal.
Entre las propiedades de la distribución normal están,
a. El área total debajo de la curva, puede representar el número total de ele-mentos
en una población y se puede considerar que el área es igual a la
unidad.
Esta propiedad permite determinar la proporción de la frecuencia conteni-da
entre dos puntajes a lo largo del eje horizontal, ya que se puede calcular
la proporción del área debajo de la curva y contenida entre los dos puntos.
b. La media aritmética, la mediana, y la moda de una distribución normal son
iguales a cero.
c. La desviación estándar es igual a 1
d. Como veíamos, tiene una distribución simétrica.
e. Es una distribución asintótica, es decir, como no toca el eje de las X, se
extiende infinitamente.
f. En una distribución normal el 68.26% de los valores bajo la curva, se en-cuentra
dentro de más o menos una desviación estándar de la media arit-mética;
el 95.46% de los valores debajo de la curva se encuentra dentro
de más o menos dos desviaciones estándar de la media y el 99.9% se
encuentra dentro de más o menos tres desviaciones estándar, tal como
se ve en la gráfica 5.
La curva está dada por la función:

donde: n número de datos
G desviación estándar de la distribución binomial = npq
e base de los logaritmos naturales = 2.71828
p 3.1416
m media de la distribución nominal = np
Gráfica 5. Características de una distribución normal.
Probabilidad mediante una aproximación a la curva normal
X y Y son cantidades concretas de la misma especie. La variante esta-dística
z =
c - m , representa una medida de las desviaciones estándar o
G
de las G llamadas unidades estandarizadas. La expresión anterior también
es conocida como desviación normal. Aplicando la fórmula podemos cal-cular
la probabilidad, por ejemplo de obtener 4, 5 y 6 caras, en 9 lanza-mientos
de una moneda, mediante una aproximación a la binomial.
Y =
n e
G 2p
z2
2G2
Ö
Ö

n = 9 p = ½ q = ½
m = np = 9 (½) = 4.5
G = Ö npq = Ö 9 (½) (½) = 1.5
p = (3.5 < x <6.5)
x = 4,5 y 6 caras
Gráfica 6.
Se tiene que x 3.5 corresponde al límite inferior de 4, y x 6.5 es el límite
superior de 6. Se va a buscar el valor del área comprendido entre 3.5 y 6.5,
o sea, P (3.5<x<6.5). Primero localizamos el área a partir de la media
hasta el límite inferior, dado que cada lado vale el 50%, la suma total será
igual a uno.
De donde z =
x – m
entonces z =
3.5 - 4.5
= –0.67
G 1.5
z = (-0.67) = 0.2486, tomado de la tabla, área bajo la curva normal.

Z = 1.33 = 0.4082, tomado de la tabla, área bajo la curva normal.
Se desea el área comprendida entre z = -0.67 y z = 1.33
Para ello sumamos: 0.2486 + 0.4082 = 0.6568
La probabilidad de que aparezca 4, 5 y 6 caras es del 65.68%. Véase
gráfica 6.
Ejemplos:
Usando la tabla del área bajo la curva normal, plantearemos algunos
problemas que servirán de modelo. Ver gráficas: 7 - 8 - 9 y 1 0.
a) Para z = 1.5 y z = -1.4
z = 1.5 la tabla da 0.4332 z =1.4 la tabla de 0.4192
p (-14<z<1.5) = 0.4332+0.4192
p 0.8524 = 85.24%
Gráfica 7.
Z =
6.5 - 4.5
= 1.33
1.5

b) Si se plantea p (z<1.5), corresponde al siguiente gráfico.
0.5000 + 0.4332 = 0.9332 = 93.32%
Gráfica 8.
c) P (z>1.5)
0.5000 - 0.4332 = 0.0668 =6.68%
Gráfica 9.

d) Si queremos conocer el porcentaje de frecuencia comprendida entre
z = -3 y z = -2, será necesario proceder por diferencia.
z = -3 = 0.4987
z = -2 = 0.4772
0.0215
La diferencia es 0.0215 = 2.15%
P (-3 < z < -2)= 2.15%
Gráfica 10.
4.8 Distribución de Poisson
Se tiene ahora una distribución binomial, cuando n es grande, por lo gene-ral
mayor de 50, a la vez que p, la probabilidad de éxito de un suceso se
acerque a cero, mientras que q, la probabilidad de fracaso, se aproxime a
uno, de tal manera que el producto np, llamado lamda l es menor o igual a 5,
debe utilizarse la distribución de Poisson.
Su fórmula es:
P =
lxe-l
X!
donde e = 2.71828

l = np
x = número de casos favorables
Ejemplo:
a) Si el 1 % de las bombillas fabricadas por una compañía son defectuosas,
hallar la probabilidad de que en una muestra de 100 bombillas 3 sean
defectuosas.
l = 100 x 0.01 = 1
X = 3
P =
13 - e-1 = 1 (0.36788)
= 0.06131
3! 3.2.1
e-1 (utilizamos la tabla para valores de e-l)
e-1 = 0.36788
b) Si, la probabilidad de que una persona adquiera la enfermedad como
consecuencia de una vacuna contra la misma, es 0.0002, ¿cuál es la
probabilidad de que la adquieran exactamente 5 personas en una po-blación
de 10.000 vacunados?
p =
lx . e-l
X!
l = np = 10.000 x 0.0002 = 2
x = 5
entonces P =
25 (0.13534)
=
32(0.13534)
=
4.33088
5.4.3.2.1 120 120
P = 0.03609 = 3.61 %
P (x = 5) = 3.61 %

LA CURVA NORMAL Y SUS APLICACIONES
1. La curva normal se caracteriza por que es asimptótica. Esto quiere
decir que:
a. La media es igual a la moda _________________
b. Tiene forma de campana _________________
c. Es simétrica _________________
d. Nunca toca el eje _________________
e. Ninguna de las anteriores _________________
2. La tabla bajo la curva normal sirve para indicar cuál es:
a. La proporción de los casos que se encuentran entre la media y
un valor llamado puntaje _____________
b. El valor de la desviación estándar en relación con el valor de la
media _____________
3. En una distribución normal, la media, la mediana y la moda son
iguales:
Sí _____ No _____
4. ¿Cuál es el área bajo la curva normal que corresponde a un z =
2.5?
_____________________________________________________
5. El promedio de las notas de un curso está en 1.350 puntos y tiene
una distribución normal con una desviación estándar de 18 puntos.
a. ¿Qué porcentaje de alumnos tiene notas entre 1.350 y 1.377
puntos? _________________
b. Entre 1.365 y 1.377 _________________
c. Entre 1.31 y 1.351. _________________

6. Con una distribución de 20 elementos se obtiene una media de 20.3
y una desviación estándar de 2.81. Si uno de los elementos tiene un
valor de 28, ¿cuál es el valor de z?
a. 17.18 _____________
b. 7.70 _____________
c. 2.74 _____________
d. 5.48 _____________
e. Ninguno de los anteriores _____________
7. En una distribución normal, el 68.26% de los valores bajo la curva
se encuentra dentro de más o menos una desviación estándar de la
media aritmética.
Sí _____ No _____
8. En una distribución binomial, cuando n es pequeña, se utiliza la dis-tribución
de Poisson.
Sí _____ No _____
1 =d; 2=a-, 3=Sí; 4=49.38%; 5=a)43.32%;
b)13.65; c)21.14%; 6=c)2.74; 7=Sí; 8=No

5. ESTADÍSTICA INFERENCIAL
Ayuda a determinar la confiabilidad de la inferencia de que los fenóme-nos
observados en la muestra ocurrirán también en la población de donde
se seleccionó la muestra. Es decir, sirve para estimar la eficacia del razo-namiento
inductivo con el cual se infiere que lo que se observa en una
parte se observará en el grupo entero.
El objeto de la estadística es el de hacer inferencias (predecir, decidir)
sobre algunas características de la población con base en la información
contenida en una muestra.
Por lo tanto, se puede afirmar que el empleo de la estadística inferencial
presume el dominio de la estadística descriptiva. Sin embargo se debe
tener presente que al predecir un resultado o tomar una decisión se está
sujeto a una incertidumbre o margen de error, bien sea por la técnica de
muestreo o por la selección del estadístico de prueba.
Es importante resaltar que se debe diferenciar entre las técnicas que
son válidas para el análisis de los datos cualitativos y de los datos cuanti-tativos.
En el caso de la estadística inferencial el investigador se encuentra
con dos tipos de técnicas. Por un lado las técnicas paramétricas que
suponen una serie de supuestos acerca de la naturaleza de la población
de la que se extrajo la muestra de estudio. Por otro lado, las técnicas no
paramétricas, que no requieren supuestos sobre las características de la
población y que se facilitan más para el análisis de datos nominales y
ordinales.
Las ventajas de las técnicas paramétricas es que son más potentes
que las no paramétricas y por consiguiente las inferencias que se realizan
son más fiables. El inconveniente es que el investigador no siempre pue-de
cumplir con los requisitos y supuestos que exige el enfoque paramétrico,
sobre todo en investigaciones educativas y sociales.
La ventaja de las técnicas no paramétricas es que son fáciles de utili-zar
y algunas son tan potentes como las paramétricas.
El análisis de datos cualitativos ha generado técnicas propias, que ac-tualmente
constituyen toda una metodología específica que viene marcada
por la propia idiosincrasia cualitativa y que toma determinadas opciones en
relación a las unidades de registro de los datos y la forma de tratarlos.

Actualmente existe interés por sistematizar estos procedimientos, sin
embargo esta tarea es difícil debido al carácter abierto y flexible de la me-todología,
los diversos enfoques, y la variedad de objetivos científicos que
puede cubrir.
Una de las maneras de realizar estimaciones es con las pruebas de
hipótesis referentes a sus valores.
En muchos aspectos el procedimiento formal para la prueba de hipó-tesis
es similar al método científico.
5.1 La prueba de hipótesis
Ya el investigador, desde el momento en que identifica y delimita el pro-blema
que va a investigar, ha aclarado los elementos conceptuales y las
hipótesis o modelos que tiene que probar. En las etapas complicadas con
la generación de los instrumentos, con la recolección de la información y
con la codificación de la misma, estas hipótesis se aclaran mucho más y
en algunos casos, toman características cuantitativas, permitiendo la apli-cación
de técnicas estadísticas, para probar su relevancia en cuanto a su
capacidad para generalizar el fenómeno, o la relación entre fenómenos, a
poblaciones mayores, o para tomar decisiones en relación con tales fenó-menos.
En esta parte distinguiremos la lógica del proceso para probar una hi-pótesis
y aplicaremos en casos determinados la prueba Z, la prueba T y la
prueba de significación entre muestras, para ilustrar el proceso de prueba
de hipótesis.
La lógica de la prueba de hipótesis
En el proceso de la estadística inferencial, hay dos tipos de hipótesis
claves: una es la hipótesis de investigación (H1), que simplemente señala
la existencia de un hecho o de un evento, o la relación entre dos o más
fenómenos.
La otra es la hipótesis nula (H0) que se construye artificialmente para
que el investigador evalúe su hipótesis de investigación.
Si la hipótesis de investigación afirma que existe una relación entre dos
o más fenómenos, la hipótesis nula (H0) plantea que no existe relación
entre los dos fenómenos.

Es decir, se utiliza esta última como un modelo para probar la hipótesis de
investigación, o sea, probar su veracidad o su falsedad.
Para probar una hipótesis, se necesita:
1° La existencia o planteamiento de la misma.
2° Que se anticipen los eventos que pueden resultar a partir de la observa-ción
o experimentación.
3° Que se especifiquen las condiciones bajo las cuales la hipótesis se puede
rechazar o aceptar.
4° Que se haga el experimento y la observación y que se analice el evento o
resultado.
5° Que se tome la decisión de rechazar o aceptar la hipótesis.
Esto implica que, aunque se tiene que observar o experimentar, todas las
suposiciones se hacen antes de las mismas observaciones o experimentos.
Es decir, el investigador predice y luego bajo las reglas del juego de su predic-ción
evalúa en relación con los resultados. Si éstos no son consistentes con
lo que se predijo, se rechaza la hipótesis.
Con un ejemplo podemos ilustrar la naturaleza de la prueba de hipótesis.
Supongamos que se está probando una nueva semilla para resolver proble-mas
de productividad en una región determinada. La hipótesis de la investiga-ción
sería que la media aritmética por fanegada es mayor de 519 arrobas, que
es el tradicionalmente observado en esa región.
Para verificar la hipótesis tenemos que completar los cinco pasos siguientes:
1° Aclarar la hipótesis de investigación H1 y crear la hipótesis nula H0.
2° Obtener la distribución del muestreo.
3° Seleccionar un nivel de significancia y una región de rechazo.
4° Hacer la prueba estadística.
5° Comparar y concluir.

Punto 1
El paso uno se define en el enunciado del problema. Para que sea verifica-da
HI, el proceso a seguir es contradecir a H0, es decir, hay que contradecir
que la media aritmética es igual o menor a 519.
Entonces las dos hipótesis se representan así:
H1: X > 519
H0: X < 519
Con lo anterior, lo que se está diciendo es que, si encontramos que el
promedio de producción por fanegada es de 519 arrobas o menos, tendre-mos
que concluir que nuestra hipótesis inicial H1, tendrá que ser modificada y
por lo tanto, la nueva semilla, por lo menos en cuanto a su productividad, no
es competitiva con las tradicionalmente utilizadas.
Punto 2
Una vez aclaradas las suposiciones del punto 1, acerca de H1 y H0, por
medio de un razonamiento matemático podemos obtener la distribución de
muestreo, o sea, la distribución de todos los posibles valores que una estadís-tica
puede tener, con base en un muestreo probabilístico de un universo.
Esta distribución nos dice, entonces, qué probabilidad hay de obtener cada
uno de los resultados.
Dependiendo del tamaño de las muestras, las distribuciones de muestreo
tienden a tomar una distribución normal y por ello no es necesario calcularlas.
Un teorema importante, que es una aplicación de la distribución normal,
conocido como el teorema del Límite Central, dice que si en una población
de tamaño N, con una media de m y una varianza de S2 se obtienen mues-tras
al azar, la distribución de las medias de las muestras seleccionadas
será normal -y más lo será en la medida en que se incremento el número de
muestras seleccionadas- y tendrá una media de Y y varianza S2/N.
El teorema garantiza que la media de una muestra puede estar muy cer-cana
al de la población, en la medida en que tenga un tamaño n grande, ya
que la varianza de la distribución de las medias muestrales S2/N, se hace
más pequeña en la medida en que aumenta el tamaño n.
La desviación estándar de la distribución de las medias de la muestra se
denomina como el error estándar: S/ /N

Punto 3
A partir de la información obtenida, el investigador puede escoger resulta-dos
que permitan aceptar o rechazar sus supuestos. Posteriormente, los re-sultados
identificados para rechazar la suposición se llaman de región crítica,
dividiendo así los resultados en los que sirven para rechazar y los que sirven
para aceptar la hipótesis nula, sabiendo que estos sectores están relaciona-dos
con errores de tipo a y b.
Una vez aclaradas la H1 y H0, obtenemos aleatoriamente una muestra de
la producción por fanegada de la semilla probada en la región.
Calculamos la media aritmética y la desviación estándar de los datos de la
muestra, información ésta que nos permite hacer la prueba estadística.
Si calculamos x, sabemos que la distribución de muestreo de x, supo-niendo
que H0 es cierto, es bastante aproximada a una distribución normal
con un m = 519.
Valores de x, que contradicen H0 y por lo tanto validan a H1, serán aque-llos
que se encuentran en la región de la cola derecha de la distribución,
como lo señala la figura 11. Estos valores contradictorios generan la re-gión
de rechazo, es decir, si el valor observado de x cae en la región de
rechazo, descartamos H0 y aprobamos H1. Observemos que se verifica H1
contradiciendo H0. Por lo tanto si x cae en la región de aceptación de la
figura 11, aceptamos H0 y no podemos verificar H1. Esta es la etapa de
comparación con la región de rechazo.
Gráfica 11. Suponiendo que H0 es verdadera, los valores
contradictorios de X están en la cola superior.

Hay posibilidad de cometer dos tipos de errores al probar la hipótesis.
Podemos, como en cualquier proceso de decisión entre dos escogencias,
cometer el error de rechazar a H0 cuando en realidad es verdadera; error
tipo l ó a; o podemos aceptar H0 cuando en realidad es falsa; error tipo ll ó b.
Y aunque es conveniente determinar la región de aceptación y de rechazo,
minimizando tanto el error tipo a como el error tipo b, esto no es imposible
porque están inversamente relacionadas, es decir, para una muestra de
tamaño h, cuando se cambia la región de rechazo para incrementar el error
a, el error b disminuye y viceversa.
Para resolver este problema, la comunidad de científicos ha decidido
que se debe trabajar con la probabilidad de cometer error tipo l ó a y la espe-cificación
del valor para el error tipo a determina la región de rechazo.
¿Cómo se hace? Volviendo a nuestro ejemplo, sabemos que rechazamos
H0 si obtenemos grandes valores de x.
Si tenemos una muestra de 36 terrenos de una fanegada, como mues-tra
del estudio y si la media aritmética es x = 573 y la desviación estándar
es S = 124 la pregunta clave sobre la cual tenemos que tomar una deci-sión
es si el x para toda la región es mayor que 519.
Para concluir, decidimos el valor del error acon el cual queremos traba-jar;
siempre sabemos que hay la posibilidad de cometer un error. Si en este
caso queremos correr el riesgo de equivocarnos 1 de cada 40 decisiones,
es decir de rechazar incorrectamente H0 entonces a = 1/40 = 0.025
Como suponemos que H0 es verdadera, x está distribuida normalmen-te
y tiene m = 51 9 y una desviación estándar de:
S = 124 = 20.67
Ö N Ö 36
Punto 4
Supongamos que en la figura 11 la región rayada sea la equivalente a la
de un a = 0,025. Para calcular el punto de rechazo, se tiene que calcular el
valor de Z, que tiene un área de 0.025 a su derecha. En la tabla de áreas
bajo la curva normal vemos que el valor correspondiente es de 1.96, por lo
que lo designaremos como el límite para la región de rechazo y si el valor
observado de x es mayor que 1.96, desviaciones estándar arriba de m= 159,
se rechaza la hipótesis nula.

Cuando el valor de x es igual a 573 y el de S es igual a 124, el valor de
Z normalizado es:
Z =
Punto 5
x - m = 573 - 519
= 54 = 2.61
S 124 20.67
Ö N Ö 36
El último paso es comparar el valor obtenido con el dispuesto como
rechazo, ya que x encontrado está a más de 1.96 unidades de desviación
estándar arriba del m = 519, rechazamos H0 en favor de H1 y concluimos
que la productividad de la nueva variedad de semilla es significativamente
mayor que 519.
5.2 Pruebas de significancia de muestras únicas o simples
Cuando se quiere probar hipótesis a partir de una muestra única, se
pueden utilizar varias pruebas de significancia de hipótesis. En estudios
en ciencias naturales y ciencias sociales es muy frecuente este tipo de
situaciones y las técnicas utilizadas más frecuentemente son la prueba Z,
y la prueba t frecuentemente llamada t de Student.
5.2.1 Prueba Z
Normalmente se utiliza cuando se conoce el parámetro de la pobla-ción.
Ilustremos su uso con el siguiente ejemplo hipotético:
En una institución de enseñanza media se presenta una deserción que
los directores consideran muy alta y pensaron que con un programa de
consejería, podrían controlarla, con la hipótesis de que cuanta más guía
personal, mayor sería la probabilidad de continuar exitosamente en la
institución. Se generó una consejería y al cabo de un año se recopiló infor-mación
sobre el número de veces que cada estudiante tuvo contacto for-mal
con un consejero.
La media aritmética para el total de estudiantes fue de 12.1 visitas al
año, con una desviación estándar de 3.21.
Meses después se hizo una muestra aleatoria simple de 40 estudian-tes
desertores y a partir de los datos obtenidos con la recopilación de in-formación,
se les calculó una media aritmética de 9.11. Al ver que era más
baja que el resto de la población, los directores se hicieron la siguiente pre-

gunta. ¿Es el número de visitas de los desertores significativamente más
bajo que el de la población estudiantil?
Supongamos la hipótesis de la investigación H1: x < m y la hipótesis
nula H0: x > m, decidimos utilizar un nivel del 0.01 de significancia, la muestra,
como vimos, es probabilística.
Para probar la hipótesis calculamos el puntaje Z, normalizado como
habíamos visto así:
Z =
x - m = 9.11 - 12.1
= -2.99
= -5.86
S 3.21 3.21
Ö N Ö 40 6.32
El signo es indiferente al resultado, porque estamos trabajando con
áreas, por lo tanto Z = 5.86.
En la tabla de áreas bajo la curva normal, vemos que para que el x sea
significativamente distinto de m = 12.1, se necesita una Z = 2.33 o mayor;
como el Z obtenido es mayor, se rechaza H0 y se acepta H1, ya que:
0.5000 - 0.0100 = 0.4900
Entonces Z = 2.33
Concluimos que los estudiantes desertores tienen un número de con-tactos
significativamente inferior al resto de la población estudiantil.
5.2.2 Distribución t de Student
En los casos en que no se conoce el parámetro poblacional, depen-demos
únicamente de las estadísticas de las muestras y utilizamos la
Prueba t.
Cuando n > 30 (muestra grande) la desviación estándar simbolizada por
s, se le considera como un buen estimador de la desviación estándar
poblacional, debido a que existe una mayor probabilidad de que los valores
extremos que toma la variable, queden incluidos en el cálculo de la va-rianza
para la muestra, tal como ocurre en el cálculo de la varianza pobla-cional.
Siendo, s = S, la fórmula para obtener s será:

s= S(x - x)2
n
^
Para n < 30 (muestra pequeña) la desviación estándar se simboliza
por s, cuando no se ha efectuado ninguna corrección. Se considera que,
s, por lo general, es mejor que S, debido a la menor probabilidad de que
se incluyan los valores extremos de la variable. Por tanto, se hace nece-sario
efectuar algunas correcciones en el cálculo:
a. Cuando se da la desviación estándar sin corregir:
s= S(x - x)2 n
n n - 1
^
b. Cuando se desea corregirla directamente
s= S(x - x)2
n - 1
^
En la distribución de t Student, se considera que las curvas son simé-tricas,
pero algo más achatadas y más abiertas en los extremos, los cua-les
corresponden a regiones críticas. A medida en que el tamaño de la
muestra se hace más grande, más se acerca a la normal.
La función dada para este tipo de distribución es:
Y = C 1+
t2
v
– v+1
2
donde v corresponde a los grados de libertad, número que depende de
n; C es una constante que depende de v y es calculada en tal forma que el
área bajo la curva sea igual a 1.
Grados de libertad
Corresponden al número máximo de variables que puedan asignarse
libremente, antes de que el resto de las variables queden completamente
determinadas.

Las variantes estadísticas para el cálculo de t son:
a) En las distribuciones muestrales donde n < 30, la fórmula es:
t =
x - m
s
^
n-1
también puede escribirse en la siguiente forma
t =
x - m
s
n
donde s se obtiene corrigiéndola así:
s= s n
ó s=
S(x - x)2
n - 1 n - 1
^
b) En las distribuciones de medias muestrales se tiene:
t =
(X - Y)2 – (mx - my)
siendo
sx-y
s2= S(X - X)2 + S(Y - Y)2
n1+n2-2
sx-y = s2
+
s2
n1 n2
En la determinación de los puntos críticos, ti (inferior) y ts (superior), se
utiliza la tabla t de Student. En primer lugar se fija el nivel de significación,
por ejemplo, a = 0.05, luego se calculan los grados de libertad, siendo en
distribuciones muestrales v = n - 1, en diferencias de medidas muestrales:
v= ni + n2 - 2. Si la prueba es bilateral, se tomará el 5% para cada una de

las regiones críticas y si es unilateral se tomará el doble del nivel de
significancia asignado; en este caso, será 0. 1 0.
Ejemplos:
1. Una muestra de 25 observaciones tiene una media de 42.0 y una des-viación
estándar de 8. Trabajando con un nivel de significancia del 1%.
Existe razón para rechazar la hipótesis de que la media de la pobla-ción
es de 46.0.
a. H: mx K
46
1H0: m = 46
b. a = 0.01
Gráfica 12.
c. s^ = 8
s= 8
25
= 8(1.021) = 8.17
25 - 1
t =
42 - 46 t =
-4
= -2.45
8.17 1.63
Ö 25
V = 25-1; a = 0.01; corresponde a una t = 2.7969

Como el valor de t = -2.45 queda en la región de aceptación, se acepta
la hipótesis de que m = 46, es decir no existe razón para rechazar que la
media de la población es 46.
2. Un fabricante de cigarrillos analiza el tabaco de dos marcas diferen-tes,
para determinar el contenido de nicotina y obtiene los siguientes
resultados, en miligramos.
Marca A: 24 26 25 22 23
Marca B: 27 28 25 29 26
¿Los resultados anteriores, señalan que existe una diferencia en el
contenido medio de nicotina en ambas marcas?
Solución:
a) HI: mx my
K
HO: mx = my
b) = 0.05
c) sx-y = 1
Siendo:
s = S(X - X)2 + S(Y - Y)2
n1+n2-2
sx-y = s2
+
s2
n1 n2
Tabla 11. Resultado de las dos marcas de cigarrillos
para determinar el contenido de nicotina
X y x-x (x - x)2 y-y (y - y)2
24 27 0 0 0 0
26 28 2 4 1 1
25 25 1 1 -2 4
22 29 -2 4 2 4
23 26 -1 1 -1 1
120 135 0 10 0 10

d)
X =
s=
s = 1.6 s2 = 2.5
sx-y =
t =
120
= 24
5
10 + 10
=
5 + 5 - 2 8
2.5
+
2.5
5 5
(24 - 27) - 0
Y =
20
=
1 1
e) v = n1 + n2-2
v = 5 + 5 - 2
v = 8
135
5
= 2.5
1 = 1
–3
= 27
Gráfica 13.
=
–3
=
f) Los resultados anteriores señalan que existe una diferencia significati-va
en el contenido medio de nicotina en ambas marcas. Véase gráfica
13.
5.2.3 Distribución Chi Cuadrado: c2
La distribución normal se utiliza en todos aquellos casos que ofrecen
dos resultados posibles; cuando se presentan más de dos resultados posi-bles,
debe aplicarse la prueba chi cuadrado que se simboliza así: c2. Un
ejemplo típico de distribución lo constituye el lanzamiento de una moneda
con posibilidades de que aparezca cara o sello. Uno de c2 consiste en el
lanzamiento de un dado con seis caras posibles, numeradas del 1 al 6.

El Chi cuadrado es la suma de las fracciones que tienen por numerador
el cuadrado de las diferencias entre las frecuencias reales u observadas y
las frecuencias esperadas o teóricas y por denominador la frecuencia es-perada.
c2
= S
(n- n*)2
i i
n*
i
en donde ni frecuencia observada o real
n*i frecuencia teórica o esperada
Se puede observar en la fórmula, que mientras mayor sea la coinciden-cia
entre las frecuencias observadas y las esperadas, menor será el valor
de c2. Si c2 = 0 significa concordancia entre las frecuencias observadas y
las esperadas.
Ejemplo:
Supongamos que se lanza un dado 60 veces. Se sabe que las fre-cuencias
teóricas, para este caso son de 10 veces cada cara y las fre-cuencias
reales son los resultados del lanzamiento. ¿La base de un nivel
de significancia del 5%, permite suponer que el dado no es perfecto?
Solución:
El problema da las frecuencias reales nt, para cada cara, como se ve en
la tabla 12. Las frecuencias esperadas se obtienen multiplicando la probabi-lidad
de cada suceso por n (número de lanzamientos). Véase gráfica 14.
Tabla 12. Frecuencia en el lanzamiento de un dado 60 veces
Caras ni ni* ni - ni* (ni - ni*)2
(ni - n*)2
n*
1 7 10 -3 9 0.9
2 14 10 4 16 1.6
3 8 10 -2 4 0.4
4 5 10 -5 25 2.5
5 16 10 6 36 3.6
6 10 10 0 0 0
S 60 60 0 - 9.0
i
i

y así se obtienen las demás frecuencias teó-ricas.
Se realiza la prueba teniendo en cuenta los siguientes pasos:
1) HI: ni n*i
HI: ni n*i
2) a = 0.05
3)
4) V = n - 1 = 6 - 1 = 5... c2
0.05 = 11.07
Gráfica 14.
En la tabla de distribución de c2, encontramos que 11.07 es el valor
crítico.
5) c2 < c2
0.05 , es decir 9 < 11.07, por lo tanto se acepta la hipótesis de que
la diferencia no es significativa. En otras palabras podemos afirmar que
a un nivel del 5%, las diferencias que presentan las frecuencias reales,
con relación a las frecuencias teóricas no nos da base para afirmar que
el dado está cargado.
n*
i= np1= 60
1 =
60 =10
6 6 ( )
K
K
c2
= S
(ni - n*i)2
= 9.0
n*i

PRUEBAS DE HIPÓTESIS - AUTOEVALUACIÓN N° 5
1. ¿La hipótesis de investigación es exactamente lo mismo que la
hipótesis nula?
Sí _____ No _____
2. Si una hipótesis de investigación es que dos poblaciones tienen
iguales medias aritméticas, ¿cuál es la hipótesis nula?
a. Que en efecto tienen iguales medias aritméticas ____
b. Que las dos poblaciones tienen distintas medias aritméticas ____
c. Que las medias aritméticas pueden ser iguales o distintas ____
d. Para poder definirla hay que conocer la desviación estándar ____
3. ¿Una distribución de muestreo es lo mismo que una distribución
de una muestra?
Sí _____ No _____
¿Por qué?
___________________________________________________
___________________________________________________
4. El nivel de significancia es:
a. Lo mismo que el nivel de precisión _____
b. La región crítica de una curva normal _____
c. Una probabilidad _____
d. El error alfa a _____
e. La exactitud con que se predicen los parámetros _____
5. El valor crítico de un puntaje Z para una prueba de una cola, al
nivel de significancia 0.05 es: ________

6. ¿A partir de una muestra de obreros en una fábrica, se puede
inferir a cerca de las características de esa fábrica?
a. No _____
b. Sólo si uso una prueba Z _____
c. Sólo si uso una prueba t _____
d. Si se usa una prueba Z o prueba t _____
7. ¿La prueba t se prefiere a la prueba Z cuando no se conocen los
parámetros del universo?
Sí _____ No _____
8. Los salarios diarios de una industria están distribuidos normal-mente
con una media de $132 y una desviación estándar de $25.
Si una empresa de dicha industria, que cuenta con 40 obreros
paga en promedio $122, puede acusarse a esta compañía de
pagar salarios inferiores al nivel de significancia del 1%?
Sí _____ No _____
Desarrollo: _________________________________________
___________________________________________________
___________________________________________________
9. Una hipótesis dice que el estudiante promedio de la universidad
colombiana tiene un coeficiente de inteligencia mayor que el resto
de la población. Escriba una hipótesis de investigación y una
hipótesis nula, con un coeficiente de inteligencia que al estan-darizarse
tiene una X = 100
Hipótesis de investigación: ______________________________
Hipótesis nula: ________________________________________
10. Un fabricante de ciertas piezas de proyectiles sostiene que en
condiciones normales de reparación, tienen una duración media
m=320 horas. Probar esta afirmación frente a la alternativa
m K
320, si 16 piezas duran un promedio de 308 horas, con una
desviación de 29 horas. Utilizar un nivel de significancia del 5%.

Serie aprender a investigar 4

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Serie aprender a investigar 4

Similar a Serie aprender a investigar 4 (20)

Más de JCASTINI

Más de JCASTINI (20)

Último

Último (20)

Serie aprender a investigar 4