SlideShare una empresa de Scribd logo
YOLANDA GALLARDO DE PARADA 
ADONAY MORENO GARZÓN 
Serie 
APRENDER A INVESTIGAR 
Módulo 4 
ANÁLISIS DE LA INFORMACIÓN
INSTITUTO COLOMBIANO PARA EL FOMENTO 
DE LA EDUCACIÓN SUPERIOR, ICFES 
Subdirección General Técnica y de Fomento 
PATRICIA MARTÍNEZ BARRIOS 
Directora General 
PATRICIA ASMAR AMADOR 
Subdirectora General Técnica y de Fomento 
MÓNICA IBARRA ROSERO 
Jefe División de Fomento (A) 
MARÍA JESÚS RESTREPO ALZATE 
Coordinadora del Proyecto 
Serie: APRENDER A INVESTIGAR 
ISBN: 958-9279-11-2 Obra completa 
ISBN: 958-9279-15-5 Módulo 4 
1ª Edición: 1987 
1ª Reimpresión: 1988 
2ª Reimpresión: 1991 
2ª Edición: 1995 
Reimpresión: 1998 
3ª Edición: (corregida y aumentada) 1999 
© ICFES 
Calle 17 Nº 3-40 A.A. 6319 
Teléfono: 2819311 - 2834027 - 2834067 - 2435129 
Fax: 2845309 - 2834047 - 2845980 
Santa Fe de Bogotá 
Diseño de carátula, diagramación e impresión: 
ARFO EDITORES LTDA. 
Carrera 15 Nº 53-86 
Tels.: 2355968 - 2175794 
Santa Fe de Bogotá, D.C.
INSTITUTO COLOMBIANO PARA EL FOMENTO 
DE LA EDUCACIÓN SUPERIOR 
Serie: APRENDER A INVESTIGAR 
Módulos: 1. CIENCIA, TECNOLOGÍA, SOCIEDAD Y DESARROLLO 
2. LA INVESTIGACIÓN 
3. RECOLECCIÓN DE LA INFORMACIÓN 
4. ANÁLISIS DE LA INFORMACIÓN 
5. EL PROYECTO DE INVESTIGACIÓN 
La serie APRENDER A INVESTIGAR ha sido realizada por el ICFES. Para las ediciones anteriores se contó 
con el siguiente grupo de autores: 
CARLOS ESCALANTE A. HUMBERTO RODRÍGUEZ M. 
Profesor Universidad Nacional de Colombia Profesor Universidad Nacional de Colombia 
ALBERTO MAYOR M. EDUARDO VÉLEZ B. 
Profesor Universidad Nacional de Colombia Investigador Instituto SER de Investigaciones 
ÁNGEL FACUNDO D. 
Exjefe División de Fomento 
Investigativo ICFES 
El proyecto de actualización y revisión de la presente edición de la serie APRENDER A IN-VESTIGAR 
fue realizado por el ICFES, para lo cual se conformó el siguiente grupo de autores: 
Módulo 1: 
LUIS JAVIER JARAMILLO 
Módulos 3 y 4: 
ADONAY MORENO Universidad San Buenaventura - Cali 
YOLANDA GALLARDO DE PARADA Universidad de Pamplona (N.S.) 
Módulos 2 y 5: 
MARIO TAMAYO Y TAMAYO Universidad ICESI - Cali 
Instructivos para videos: 
LUZ ESTELLA URIBE VÉLEZ EAFIT - Medellín
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 5 
Contenido 
SERIE APRENDER A INVESTIGAR 
Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 
Propósito, población y objetivos de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 
Estructura de aprendizaje de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 
La organización de la serie: los módulos, y material audiovisual . . . . . . . . . . . . . . . 17 
Descripción sintética de los módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 
La asesoría de tutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 
Módulo 4: ANÁLISIS DE LA INFORMACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 
1. NATURALEZA DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 
2. DIVISIÓN DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 
2.1 Estadística descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 
2.1.1 Descripción de datos, técnicas de representación gráfica . . . . . . . . . . 29 
2.1.2 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 
2.1.3 Elaboración de una tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 31 
2.1.4 Presentación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 
2.1.4.1 Histogramas y polígonos de frecuencias . . . . . . . . . . . . . . . . 34 
2.1.4.2 Gráficas de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 
2.1.4.3 Gráficas lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 
2.1.4.4 Gráficas circulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 
3. DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS . . . . . . . . . . . . . . . . . . . . . 41 
3.1 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 
3.1.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 
3.1.2 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 
3.1.3 La media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 
3.2 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 
3.2.1 El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 
3.2.2 Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 
3.2.3 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 
3.2.4 Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 
3.2.5 Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 
3.3 Asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 
3.4 Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 
3.5 Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6 SERIE: APRENDER A INVESTIGAR 
4. INTRODUCCIÓN A LAS PROBABILIDADES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 
4.1 Probabilidades elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 
4.2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 
4.3 Leyes de las probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 
4.4 Análisis combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 
4.4.1 Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 
4.4.2 Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 
4.4.3 Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 
4.5 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 
4.6 Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 
4.7 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 
4.8 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 
5. ESTADÍSTICA INFERENCIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 
5.1 La prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 
5.2 Pruebas de significancia de muestras únicas o simples . . . . . . . . . . . . . . . . . 86 
5.2.1 Prueba Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 
5.2.2 Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 
5.2.3 Distribución Chi cuadrado: c2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 
6. REGRESIÓN Y CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 
6.1 Introducción a la bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 
6.2 Ajuste de una recta de regresión rectilínea simple . . . . . . . . . . . . . . . . . . . . . 101 
6.3 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 
6.4 Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 
7. ANÁLISIS DE LA VARIANZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 
8. ESTUDIO DE FACTIBILIDAD DEL SOFTWARE ESTADÍSTICO . . . . . . . . . . . . . . 117 
8.1 SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 
8.2 SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 
8.3 Requerimientos mínimos para la instalación del Software SAS . . . . . . . . . . . 120 
8.4 Requerimientos mínimos para la instalación del Software SPSS . . . . . . . . . . 120 
8.5 Manejador de Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 
9. STATGRAPHICS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 
9.1 Grupo I: Data handling and system utilities . . . . . . . . . . . . . . . . . . . . . . . . . . 125 
9.2 Grupo II: Plotting and descriptive statistics . . . . . . . . . . . . . . . . . . . . . . . . . . 125 
9.3 Grupo III: Anova and regression analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 
9.4 Grupo IV: Time series procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 
9.5 Grupo V: Advanced procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 
9.6 Grupo VI: Mathematical procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 
9.7 Requerimientos físicos para la instalación de Statgraphics . . . . . . . . . . . . . . 127 
ANEXO: Instructivo para el uso del video 
1. Uso didáctico del video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 
2. Videos: 
• La medición y las ciencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 
• La curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 
• La muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 
BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 25 
Módulo 4 
Análisis 
de la información 
El análisis de la información en el proceso investigativo, depende del 
enfoque y del tipo de investigación que se haya seleccionado, como tam-bién 
de los objetivos que se hayan planteado. 
La estadística se constituye en una herramienta fundamental para el 
análisis de la información. Sin embargo es necesario precisar y seleccio-nar 
el tratamiento estadístico dependiendo del enfoque cuantitativo o cua-litativo, 
de la escala de medición de las variables, de las hipótesis y de los 
objetivos. 
La estadística es fundamental para resolver problemas de descripción 
de datos, análisis de muestras, contrastación de hipótesis, medición de 
relaciones y predicciones. 
1. NATURALEZA DE LA ESTADÍSTICA 
La estadística es una rama de la ciencia, encargada del diseño y apli-cación 
de métodos para recolectar, organizar, analizar y hacer deduccio-nes 
a partir de ellos. 
Aunque los orígenes de la estadística se remontan a los estudios de 
los juegos de azar del siglo XVIII, sólo en los últimos 60 años se han desa-
26 SERIE: APRENDER A INVESTIGAR 
rrollado las aplicaciones de los métodos estadísticos en casi todos los 
campos de la ciencia (social, comportamental y física). La mayor parte de 
las primeras aplicaciones de la estadística consistieron principalmente en 
la presentación de datos en forma de tablas y gráficas. Este campo se 
desarrolló con rapidez llegando a incluir gran variedad de métodos para 
ordenar, resumir y expresar en alguna forma las características de un con-junto 
de números. Hoy estas técnicas cubren lo que es sin duda la más 
visible aplicación de la estadística: la masa de información cuantitativa 
que se recopila y se publica todos los días en nuestra sociedad. Las tasas 
de natalidad, de mortalidad, los índices de precios, los promedios de go-les 
obtenidos en las fechas semanales de fútbol, son algunas de las mu-chas 
«estadísticas» que nos resultan familiares. 
Además de expresar las características de la información cuantifica-ba, 
estas medidas proporcionan una base importante para el análisis en 
casi todas las disciplinas académicas, especialmente en las ciencias so-ciales 
y del comportamiento, donde la conducta humana no puede gene-ralmente 
ser descrita con la precisión que se consigue en las ciencias 
exactas. Las medidas estadísticas de satisfacción, inteligencia, aptitud 
para el trabajo y capacidad de liderazgo, que sirven para ampliar nuestro 
conocimiento de las motivaciones y del rendimiento humano, son ejem-plos 
de lo dicho. Del mismo modo, los índices de precios, productividad, 
producto nacional bruto, empleo, reservas disponibles y exportaciones son 
elementos útiles tanto para el gerente como para el gobernante cuando se 
trata de trazar una política encaminada a lograr el desarrollo y la estabili-dad 
económica a largo plazo. 
La estadística proporciona una metodología para evaluar y juzgar las 
discrepancias entre la realidad y la teoría. Además de su papel instrumen-tal, 
el estudio de la estadística es importante para entender las posibilida-des 
y limitaciones de la investigación experimental, para diferenciar las 
conclusiones que pueden obtenerse de los datos de aquellas que carecen 
de base empírica y en definitiva para desarrollar un pensamiento crítico y 
antidogmático ante la realidad. 
En la actualidad con la ayuda de la informática y la tecnología el trata-miento 
estadístico de la información se hace más sencillo. 
Para el análisis de datos cuantitativos, tenemos en la actualidad progra-mas 
como el SAS, SPSS, MINITAB, SVSTAT, RESAMPLING, STATGRA-PHIS. 
Para el análisis de datos cualitativos existen programas como el 
QUALPRO, ETHNOGRAPH, NUDIST, AQUAD.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 27 
2. DIVISIÓN DE LA ESTADÍSTICA 
La estadística se divide en dos grandes ramas, dependiendo del méto-do 
empleado para manejar la información y hacer que tenga sentido: esta-dística 
descriptiva y estadística inferencial. 
Población 
Muestra 
K 
Gráfica 1. 
Estadística 
descriptiva 
Estadística inferencial 
K 
2.1 Estadística descriptiva. Permite describir resumir y analizar la 
información obtenida de la muestra. 
Para tal fin se recolecta la información, se tabula, se grafica y en mu-chos 
casos en vez de trabajar con todas las observaciones, es preferible 
tener unas medidas que resuman los datos. 
Básicamente hay tres tipos de medidas de resumen: medidas de ten-dencia 
central, medidas de dispersión o variabilidad de los datos y medi-das 
de ubicación. 
La gráfica 1 se interpreta así: con los datos de la muestra se aplica la 
estadística descriptiva; con los resultados de la estadística descriptiva se 
hacen análisis de estadística inferencial referidos a la población.
28 SERIE: APRENDER A INVESTIGAR 
MAPA CONCEPTUAL DE ESTADÍSTICA DESCRIPTIVA 
TABLAS DE FRECUENCIAS 
TABULACIÓN 
TABLAS DE CONTINGENCIA 
PUNTOS 
GRÁFICAS O LÍNEAS 
DIAGRAMAS BARRAS HISTOGRAMAS 
CÍRCULO 
CAJA 
MEDIA 
MEDIDAS DE MEDIANA 
TENDENCIA MODA 
CENTRAL MEDIA GEOMÉTRICA 
RANGO 
MEDIDAS MEDIDAS DE DESVIACIÓN ESTÁNDAR 
DE DISPERSIÓN VARIANZA 
RESUMEN ÍNDICE DE DISPERSIÓN 
CATEGÓRICO 
CUARTILES 
MEDIDAS DE QUINTILES 
UBICACIÓN DECILES 
PERCENTILES
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 29 
2.1.1 Descripción de datos, técnicas de representación gráfica 
El concepto de la descripción está asociada a la distribución de fre-cuencias, 
que consiste en el ordenamiento o clasificación de los valores 
observados en una variable, de acuerdo con su magnitud numérica. Per-mite 
al investigador identificar la forma como ciertos puntos o caracterís-ticas 
están distribuidos. 
La distribución de frecuencia se puede construir a partir de variables 
medidas a cualquier nivel, desde nominal hasta de razón. 
Podríamos suponer que queremos ver cuántos productores agrícolas 
en una vereda son grandes, medianos o pequeños productores. 
Entrevistamos a los productores de la vereda y les preguntamos la 
extensión de su explotación y la clasificamos de acuerdo con el tamaño 
(magnitud) en una de las tres categorías. 
Se construye la distribución de frecuencias que muestre cuántos pro-ductores 
son grandes, cuántos medianos y cuántos pequeños. El recuen-to 
será: 
Tabla 1 - Tipo de productor agrícola 
Tipo de productor Frecuencia 
Pequeño 7 
Mediano 12 
Grande 9 
Total 28 
En el cuadro sólo se ha agrupado el número de agricultores pertene-cientes 
a cada categoría. El número de agricultores se denomina obser-vaciones 
o frecuencia (f). 
Para el caso de variables medidas a nivel intervalo o de razón, pode-mos 
hacer exactamente el mismo ejercicio. 
Si se tiene, por ejemplo, la información acerca del número de cajas de 
madera que construyen al día unos carpinteros en un taller, podríamos 
clasificarlos por su productividad.
30 SERIE: APRENDER A INVESTIGAR 
Tabla 2 - Número de cajas construidas por 15 carpinteros 
N° de cajas 
Carpinteros construidas 
1 11 
2 10 
3 8 
4 12 
5 12 
6 10 
7 7 
8 8 
9 10 
10 11 
11 10 
12 9 
13 9 
14 10 
15 11 
A partir de esta información podemos aclarar aún más la naturaleza de 
la producción por carpintero y se podría entrar a comparar esta productivi-dad 
con la de otro tipo de taller o fábrica. 
En la tabla 3 introducimos un mayor significado y ordenamiento a la 
información que se está analizando. 
Tabla 3 - Número de cajas construidas por 15 carpinteros 
Nº de carpinteros 
Nº de cajas que construyen X F 
construidas Nº de cajas 
7 I 1 
8 II 2 
9 II 2 
10 5 
11 III 3 
12 II 2 
Hasta ahora los ordenamientos que se han hecho son bastante simples, 
pero en la vida real muchas veces la información analizada es más compleja 
y la distribución de frecuencias debe ser construida a partir de un mayor 
número de puntajes.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 31 
2.1.2 Distribuciones de frecuencias 
La distribución de frecuencias es un método para organizar y resumir 
datos. Bajo este método los datos que componen una serie, se clasifican 
y ordenan, indicándose el número de veces en que se repite cada valor. 
Los caracteres de los elementos de una población pueden ser: cualita-tivos 
y cuantitativos. 
Los datos cualitativos, denominados también atributos, son todos aque-llos 
fenómenos que pueden ser descritos cualitativamente, es decir me-diante 
palabras; son ejemplos de atributos: la clasificación de los alum-nos 
de una universidad por departamento de origen, clasificación de un 
grupo de personas por ocupación, por sexo, por cargo, etc. 
Los caracteres cuantitativos, denominados variables, son todos aque-llos 
fenómenos susceptibles de ser expresados cuantitativamente, es decir 
mediante números. Por ejemplo: peso, estatura, edad, número de hijos, 
salarios, etc. 
Las variables se dividen en: discretas y continuas, teniendo en cuenta 
que ésta clasificación tiene más valor teórico que práctico. 
Las variables discretas son aquellas que admiten solamente valores 
enteros, es decir no tienen valores intermedios; por ejemplo el número de 
hijos por familia, ya que no se puede decir que una familia tiene dos hijos 
y medio. 
Las variables continuas, son aquellas que admiten valores fraccionar-los, 
pudiéndose establecer intervalos. Por ejemplo, la estatura de una per-sona 
que mide un metro con setenta centímetros, que pesa sesenta kilos, 
una libra y cuatro onzas, etc. 
2.1.3 Elaboración de una tabla de frecuencias 
Tomemos como ejemplo una muestra de 20 alumnos, determinando 
su peso en kilos; para facilitar el trabajo redondeamos las cifras. 
X1 = 74 X5 = 69 X9 = 47 X13 = 65 X17 = 76 
X2 = 67 X6 = 61 X10 = 85 X14 = 88 X18 = 57 
X3 = 94 X7 = 71 X11 = 82 X15 = 52 X19 = 72 
X4 = 70 X8 = 79 X12 = 55 X16 = 58 X20 = 66
32 SERIE: APRENDER A INVESTIGAR 
El primer paso a seguir consiste en determinar el valor máximo y el 
mínimo. 
En el ejemplo tenemos: 
Xmáximo = 94; Xmínimo = 47 
La diferencia entre el valor máximo y el mínimo se denomina recorrido 
o rango. 
94 - 47 = 47 
El rango, será entonces de 47. 
Introducimos dos nuevos símbolos que son: 
m = número de intervalos (o clase de la distribución) 
c = amplitud de intervalo (o de clase de la distribución) 
El valor de m, o sea, el número de intervalos se puede obtener me-diante 
la siguiente fórmula: 
m = 1 + 3.3 log n , donde n es el número de datos 
Es de anotar que la anterior fórmula es poco conocida, por consiguien-te, 
es poco usual. Sin embargo, se recomienda que el número de interva-los, 
hasta donde sea posible, no sea menor de 5 ni mayor de 16. 
Para el cálculo de amplitud del intervalo se puede aplicar la siguiente 
fórmula: 
Xmax. 
- Xmin. o sea rango 
C = C = 
m m 
En el caso de nuestro ejemplo, el número de intervalos será: 
m = 1 + 3.3 log2O de donde m = 1 + 3.3,x 1,30 
m = 1 + 4,29 
m = 5.29 @ 5 intervalos.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 33 
La amplitud del intervalo de clase será: 
Rango R =47 
Número de intervalos m = 5 
C = R 
de donde C = 47 = 9.4 
m 5 
Redondeando y para mejor manejo de los datos, se puede considerar 
que la amplitud del intervalo sea de 9. 
La tabla de frecuencias nos quedará en la siguiente forma, 
Tabla 4 - Distribución de frecuencias del peso de 20 alumnos 
Peso Frecuencias (f) Frecuencia Relativa Fr 
46 - 55 3 3/20 = 0.15 = 15% 
56 - 65 4 4/20 = 0.20 = 20% 
66 - 75 7 7/20 = 0.35 = 35% 
76 - 85 4 4/20 = 0.20 = 20% 
86 - 95 2 2/20 = 0.10 = 10% 
Total 20 20/20 = 1 = 100% 
Frecuencia relativa (Fr) 
Es su frecuencia dividida por el total de datos y se expresa general-mente 
como un porcentaje: 
f 
Fr = __ 
n 
2.1.4 Presentación gráfica 
Aunque las tablas sean ya el resultado de una concentración de datos, 
pueden ser, sin embargo, demasiado amplias y complejas, de modo que 
pierden una buena parte de lo que debería ser su cualidad primordial, la 
claridad. 
Entonces, podemos recurrir a la presentación gráfica, para la mejor 
comprensión y análisis de los datos. En las variables discretas se hace la 
representación mediante diagramas de frecuencias; para ello, en el eje hori-
34 SERIE: APRENDER A INVESTIGAR 
zontal, se colocan los distintos valores de las frecuencias absolutas o rela-tivas. 
Si la representación se refiere a las frecuencias absolutas o relativas 
acumuladas se denomina: Diagrama de frecuencias acumuladas, colocán-dose 
los valores de la variable en el eje horizontal y las frecuencias Fr, en el 
vertical. 
2.1.4.1 Histogramas y polígonos de frecuencias 
Una distribución de frecuencias, se puede describir por medio de histo-gramas 
de frecuencias, que son gráficos que representan la información 
contenida en una distribución de frecuencias. 
El ejemplo de la tabla 4, sobre el peso de los alumnos, se puede pre-sentar 
en un histograma que representa exactamente lo mismo. 
Gráfica 1. 
Peso en kilos de 20 alumnos de un colegio 
Otra manera de describir la distribución de la información obtenida, es 
por medio del polígono de frecuencias. 
Estos son gráficos en la forma de una serie de líneas rectas conecta-das 
entre sí y que unen puntos medios de intervalos a lo largo del eje 
horizontal. 
El caso del peso de los alumnos, puede servirnos para ilustrar la técnica 
de los polígonos de frecuencia. Para construirlo se siguen los mismos pa-sos 
que para construir un histograma, pero en lugar de construir los rectán-gulos 
a partir de los límites superior e inferior de los intervalos, se calcula el 
punto medio del mismo y se unen, por medio de una línea recta que se 
conecta a los puntos medios de los demás intervalos.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 35 
Así por ejemplo en el gráfico 1 podemos trazar el polígono de frecuen-cias, 
uniendo los puntos medios del histograma de frecuencias. 
2.1.4.2 Gráficas de barras 
La gráfica de barras es fácil de construir y su interpretación es de 
gran utilidad. Una gráfica diseñada para mostrar magnitudes absolu-tas 
deberá tener su inicio en cero y una escala de cantidades conti-nuas. 
Las gráficas de barras pueden construirse en forma vertical u 
horizontal. 
Las gráficas de barras pueden dividirse en tres tipos: 
a. Gráficas de barras con partes componentes. En esta gráfica cada ba-rra 
ha sido segmentada en dos partes componentes; así, por ejemplo, 
en la siguiente gráfica se tiene que la población de estudiantes de 100 
semestre de la facultad X, de la Universidad Y, se distribuye según el 
sexo y la edad así: 
Distribución de los estudiantes de décimo semestre de la Facultad X, 
de la Universidad Y, por sexo y edad 
0 10 2 0 3 0 4 0 
N úm e ro d e E s tu d ia n te s 
1 5 -1 9 
2 0 -2 4 
2 5 -2 9 
3 0 -3 4 
En la gráfica se muestra el número de estudiantes clasificados por 
sexo y edades, en cada barra se presentan los dos componentes, los 
hombres y las mujeres. 
b. Gráficas de barras agrupadas. En esta gráfica, se presentan los mis-mos 
datos de estudiantes, excepto que los componentes por sexo se 
muestran separadamente así: 
Edad 
h o m b re s 
m uje re s
36 SERIE: APRENDER A INVESTIGAR 
Distribución de los estudiantes de décimo semestre de la Facultad X, 
de la Universidad Y, según el sexo y la edad 
0 5 1 0 1 5 2 0 2 5 3 0 
1 5 - 1 9 
2 0 - 2 4 
2 5 - 2 9 
3 0 - 3 4 
Edad 
N ú m e r o d e E s t u d ia n t e s 
m u je re s 
h o m b r e s 
c. Gráficas de barras bidireccionales. Cuando se desea graficar cantida-des 
positivas y negativas, tales como pérdidas y ganancias en la pro-ducción 
de una empresa, por tipo de producto. Así, en la gráfica de 
producción de la empresa X, se tiene que las pérdidas y ganancias por 
tipo de producto son: 
Utilidad o pérdida en la producción de la Empresa X 
Estufas 
Calentadores de agua 
Secadores 
Enfriadores 
Planchas 
-40 -20 0 20 40 60 
2.1.4.3 Gráficas lineales 
utilidad o 
pérdida 
Producción 
Cuando debe presentarse una serie que cubre un gran número de pe-ríodos 
de tiempo, los datos graficados por medio de barras se ven dema-siado 
acumulados; entonces, éstas pueden ser reemplazadas por una 
línea, ya que las líneas son más efectivas que las barras, cuando existen 
marcadas fluctuaciones en las series, o cuando deben presentarse varias 
series sobre la misma gráfica. Por ejemplo, el número de estudiantes de 
la facultad X, matriculados por sexo, en el período 1990-1998.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 37 
Número de estudiantes de la Facultad X, matriculados por sexo, 
en el período 1990-1998 
600 
500 
400 
300 
200 
100 
0 
90 91 92 93 94 95 96 97 98 
2.1.4.4 Gráficas circulares 
Años 
Las gráficas circulares, llamadas también de tipo pastel, se usan para 
mostrar los tamaños relativos de los componentes de un total. Son utiliza-dos, 
para indicar cosas tales como participación de cada facultad en el 
total de estudiantes matriculados de determinada universidad, en perío-dos 
diferentes. 
El proceso para realizar el diagrama consiste en una regla de tres. 
Para conocer el ángulo de cada sector se debe relacionar los 3600 
que tiene una circunferencia con el tamaño de la muestra y con cada una 
de sus frecuencias absolutas, así: 
360° n 
X F1 
Por ejemplo, si la siguiente tabla representa el número de docentes de 
una universidad, clasificados por modalidad educativa. 
Modalidad 
Técnica 5 
Tecnología 25 
Universitaria 80 
Post-grado 15 
N = 125 
El diagrama circular se construirá así: 
360° 125 Donde 125 es el tamaño de la muestra y 
X 5 5 la frecuencia en la primera modalidad. 
Número de Estudiante 
Hombres 
Mujeres 
Total
38 SERIE: APRENDER A INVESTIGAR 
Luego X = 
360° x 5 
125 
En el siguiente ejemplo, se muestra la distribución porcentual del nú-mero 
de estudiantes matriculados en 5 facultades de una universidad X, 
en los años de 1990 y 1998. 
DESCRIPCIÓN DE DATOS, TÉCNICA DE REPRESENTACIÓN 
GRÁFICA - AUTOEVALUACIÓN N° 1 
Lea cuidadosamente cada uno de los siguientes enunciados y seña-le 
la respuesta correcta. 
1. El propósito principal de la estadística descriptiva es: 
a) Representar los datos por medio de histogramas. 
b) Obtener la información necesaria para la investigación. 
c) Medir en escalas nominales, ordinales e intervalos. 
d) Conocer las características generales de una distribución de 
frecuencias. 
e) Todas las anteriores. 
2. Una distribución de frecuencias sólo se puede construir a partir de 
variables medidas en escalas intervalos. 
Sí _______ No _______ 
a 
15% 
b 
18% 
c 
d 8% 
36% 
c 
13% 
d 
27% 
e 
15% 
b 
14% 
a 
31% 
e 
23%
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 39 
¿Por qué? _______________________________________________ 
_________________________________________________________ 
3. Si clasificamos 220 municipios en grandes, medianos y peque-ños, 
de acuerdo con el número de habitantes, de forma tal que 
tenemos 49 grandes, 63 medianos y 108 pequeños, ¿cómo los 
representaría en un histograma de frecuencias como en un diagra-ma 
circular? 
4. Para construir un histograma de frecuencias, primero es necesa-rio 
construir un polígono de frecuencias. 
Sí _______ No _______ 
5. En un examen general de matemáticas los 30 alumnos de un cur-so 
obtuvieron las siguientes calificaciones: 
Calificación N° de alumnos 
78 1 
77 1 
76 0 
75 2 
74 1 
73 0 
72 2 
71 2 
70 4 
69 5 
68 3 
67 0 
66 3 
65 2 
64 0 
63 1 
62 2 
61 1 
Represente la misma información en una distribución de frecuencias, 
basada en intervalos. Determine el rango, el número de intervalos y 
la amplitud de los intervalos. Represente los resultados por medio de 
un histograma y un polígono de frecuencias.
1. d 
2. No 
3. Gráfico 
4. No 
5. Rango = 17; número de intervalos = 6; amplitud de intervalo = 3 
Calificaciones F Frecuencia 
Relativa % 
61-63 4 13.3 
64-66 5 16.7 
67-69 8 26.7 
70-72 8 26.7 
73-75 3 10.0 
76-78 30 100.0 
RESPUESTAS A LA AUTOEVALUACIÓN N° 1 
Graficar 
40 SERIE: APRENDER A INVESTIGAR
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 41 
3. DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS 
La segunda técnica utilizada en la estadística descriptiva se basa en 
dos tipos de cálculos numéricos: Los de tendencia central y los de dis-persión. 
Las medidas de tendencia central se basan en que, en cualquier distri-bución 
de frecuencias, los valores tienden a concentrarse al rededor de 
un valor central de la distribución. 
Las de dispersión, por el contrario, se basan precisamente en la mane-ra 
en que los valores se distribuyen alrededor de esos valores centrales. 
Para entender la naturaleza de la distribución, tenemos que tratar de 
describir el centro de la distribución de las mediciones y la forma como 
éstas varían alrededor de ese centro. 
Podemos utilizar estas técnicas descriptivas, tanto para estudiar los 
parámetros de la población como las estadísticas de las muestras y en 
este último caso, a partir de ellas podemos estimar los correspondientes 
parámetros de la población. 
3.1 Medidas de tendencia central 
A continuación describimos las técnicas de tendencia central: moda, 
mediana y media aritmética. 
3.1.1 La moda 
La moda de una distribución se define como el valor que presenta la 
mayor frecuencia. Se usa con mediciones de escala nominal, ordinal, de 
intervalo o de razón. 
Es comúnmente utilizada como una medida de popularidad, que refle-ja 
la tendencia de una opinión. En algunas distribuciones sólo hay una 
moda, pero en otras puede haber dos o más modas. Si tomamos 1, 4, 4, 
4, 2, 5, 5, 8, 3, 6, 5, vemos que tanto el cuatro como el cinco aparecen con 
más frecuencia y en tres ocasiones. Es decir, hay dos modas y la distribu-ción 
es bimodal. 
Cuando se trabaja con datos agrupados, la moda se refiere como el 
valor medio del intervalo que constituye la mayor frecuencia.
42 SERIE: APRENDER A INVESTIGAR 
Tabla 5. Puntajes obtenidos por 50 alumnos de un curso de física 
Puntajes Frecuencias 
30 - 32 4 
33 - 35 4 
36 - 38 5 
39 - 41 7 
42 - 44 12 
45 - 47 7 
48 - 50 4 
51 - 53 3 
54 - 56 2 
57 - 59 2 
Total 50 
En la tabla 5, presentamos la distribución obtenida al estudiar los puntajes 
obtenidos por 50 estudiantes como calificación en un curso de física. 
El intervalo que contiene el mayor número de casos, o mayor frecuen-cia 
es 42 - 44. Este intervalo contiene los puntajes 42, 43 y 44. El valor 
medio del intervalo es, por lo tanto, 43 y lo denominamos como la moda. 
3.1.2 La mediana 
La mediana se define como la medida de tendencia central que divide 
a cualquier distribución en dos partes iguales. 
En la siguiente distribución: 
7, 8, 8, 9, 12, 15, 18, 18, 20, 21, 23. 
La mediana es 15, porque se sitúa en el punto que divide la distribución 
en dos partes iguales. Hay el mismo número de casos antes y después 
del 15. 
La mediana se usa en variables medidas en escala ordinal, intervalo o 
de razón. Su mayor uso es cuando se tienen muchas observaciones y 
generalmente se utiliza en distribuciones de ingresos, edades, pesos. 
Cuando hay una distribución con un número par de casos, la mediana 
es el promedio de los dos valores medios. Así, en la siguiente distribución 
de notas: 
78,95,86,73,52,90,89,84,76,92
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 43 
El valor de la mediana es 85, porque, primero al ordenar la distribución 
de menor a mayor así: 
52,73,76,78,84,86,89,90,92,95 
Siendo 10 el total de notas, las que aparecen en la posición quinta y 
sexta están en la mitad de la distribución, entonces la mediana será: 
84 + 86 = 85 
2 
Cuando se tiene información agrupada, la mediana se define como el 
valor dentro del intervalo que divide la distribución en dos partes iguales. 
El símbolo utilizado es Me. 
En la tabla 6, tenemos una distribución cualquiera con 5 intervalos de 
tamaño 5 y con 30 observaciones. 
Tabla 6. Distribución de frecuencias de los pesos de 30 estudiantes 
Frecuencias 
Intervalos F acumuladas 
30 - 34 4 4 
35 - 39 7 11 
40 - 44 8 19 
45 - 49 6 25 
50 - 54 5 30 
Total 30 
Los pasos a seguir para el cálculo de la mediana son: 
• Encuentro las frecuencias absolutas acumuladas. 
• Con base en las frecuencias acumuladas ubico el intervalo donde que-de 
la frecuencias correspondiente a la mitad del tamaño de la mues-tra, 
es decir: n 
2 
• Encuentro el valor del límite real inferior del intervalo donde está n 
2 
• Aplico la siguiente fórmula:
44 SERIE: APRENDER A INVESTIGAR 
n _ S Fa 
2 
Mediana = Li + C 
Fn 
2 
donde Li = Límite real inferior donde está ubicada n 
2 
SFa = Suma de las frecuencias anteriores a donde está 
ubicado n 
2 
C = Amplitud del intervalo. 
En el ejemplo anterior de los pesos de 30 estudiantes la mediana 
está dada por: 
n = 30 = 15 
2 2 
Li = 39.5 Corresponde al límite inferior donde está 15 como 
frecuencia acumulada. 
Corresponde a la frecuencia del intervalo donde está n 
2 
F n = 8 
2 
SFa = 11 Corresponde a la suma de las frecuencias antes de n 
2 
C = 5 Es la amplitud del intervalo. 
Luego: 
Mediana = 39.5 + 
Mediana = 42 
(15 - 11) 
8 
3.1.3 La media aritmética 
x 5 
Es la medida de tendencia central más conocida, es fácil de calcular, de 
gran estabilidad en el muestreo, sus fórmulas permiten tratamiento alge-braico.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 45 
Además, presenta el inconveniente de ser muy sensible a los valores 
extremos, cuando éstos son demasiado bajos o demasiado altos. Se re-presenta 
así: X 
La media aritmética se define como la suma de todos los valores ob-servados 
dividido por el número de observaciones (n). 
X =   S xi 
La fórmula para datos no agrupados es: 
Donde S-Xi corresponde a la sumatoria de todos los valores de la 
muestra. 
n 
La media aritmética de la siguiente distribución es: 
1.1, 2, 1, 2.4, 3, 2, 4.5 
X = 
1.1 + 2 + 1 + 2.4 + 3 + 2 + 4.5 
= 
16.1 
= 
2.28 
7 7 
Para las distribuciones con datos agregados, existe una fórmula, aun-que 
un poco más complicada, es bastante fácil de aplicar. 
media = 
S fx 
n 
donde f corresponde a las frecuencias, y X al valor de cada marca de 
clase. 
Tabla 7. De valores de los pesos de los 30 estudiantes 
x f 
Intervalos Marca de clase Frecuencias fx 
30-34 32 4 128 
35-39 37 7 259 
40-44 42 8 336 
45-49 47 6 282 
50-54 52 5 260 
Total 30 1265 
La marca de clase es el punto medio de cada intervalo. Para tal fin se 
suman los dos valores extremos y se divide entre dos. Por ejemplo, la 
marea de clase para el primer intervalo es:
46 SERIE: APRENDER A INVESTIGAR 
Por consiguiente al aplicar la fórmula la media aritmética es: 
La media aritmética tiene sus ventajas, sobre las otras medidas de 
tendencia central, en que: 
• Cada caso se incluye en el cálculo. 
• Es rígidamente calculada, es decir, sólo hay una para conjunto de datos. 
• Es importante para hacer inferencias, es decir sirve también para cal-cular 
parámetros de la población. 
La media aritmética sólo se puede calcular a valores numéricos, es 
decir que estén en escala de intervalos o de razón. 
3.2 Medidas de dispersión 
Son aquellas que nos determinan cómo se agrupan o se dispersan los 
datos alrededor de un promedio. 
En este capítulo se estudiarán las medidas que se utilizan para deter-minar 
cuán bien representan los promedios a la distribución considerada. 
En el siguiente ejemplo se presentan las notas obtenidas por dos gru-pos 
de estudiantes: 
Grupo A Grupo B 
80 97 
80 95 
75 70 
83 72 
82 73 
81 96 
82 80 
75 72 
79 71 
7 71 
795 797 
X = 
30 + 34 
= 
64 
= 
32 
2 2 
media = 
1.265 
= 42.17 
30
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 47 
XA = 79.5 
XB = 79.7 
La media aritmética de ambas series es prácticamente igual (79.5 en 
el grupo A y 79.7 en el grupo B). Un análisis de las cifras individuales 
revelan un gran contraste. En el grupo A hubo muy poca variación entre 
las notas, siendo la más alta 83 y la más baja 75. En el grupo B, se nota 
mayor variación, en este grupo la mayor nota fue 97 y la menor 71. Como 
conclusión se podría decir que en el grupo B hubo notas muy altas y muy 
bajas. En el grupo A las notas tuvieron una mayor concentración alrede-dor 
del promedio. 
Para establecer esta característica se utilizan las medidas de varia-ción 
o dispersión, entre las cuales las más utilizadas son el rango, la 
varianza y la desviación estándar. 
3.2.1 El rango 
La medida más simple de dispersión es el rango. Este identifica la 
distancia entre el valor mayor y el valor menor de la distribución. Más 
específicamente, se define como la diferencia entre el mayor valor y el 
menor valor. Se simboliza por r. 
Ejemplo, el rango de la siguiente distribución es: 
25, 36, 64, 20, 48, 59. 
r = 64 - 20 = 44 
El rango es sencillo de calcular pero tiene la desventaja de que es 
sensible a los valores extremos. 
3.2.2 Percentiles 
Los percentiles son usados para calcular una segunda medida de dis-persión. 
El P-ésimo percentil de un conjunto de mediciones ordenadas 
según su magnitud, es el valor que tiene P% de las mediciones por debajo 
de él y (100 P%) por encima. 
Se utilizan muy frecuentemente para describir los resultados de pruebas 
de conocimiento, como los del Sistema Nacional de Pruebas y en la clasi-ficación 
de personas en forma comparativa. Entre los percentiles de más 
interés están el 25, el 50 y el 75, frecuentemente denominados como el 
menor cuartil Q1, el cuartil mediano (mediana) Q2 y el cuartil superior, Q3.
48 SERIE: APRENDER A INVESTIGAR 
3.2.3 Varianza 
De todas las medidas de dispersión, la más importante, más conocida 
y usada es la varianza. Se define como la media aritmética de los cuadra-dos 
de las desviaciones, respecto a su media. Se simboliza por S2. 
Su fórmula es: 
para datos no agrupados 
datos agrupados 
S2 = 
S (xi - media)2 
n 
S2 = 
S f (X - media)2 
n 
Ejemplo con datos no agrupados 
Xi = 5; X2 = 3; X3 = 1; X4 = 6; X5 = 10 
X = 
5 + 3 + 1 + 6 + 10 
= 
25 
= 
5 
5 5 
S2 = 
(5-5)2 + (3-5)2 + (1-5)2 + (6-5)2 + (10-5)2 
5 
S2 = 
0 + 4 + 16 + 1 + 25 
= 
46 
= 
9.2 
5 5 
Lo cual indica que la varianza de los datos es de 9.2 
Ejemplo para datos agrupados 
Supongamos la siguiente tabla de pesos en kilogramos:
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 49 
Tabla 8 - Pesos de 100 estudiantes de un colegio 
Marca de 
Pesos clase X X - X (X - X)2 Frecuencias f f (X - X)2 
60-62 61 -6.45 41.60 5 208.0 
63-65 64 -3.45 11.90 18 214.2 
66-68 67 -0.45 0.20 42 8.4 
69-71 70 2.55 6.50 27 175.5 
72-74 73 5.55 30.80 8 246.4 
Total 100 = n 852.51 
X = 67.45 
donde X es la marca de clase 
X la media aritmética 
f la frecuencia de cada intervalo 
Propiedades de la varianza 
a. La varianza siempre debe ser un valor positivo S2> 0 
b. La varianza de una constante es 0, es decir: si Xi = C para todo i, 
entonces S2 = 0 
c. La varianza de una constante más una variable, es igual a la varianza 
de la variable. 
S2 (k + X): = S2 
k + S2 
x = 0 + S2 
x = S2 
x 
También es válida para la diferencia 
S2 (k + X): = S2 
k + S2 
x = 0 - S2 
x = S2 
x 
d. La varianza de una constante por una variable, es igual al producto de 
la constante al cuadrado por la varianza de la variable: 
S2 (kX): = k2 S2 
X 
S2 = 
S f (x - x)2 
n 
S2 = 852.5 = 8.52 
100
50 SERIE: APRENDER A INVESTIGAR 
3.2.4 Desviación estándar 
La desviación típica estándar es la raíz cuadrada de la varianza, con-siderada 
siempre con signo positivo. 
S = S2 
Para el caso del peso de los 100 estudiantes del colegio la desviación 
estándar es: 
S = 8.52 = 2.92 
La varianza se expresa siempre en unidades diferentes a las originales, 
es decir, si la variable se refiere a peso en Kg, al calcular la varianza estará 
dado el peso en Kg al cuadrado. Es una de las razones por la cual se utiliza 
la desviación estándar, pues se expresa en las mismas unidades de la va-riable. 
3.2.5 Coeficiente de variación 
Esta medida relaciona la desviación estándar y la media, para expre-sar 
la variación de la desviación con respecto a la media aritmética. Se 
acostumbra expresarlo en porcentaje. 
La fórmula que se utiliza es: 
Cv = 
S 
• 100 
X 
El coeficiente de variación sirve para determinar el grado de homogenei-dad 
de la información. Si el valor del coeficiente de variación es pequeño 
indica que la información tiene un alto grado de homogeneidad y si el coefi-ciente 
de variación es grande es porque la información es heterogénea. 
Ejemplo: al hallar el coeficiente de variación de 6, 3, 4, 7, 8 
S = 1.85 Cv = 
Lo cual indica que la información es homogénea, pues el coeficiente 
de variación es de 33.04%. 
1.85 
= 
0.3304 = 33.04% 
5.6 
X = 
28 
= 
5.6 
5
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 51 
3.3 Asimetría 
Una distribución es simétrica si se tiene que: la media es igual diana e 
igual al modo (X = Md = Mo); pero si la distribución se vuelve asimétrica 
las tres medidas se separan y entonces el valor promedio ar será mayor 
que la mediana, que a su vez será mayor que el modo, deduciéndose que 
la distribución es asimétrica positiva. Si la media aritmética es menor que 
la mediana y ésta menor que el modo, se dice que la distribución es 
asimétrica negativa. En la distribución asimétrica positiva, la curva pre-senta 
un alargamiento a la derecha; en la negativa el alargamiento pre-senta 
hacia la izquierda. Véase gráficas 4. 
Gráfica 4. Asimetría 
Las fórmulas para calcular la asimetría y su grado son: 
As = 
3.4 Kurtosis 
Una característica importante de la variación de algunas distribucio-nes 
es su grado de agudeza en la cima de la curva que las representa 
agudeza que se observa en la región del modo, comparada con las con-diciones 
halladas para el mismo sitio en la curva normal, es lo que 
Kurtosis. 
3(Media aritmética - Mediana) 
= 
3(X - Md) 
Desviación estándar s 
As = 
Media aritmética - Modo 
= 
X - Mo 
Desviación estándar s
52 SERIE: APRENDER A INVESTIGAR 
Si la curva es más plana que la normal, la distribución se llama achatada 
o platicúrtica; si es más aguda, lleva el nombre de apuntada o leptocúrtica, 
y si la curva es normal, se denomina mesocúrtica. 
La Kurtosis es una medida de altura de la curva, por lo tanto está re-presentada 
por el cuarto momento de la media. En la misma forma que 
para la asimetría, su cálculo se efectúa en función de la desviación estándar 
y de los momentos unidimensionales de orden cuatro con respecto a la 
media aritmética. 
Su fórmula es: 
a4 = 
m4 
= 
m4 
s4 m2 
2 
Otra formula para medir la Kurtosis es la que se basa en los cuartiles 
y percentiles. 
K 
= 
Q 
P90 - P10 
En donde Q = 1/2 (Q3-Q1). Si el valor encontrado de la Kurtosis es 
igual a 0.263 se dice que la curva es mesocúrtica o normal; si es mayor, la 
curva es leptocúrtica y si es menor, la curva es platicúrtica. 
Por ejemplo, calcular el coeficiente de Kurtosis, si el valor del primer 
cuartil es Q1 = 68.25; Q3 = 90.75; P10 D1 =58.12 y P90 = D9 = 101.00 
Aplicando la fórmula se tiene: 
K 
= 
Q 
P90 - P10 2 
Se tiene Q 
K 
= 
= 
1 
en donde Q = 
1 
(Q3-Q1) reemplazando 
2 2 
11.25 
(90.75 - 68.25) = 
= 
11.25 
1 
= 0.262 
101.00 - 58.12 42.88 
(22.5) = 11.25 
Se puede decir que la curva es normal o mesocúrtica.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 53 
3.5 Tablas de contingencia 
En muchas ocasiones, la información puede organizarse y presentar-se 
de acuerdo con la relación entre dos o más variables. 
Es cuando se habla de tablas de doble entrada o múltiples entradas o 
comparación de colectivos. Las variables pueden ser categóricas o nu-méricas. 
Esta forma de representación presenta grandes ventajas, entre otras 
resume información y posibilita el análisis de dependencia, asociación, 
correlación y homogeneidad. 
Supongamos que a partir de datos disponibles en nuestro estudio se 
ha elaborado el siguiente cuadro: 
Tabla 9. Distribución de alumnos por jornadas y clase de colegio 
CLASIFICACIÓN DE NÚMERO DE ALUMNOS 
LA JORNADA COLEGIOS COLEGIOS TOTAL 
OFICIALES PRIVADOS 
Única 230 840 1070 
Mañana 583 614 1197 
Tarde 418 234 652 
Total 1231 1688 2919 
Si comparamos los datos en dirección horizontal constatamos que el 
mayor número de estudiantes corresponde a la jornada de la mañana, 
mientras que si leemos los datos en dirección vertical el mayor número de 
estudiantes corresponde los colegios privados. 
En ocasiones el investigador desea especificar y analizar los datos 
con más variables. Para el ejemplo anterior podría ser sexo y edad.
54 SERIE: APRENDER A INVESTIGAR 
Tabla 10. Distribución de alumnos por jornadas, 
clase de colegio, sexo y edad 
Clasificación COLEGIOS OFICIALES COLEGIOS PRIVADOS 
de la jornada Hombres Mujeres Hombres Mujeres 
10-15 15-20 10-15 15-20 10-15 15-20 10-15 15-20 
Única 52 80 22 76 132 180 423 105 
Mañana 121 47 168 247 241 132 86 155 
Tarde 123 154 49 92 76 51 47 60 
Subtotal 296 281 239 415 449 363 5561 320 
TOTAL 1231 1688 
En este ejemplo, el 52 corresponde al número de estudiantes hombres 
entre los 10 y 15 años, de jornada única pertenecientes a colegios oficiales. 
Las tablas de contingencia se pueden realizar con frecuencias relati-vas, 
es decir, con porcentajes. 
ÍNDICE DE DISPERSIÓN CATEGÓRICO 
Para datos ordinales y nominales se utiliza el llamado ÍNDICE DE DIS-PERSIÓN 
CATEGÓRICO, cuya fórmula es: 
D 
= 
K(N2 - Sf2) 
N2(K - 1) 
Donde K es el número de categorías de la variable. 
Sf2 es la suma de las frecuencias al cuadrado 
N = número de casos (tamaño de la muestra) 
Por ejemplo: 
Si tenemos la siguiente clasificación de 15 estudiantes por preferen-cias 
deportivas:
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 55 
DEPORTES ALUMNOS f2 
FÚTBOL 8 64 
VOLEIBOL 2 4 
BASKET 5 25 
TOTAL 15 
El índice de dispersión categórico sería: 
Lo cual indica que los datos presentan una dispersión del 88%. 
DISTRIBUCIÓN DE DATOS, TÉCNICAS NUMÉRICAS 
AUTOEVALUACIÓN N° 2 
Lea cuidadosamente cada uno de los siguientes enunciados y seña-le 
la respuesta correcta. 
1. Para entender la naturaleza de la distribución de frecuencias, las 
medidas de tendencia central son mejores que las de dispersión 
Sí _______ No _______ 
2. Las medidas de tendencia central son-. 
___________________________________________________ 
3. ¿Cuál es la mediana de la siguiente distribución? 
4, 4, 5, 3, 7, 9, 5, 1, 7, 3, 7, 7, 5 
D 
= 
3(225 - 93) 
225(3 - 1) 
D 
= 
396 
= 0.88 
450
56 SERIE: APRENDER A INVESTIGAR 
4. Un profesor pidió los pesos en Kg a 30 estudiantes del curso de 
álgebra y obtuvo los siguientes resultados: 
No. de estudiantes 
Edad f 
30-34 5 
35-39 6 
40-44 8 
45-49 7 
50-54 4 
Total 30 
a. ¿Cuál es el peso promedio de sus alumnos? _________ 
b. ¿Cuál es la mediana? _________ 
c. ¿Cuál es la moda de las edades? _________ 
5. ¿Cuáles son las modas de las siguientes series de números? 
a) 122, 103, 148, 113, 103, 118. 
b) 75, 84, 37, 49, 51, 83. 
c) 22, 43, 22, 38, 41, 43, 20. 
6. ¿Cuál es la medida de dispersión más sencilla? 
___________________________________________________ 
7. El rango tiene la desventaja de ser sensible a los valores 
extremos. 
Sí _______ No _______
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 57 
8. La varianza siempre debe ser un valor positivo. 
Sí _______ No _______ 
9. ¿Cómo se define la Desviación Estándar? 
___________________________________________________ 
10. Una de las características de la Kurtosis es el grado de agudeza 
de la curva, la cual se puede clasificar en tres tipos: 
a. Una más plana que la normal 0: __________________ 
b. La segunda más aguda 0: __________________ 
c. Si la curva es normal 0: __________________ 
RESPUESTA A LA AUTOEVALUACIÓN N° 2 
5. a) 103 b) No hay c) 22 y 43 
6. El rango 
7. Sí 
8. Sí 
9. La raíz cuadrada de la varianza 
10. a. Platicúrtica. b. Leptocúrtica. c. Mesocúrtica 
b. Mediana = 42 
c. moda= 8 
1. No 
2. Media, mediana y moda 
3. 5 
4. a. X = 4.18
58 SERIE: APRENDER A INVESTIGAR 
Taller de estadística N° 1 
Se realizó un experimento para evaluar el efecto de la edad en la fre-cuencia 
cardíaca, cuando se somete una persona a un grado específico 
de ejercicios. Se seleccionaron al azar hombres de cuatro grupos de eda-des, 
10-19, 20-39, 40-59, 60-69. Cada individuo recorrió la banda sin fin a 
una velocidad específica durante 12 minutos y se registró el aumento de 
la frecuencia cardíaca, la diferencia antes y después del ejercicio, (en la-tidos 
por minuto) 
¿Qué puede usted concluir, si los siguientes datos son el resultado del 
procesamiento de la información apoyada en el computador. 
VARIABLE GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 
Talla 15 10 12 12 
Promedio 30.1333 27.5 29.5 38.3333 
Mediana 30 27.5 29 37.5 
Moda 22 24 33 36 
Varianza 24.8381 23.8333 19.1818 50.6061 
Desviación estándar 4.98378 4.88194 4.37971 7.11379 
Mínimo 22 21 22 28 
Máximo 39 34 37 54 
Rango 17 13 1.5 26 
Quartil inferior 26 24 26.5 34.5 
Quartil superior 34 32 33 42 
Rango interquartil 8 8 6.5 7.5 
Skewness -0.0873053 -0.0716212 0.0311649 0.668752 
Kurtosis -0.612727 -1.59948 -0.726827 1.02909 
Coeficiente de variación 16.5391 17.7525 14.8465 18.5577 
Suma 452 275 354 460 
Preguntas 
1. ¿Qué tipo de muestreo se realizó? 
2. ¿Qué grupo fue más homogéneo en los resultados? ¿Por qué? 
3. Comparando las medias aritméticas ¿qué grupo obtuvo la menor 
media? 
4. ¿Qué grupo presenta un mayor rango? ¿Qué significa? 
5. Si consideramos el grupo 4 
5.1 ¿Cuál es el mínimo valor? 
5.2 ¿Cuál fue el mayor aumento de frecuencia cardíaca? 
5.3 ¿Qué porcentaje de la información está por debajo de 34.5?
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 59 
5.4 ¿Qué porcentaje de la información está por encima de 34.5? 
5.5 ¿Qué porcentaje de la información está entre 34.5 y 42? 
6. Si consideramos el grupo 2 
6.1 ¿Qué porcentaje de la información está por encima de 32? 
6.2 ¿Qué valor corresponde al dato que más se repite? 
6.3 ¿Qué dato está ubicado en el primer cuartil? 
6.4 ¿Qué significado tienen las dos respuestas anteriores? 
Respuestas 
1. Muestreo aleatorio por estratos según edades. 
2. El grupo No. 3 porque obtuvo el menor coeficiente de variación. 
3. El grupo No. 2 con un valor de 27.5. 
4. El grupo No. 4 significa que obtuvo mayor variabilidad entre el dato 
mayor y el dato menor. 
5. 5.1 28 
5.2 54 
5.3 El 25% 
5.4 El 75% 
5.5 El 50% 
6. 6.1 El 25% 
6.2 24 
6.3 24 
6.4 Significa que por debajo del dato que más se repite hay un 25% 
de la información.
60 SERIE: APRENDER A INVESTIGAR 
4. INTRODUCCIÓN A LAS PROBABILIDADES 
4.1 Probabilidades elementales 
Consideramos varios ejemplos: es casi seguro que hoy no llueve, con 
ello expresamos algún grado de confianza de que no llueve, a pesar de la 
completa seguridad. 
¿Qué posibilidad existe de obtener una buena nota en el examen de 
economía? ¿En el de estadística? 
«En el próximo examen tengo la oportunidad de obtener una nota alta». 
Si un aficionado a la hípica es preguntado sobre una fija en una deter-minada 
carrera, puede darnos una insinuación de cuál caballo puede ga-nar. 
«El caballo X tiene una buena oportunidad». 
Nos encontramos con un conjunto cuya técnica se refiere a resultados 
que no estamos muy seguros. Asociamos cierto grado de confianza, con 
relación a que cada una de estas predicciones se realice. El cierto grado 
de confianza reposa en la experiencia (pasada y presente). 
Los Bayecianos definen la probabilidad de un acontecimiento, como 
una medida del grado de confianza que uno tiene, en que ocurra el acon-tecimiento. 
Otros autores consideran que la probabilidad pertenece a aquellas no-ciones 
imposibles de ser definidas adecuadamente y se les considera 
basadas en la experiencia. Por lo tanto, se puede decir que la probabilidad 
es una creencia basada en la experiencia. 
Consideramos algunas definiciones, según el método. 
a. Método axiomático. El cual concibe la probabilidad de ocurrencia 
de un suceso, como un número comprendido entre cero y uno. Este con-cepto 
tiene que ver directamente con la noción de frecuencia relativa, 
donde: 0 < p < l. 
Supongamos que se lanza 100 veces una moneda, anotamos el número 
de veces que sale cara y las veces que sale sello; los resultados fueron los 
siguientes: 
Frecuencias absolutas: cara 56 veces; sello 44 veces 
Frecuencias relativas: 56/100; 44/100 
Posibilidad: p = 56% (éxito); q = 44% (fracaso)
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 61 
b. Método empírico o práctico. Considera la probabilidad de un su-ceso, 
como aquel número al cual se aproxima cada vez la frecuencia re-lativa 
de la ocurrencia de un suceso, cuando las veces que se repite el 
experimento que origina ese suceso es bastante grande. Este concepto 
tiene algo que ver con el experimento de Quetelet, en donde la probabili-dad 
de un suceso tiende a estabilizarse en un punto, cuando el número de 
experimentos se va haciendo cada vez más grande. 
c. Método clásico. Considera la probabilidad como el cuociente de 
dividir los casos favorables, que pueden ocurrir en un suceso, por el total 
de casos posibles. 
Número de casos favorables 
p = __________________________ 
Número de casos posibles 
Ejemplos: 
– En el lanzamiento de una moneda hay: 
2 posibilidades N° Combinaciones Probabilidades 
C (C) 1/2 = 0.5 
S (S) 1/2 = 0.5 
2 1 = 1.0 
– Lanzamiento de dos monedas. 
4 Posibilidades N° Combinaciones Probabilidades 
2C (C,C) 1 1/4 = 0.25 
1 C y 1 S (C, S) (S, C) 2 2/4 = 0.50 
2S (S,S) 1 1/4 = 0.25 
4 1 = 1.00 
– Lanzamiento de tres monedas. 
8 posibilidades N° Combinaciones Probabilidades 
1C (C, C, C) 1 1/8 = 0.125 
2C y 1S (C, C, S) (C, S, C) (S, C, C) 3 3/8 = 0.375 
2S y 1C (S,S,C)(S,C,S)(C,S,S) 3 3/8 = 0.375 
3S (S, S, S) 1 1/8 = 0.125 
8 1 = 1.000
62 SERIE: APRENDER A INVESTIGAR 
En efecto el número de casos posibles en los ejemplos anteriores se 
obtiene: 
21 = 1 2n 
22 = 4 2 = casos posibles en una moneda 
23 = 8 n = número de lanzamientos 
En un dado sería: 6n 
61 = 6 6 = casos posibles en un dado 
62 = 36 36 = casos posibles al lanzar dos dados 
4.2 Esperanza 
Si p es la posibilidad de éxito en un suceso, en un solo ensayo, el 
número de sucesos o esperanzas de ese suceso en n ensayos, estará 
dado por el producto de n y la probabilidad de éxito p. 
E = n p 
Ejemplo: 
En el lanzamiento 900 veces de dos dados, ¿cuál es la esperanza de 
que la suma de sus caras sea un valor menor a 6? 
Primero obtenemos la probabilidad de éxito del suceso en un solo 
ensayo. 
(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10 
Como se lanzan 900 veces, en dos dados, se tiene: 
E = np = 900 
10 
= 
900 
= 
250 
36 36 
La esperanza es que en 250 de los 900 lanzamientos, la suma de sus 
caras sea menor de 6. 
4.3 Leyes de las probabilidades 
Para facilitar el cálculo de las probabilidades se emplean estas leyes. 
1. Si dos o más sucesos son tales que solamente uno de ellos puede ocu-rrir 
en un solo ensayo, se dice que son mutuamente excluyentes. Se
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 63 
denomina probabilidad aditiva y será igual a la suma de las probabilidades 
de cada suceso. 
P = P1 + P2 + P3........... + Pn 
Ejemplo: 
La probabilidad de obtener un as o un rey, sacando una sola carta en 
una baraja española de 40 cartas. Si uno de los casos aparece, queda 
excluido el otro. 
P1 = 
4 
= 
1 
(As) 
40 10 
P2 = 
4 
= 
1 
(Rey) 
40 10 
P = P1+P2 = 
1 
+ 
1 
= 
2 
= 
1 
10 10 10 5 
2. Se dice que dos o más sucesos son independientes, si la probabilidad 
de presentación de alguno de ellos queda influenciada por la presenta-ción 
del otro. En caso contrario, se dice que son dependientes. 
En otras palabras, si el resultado de un suceso no afecta al otro, se 
dice que son independientes, por lo tanto se efectuará la multiplicación 
de las probabilidades para cada suceso. 
P = P1 x P2 x P3..... x Pn 
Ejemplo: 
¿Qué probabilidad tendremos de obtener dos reyes, sacando una car-ta 
de una baraja y la otra de una segunda baraja? 
P = 
4 
x 
4 
= 
16 
= 
1 
40 40 1600 100 
Se dice que los sucesos son dependientes, o eventos compuestos, si la 
ocurrencia o no ocurrencia de un evento en cualquier prueba afecta la 
probabilidad de otros eventos en otras pruebas, es decir que la probabi-lidad 
del segundo suceso depende del primer suceso, el del tercero, de 
lo que haya sucedido en el primero y segundo y así sucesivamente.
64 SERIE: APRENDER A INVESTIGAR 
Ejemplo: 
La probabilidad de obtener tres ases, sacando sucesivamente tres 
cartas de una baraja española, sin volverlas a incluir (sin reposición) 
en el montón. 
P1 = 
4 
40 
P2 = 
3 
39 
P = 
P = 
4 
40 39 38 59280 
1 
2470 
• 
3 
• 
2 
4.4 Análisis combinatorio 
P3 = 
2 
38 
= 
24 
El análisis combinatorio es un sistema que permite agrupar y ordenar, 
en diversas formas, los elementos de un conjunto. 
Los tres principales tipos de análisis combinatorio son: 
4.4.1 Permutaciones 
Se denominan permutaciones de h elementos, los diferentes grupos 
que se pueden hacer, tomándolos todos cada vez. 
Las permutaciones implican orden. 
Cada conjunto ordenado de h elementos se denominará una permuta-ción 
de los n elementos diferentes. 
La formula es Pn = n!, donde Pn corresponde al número de permuta-ciones 
posibles. 
Por ejemplo: 
Determine el número de permutaciones posibles de las letras A, B, C, D. 
P4 = 4! = 4 x 3 x 2 x 1 = 24 
Representémoslas:
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 65 
ABCD BACD CABD DABC 
ABDC BADC CADB DACB 
ACBD BCDA CBAD DBAC 
ADBC BDAC CDAB DCBA 
ADCB BDCA CDBA DCAB 
ACDB BCAD CBDA DBCA 
Otro ejemplo: 
¿Cuántos números diferentes de 9 cifras se pueden formar con los dígitos 
del cero al 9, usándolos una sola vez? 
P10,= 10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 3.628.800 
Permutaciones con repetición 
Las permutaciones con repetición r, son un caso particular de las variacio-nes 
y no existe una ley sencilla para su formación. Dado lo complicado del 
sistema, sólo, se presenta la fórmula que logra el número de esta clase de 
permutaciones. 
Sean los elementos aa - bbb - cc - d, para permutar con repetición, ten-dremos 
8 elementos repartidos así: dos del primero, tres del segundo, dos 
del tercero y uno del cuarto, entonces las permutaciones se presentarán 
así: 
P8(r: 2,3,2,1) y la fórmula respectiva será: 
P8(r:2,3,2,1) = 
P8(r:2,3,2,1)=1680 
La formula será 
Ejemplo: 
¿De cuántas maneras distribuiríamos 3 monedas de $100 y 4 monedas 
de $500 en una misma línea? 
P7(r: 3,4) = 35 
8! 
= 
8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 
2!3!2! 2 x 1 x 3 x 2 x 1 x 2 x 1 
Pn(r: r1, r2) = 
n! 
r1!r2! 
P7(r: 3,4) = 
7! 
= 
7 x 6 x 5 x 4 x 3 x 2 x 1 
3!4! 3 x 2 x 1 x 4 x 3 x 2 x 1
66 SERIE: APRENDER A INVESTIGAR 
Otro ejemplo: 
Cuántos grupos de 2 letras se pueden formar con las letras de la palabra 
amigas. 
P6(r: 2) = 
6! 
= 360 
2! 
4.4.2 Variaciones 
Las variaciones corresponden a aquellas permutaciones donde los ele-mentos 
no se toman en su totalidad. 
Dado un conjunto de n elementos diferentes, se denominará permutación 
parcial o variaciones, de subconjunto de r elementos (r<n) pertenecientes al 
conjunto dado. 
n! 
(n - r)! r 
La fórmula es: Vn = 
En el ejemplo de las cuatro letras o elementos (n) vamos a permutar de a 2 (r) 
4! = 4 x 3 x 2 x 1 
= 12 
(4 - 2)! 2 x 1 2 
AB BA CA DA 
AC BC CB DB 
AD BD CD DC 
Ejemplo: 
¿Cuántas cifras diferentes de 4 dígitos se pueden formar con los dígitos 
del 0 al 9, usándolos una vez? 
10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 
= 5.040 
(10 - 4)! 6 x 5 x 4 x 3 x 2 x 1 4 
4.4.3 Combinaciones 
Son aquellas en las que no interesa el orden de la aparición de ele-mentos 
del conjunto. Será lo mismo AB que BA. 
V4 = 
V10 =
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 67 
Cuando se toma la totalidad de elementos, solamente se puede hacer una 
combinación. Si se tiene las letras A, B, C, D y se combinan de dos en dos, se 
obtienen 6 casos: 
AB BC CD 
AC BD 
AD 
La fórmula será: 
n! 
r!(n - r)! r r 
(n) = Cn = 
Y se lee combinación de n elementos tomados de r en r. 
Ejemplo: 
Cuál es la combinación de las 4 letras A, B, C, D, tomadas de 4 en 4. 
(4) = C4 = 
El factorial de cero es uno (0! = l). 
En la combinación de estas 4 letras tomadas de 2 en 2 será, 
4.5 Probabilidad condicional 
En algunos eventos probabilísticos se tiene alguna información, que 
reduce el espacio muestral original a uno de sus subconjuntos; las probabi-lidades 
asociadas a esos subconjuntos determinan la probabilidad condi-cional. 
Su fórmula está dada así: 
Ejemplo: 
4! = 4 x 3 x 2 x 1 = 1 
4!(4 - 4)! 4 x 3 x 2 x 1 x 1 4 4 
(4) = C4 = 
4! = 4 x 3 x 2 x 1 = 6 
2!(4 - 2)! 2 x 1 x 2 x 1 2 2 
P(B/A) = 
P(BÇA) 
P(A)
68 SERIE: APRENDER A INVESTIGAR 
El 18 % de las familias de un barrio tienen vehículo propio, el 20% tiene 
vivienda de su propiedad y el 12% tiene vivienda y vehículo. ¿Cuál es la posi-bilidad 
de tener vivienda si se tiene vehículo? 
A = Propietario de vehículo 
A’ = No propietario de vehículo 
B Propietario de vivienda 
B’ No propietario de vivienda 
B B’ Total 
A 0.12 0.06 0.18 
A’ 0.08 0.74 0.82 
Total 0.20 0.80 1.00 
0.12 
= 0.66 
0.18 
INTRODUCCIÓN A LAS PROBABILIDADES 
AUTOEVALUACIÓN N° 3 
P(B/A) = 
1. La definición clásica de probabilidades es el cociente de dividir el 
número de casos favorables que pueden ocurrir en un suceso, por 
el número de casos posibles: Sí ______ No ______ 
2. ¿Cuál es la probabilidad de que una bola, extraída al azar de una 
urna que contiene 3 bolas rojas, 4 blancas y 5 azules, sea blanca? 
a. 3/12 
b. 1/3 
c. 5/16 
d. Ninguna
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 69 
3. Una señora invita a cenar a 8 personas; después de sentarse ella, 
¿de cuántas maneras se pueden sentar sus invitados? 
4. En un juego de moneda, entre dos personas, con un premio de 
$1.000 por aparición de cara, ¿cuál es la esperanza de ganar con el 
resultado de cara? 
5. ¿De cuántas maneras se pueden sacar dos manzanas de una caja 
que contiene 8 manzanas? 
RESPUESTAS A LA AUTOEVALUACIÓN N° 3 
2 = 28 
1. Sí. 
2 . 1/3 
3 . 40.320 
4 . $500 
5 . C8
70 SERIE: APRENDER A INVESTIGAR 
4.6 Distribución binomial 
En repetidos ensayos, siendo p la probabilidad de éxito en un solo ensayo 
la cual debe permanecer fija y q la probabilidad de fracaso, entonces la proba-bilidad 
P de que se obtengan r éxitos en n ensayos, es el termino del desarro-llo 
binomial (q+p)n. 
La fórmula general será: 
p = Cn 
r pr qn-r 
Los criterios que deben satisfacer una experiencia binomial son: 
a) Existir un número fijo de pruebas repetidas (n). 
b) Cada una de las n pruebas debe tener dos resultados: favorable o desfa-vorable; 
en el caso de una moneda será: cara o sello. 
c) La probabilidad de éxito de un acontecimiento es fija. 
d) Las pruebas son independientes. 
e) Nos interesa el número de éxitos en n pruebas. 
En caso de lanzar 4 monedas y se quiera determinar la probabilidad de 
obtener exactamente dos caras, será: 
P = C4 
2 4-2 2 2 
1 
1 
= 
2 2 2!2! 2 2 2.1.2.1 4 4 2 
P = 6 
1 
= 
6 
= 
16 16 
4.7 Distribución normal 
4! 1 
1 
= 
4.3.2.1 
1 1 
0.375 = 37.5% 
Muchas distribuciones de mediciones, que se hacen tanto en las cien-cias 
sociales como en las ciencias naturales, tienden a tener un polígono 
de frecuencias con una forma que se asemeja al corte transversal de una 
campana. 
Esta distribución se observa más cuando el número de observaciones 
es grande y cuando en muchos casos las investigaciones se realizan con 
muestras de poblaciones grandes; en la mayoría de los casos las distri-
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 71 
buciones tienden a aproximarse a la curva en forma de campana ya men-cionada. 
Una distribución de frecuencias que se asemeja a una campana se reco-noce 
como una Distribución Normal, que por tener características especia-les, 
se convierte en un requisito fundamental para entender el proceso rela-cionado 
con la inferencia estadística y la prueba de hipótesis. 
Cuando el número n de experimentos es grande, se hace difícil el cálculo 
de las probabilidades mediante el teorema del Binomio; para facilitar el cálculo 
y agilizar las operaciones, utilizaremos la distribución normal. 
Entre las propiedades de la distribución normal están, 
a. El área total debajo de la curva, puede representar el número total de ele-mentos 
en una población y se puede considerar que el área es igual a la 
unidad. 
Esta propiedad permite determinar la proporción de la frecuencia conteni-da 
entre dos puntajes a lo largo del eje horizontal, ya que se puede calcular 
la proporción del área debajo de la curva y contenida entre los dos puntos. 
b. La media aritmética, la mediana, y la moda de una distribución normal son 
iguales a cero. 
c. La desviación estándar es igual a 1 
d. Como veíamos, tiene una distribución simétrica. 
e. Es una distribución asintótica, es decir, como no toca el eje de las X, se 
extiende infinitamente. 
f. En una distribución normal el 68.26% de los valores bajo la curva, se en-cuentra 
dentro de más o menos una desviación estándar de la media arit-mética; 
el 95.46% de los valores debajo de la curva se encuentra dentro 
de más o menos dos desviaciones estándar de la media y el 99.9% se 
encuentra dentro de más o menos tres desviaciones estándar, tal como 
se ve en la gráfica 5. 
La curva está dada por la función:
72 SERIE: APRENDER A INVESTIGAR 
donde: n número de datos 
G desviación estándar de la distribución binomial = npq 
e base de los logaritmos naturales = 2.71828 
p 3.1416 
m media de la distribución nominal = np 
Gráfica 5. Características de una distribución normal. 
Probabilidad mediante una aproximación a la curva normal 
X y Y son cantidades concretas de la misma especie. La variante esta-dística 
z = 
c - m , representa una medida de las desviaciones estándar o 
G 
de las G llamadas unidades estandarizadas. La expresión anterior también 
es conocida como desviación normal. Aplicando la fórmula podemos cal-cular 
la probabilidad, por ejemplo de obtener 4, 5 y 6 caras, en 9 lanza-mientos 
de una moneda, mediante una aproximación a la binomial. 
Y = 
n e 
G 2p 
z2 
2G2 
Ö 
Ö
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 73 
n = 9 p = ½ q = ½ 
m = np = 9 (½) = 4.5 
G = Ö npq = Ö 9 (½) (½) = 1.5 
p = (3.5 < x <6.5) 
x = 4,5 y 6 caras 
Gráfica 6. 
Se tiene que x 3.5 corresponde al límite inferior de 4, y x 6.5 es el límite 
superior de 6. Se va a buscar el valor del área comprendido entre 3.5 y 6.5, 
o sea, P (3.5<x<6.5). Primero localizamos el área a partir de la media 
hasta el límite inferior, dado que cada lado vale el 50%, la suma total será 
igual a uno. 
De donde z = 
x – m 
entonces z = 
3.5 - 4.5 
= –0.67 
G 1.5 
z = (-0.67) = 0.2486, tomado de la tabla, área bajo la curva normal.
74 SERIE: APRENDER A INVESTIGAR 
Z = 1.33 = 0.4082, tomado de la tabla, área bajo la curva normal. 
Se desea el área comprendida entre z = -0.67 y z = 1.33 
Para ello sumamos: 0.2486 + 0.4082 = 0.6568 
La probabilidad de que aparezca 4, 5 y 6 caras es del 65.68%. Véase 
gráfica 6. 
Ejemplos: 
Usando la tabla del área bajo la curva normal, plantearemos algunos 
problemas que servirán de modelo. Ver gráficas: 7 - 8 - 9 y 1 0. 
a) Para z = 1.5 y z = -1.4 
z = 1.5 la tabla da 0.4332 z =1.4 la tabla de 0.4192 
p (-14<z<1.5) = 0.4332+0.4192 
p 0.8524 = 85.24% 
Gráfica 7. 
Z = 
6.5 - 4.5 
= 1.33 
1.5
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 75 
b) Si se plantea p (z<1.5), corresponde al siguiente gráfico. 
0.5000 + 0.4332 = 0.9332 = 93.32% 
Gráfica 8. 
c) P (z>1.5) 
0.5000 - 0.4332 = 0.0668 =6.68% 
Gráfica 9.
76 SERIE: APRENDER A INVESTIGAR 
d) Si queremos conocer el porcentaje de frecuencia comprendida entre 
z = -3 y z = -2, será necesario proceder por diferencia. 
z = -3 = 0.4987 
z = -2 = 0.4772 
0.0215 
La diferencia es 0.0215 = 2.15% 
P (-3 < z < -2)= 2.15% 
Gráfica 10. 
4.8 Distribución de Poisson 
Se tiene ahora una distribución binomial, cuando n es grande, por lo gene-ral 
mayor de 50, a la vez que p, la probabilidad de éxito de un suceso se 
acerque a cero, mientras que q, la probabilidad de fracaso, se aproxime a 
uno, de tal manera que el producto np, llamado lamda l es menor o igual a 5, 
debe utilizarse la distribución de Poisson. 
Su fórmula es: 
P = 
lxe-l 
X! 
donde e = 2.71828
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 77 
l = np 
x = número de casos favorables 
Ejemplo: 
a) Si el 1 % de las bombillas fabricadas por una compañía son defectuosas, 
hallar la probabilidad de que en una muestra de 100 bombillas 3 sean 
defectuosas. 
l = 100 x 0.01 = 1 
X = 3 
P = 
13 - e-1 = 1 (0.36788) 
= 0.06131 
3! 3.2.1 
e-1 (utilizamos la tabla para valores de e-l) 
e-1 = 0.36788 
b) Si, la probabilidad de que una persona adquiera la enfermedad como 
consecuencia de una vacuna contra la misma, es 0.0002, ¿cuál es la 
probabilidad de que la adquieran exactamente 5 personas en una po-blación 
de 10.000 vacunados? 
p = 
lx . e-l 
X! 
l = np = 10.000 x 0.0002 = 2 
x = 5 
entonces P = 
25 (0.13534) 
= 
32(0.13534) 
= 
4.33088 
5.4.3.2.1 120 120 
P = 0.03609 = 3.61 % 
P (x = 5) = 3.61 %
78 SERIE: APRENDER A INVESTIGAR 
LA CURVA NORMAL Y SUS APLICACIONES 
AUTOEVALUACIÓN N° 4 
1. La curva normal se caracteriza por que es asimptótica. Esto quiere 
decir que: 
a. La media es igual a la moda _________________ 
b. Tiene forma de campana _________________ 
c. Es simétrica _________________ 
d. Nunca toca el eje _________________ 
e. Ninguna de las anteriores _________________ 
2. La tabla bajo la curva normal sirve para indicar cuál es: 
a. La proporción de los casos que se encuentran entre la media y 
un valor llamado puntaje _____________ 
b. El valor de la desviación estándar en relación con el valor de la 
media _____________ 
3. En una distribución normal, la media, la mediana y la moda son 
iguales: 
Sí _____ No _____ 
4. ¿Cuál es el área bajo la curva normal que corresponde a un z = 
2.5? 
_____________________________________________________ 
5. El promedio de las notas de un curso está en 1.350 puntos y tiene 
una distribución normal con una desviación estándar de 18 puntos. 
a. ¿Qué porcentaje de alumnos tiene notas entre 1.350 y 1.377 
puntos? _________________ 
b. Entre 1.365 y 1.377 _________________ 
c. Entre 1.31 y 1.351. _________________
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 79 
6. Con una distribución de 20 elementos se obtiene una media de 20.3 
y una desviación estándar de 2.81. Si uno de los elementos tiene un 
valor de 28, ¿cuál es el valor de z? 
a. 17.18 _____________ 
b. 7.70 _____________ 
c. 2.74 _____________ 
d. 5.48 _____________ 
e. Ninguno de los anteriores _____________ 
7. En una distribución normal, el 68.26% de los valores bajo la curva 
se encuentra dentro de más o menos una desviación estándar de la 
media aritmética. 
Sí _____ No _____ 
8. En una distribución binomial, cuando n es pequeña, se utiliza la dis-tribución 
de Poisson. 
Sí _____ No _____ 
RESPUESTAS A LA AUTOEVALUACIÓN N° 3 
1 =d; 2=a-, 3=Sí; 4=49.38%; 5=a)43.32%; 
b)13.65; c)21.14%; 6=c)2.74; 7=Sí; 8=No
80 SERIE: APRENDER A INVESTIGAR 
5. ESTADÍSTICA INFERENCIAL 
Ayuda a determinar la confiabilidad de la inferencia de que los fenóme-nos 
observados en la muestra ocurrirán también en la población de donde 
se seleccionó la muestra. Es decir, sirve para estimar la eficacia del razo-namiento 
inductivo con el cual se infiere que lo que se observa en una 
parte se observará en el grupo entero. 
El objeto de la estadística es el de hacer inferencias (predecir, decidir) 
sobre algunas características de la población con base en la información 
contenida en una muestra. 
Por lo tanto, se puede afirmar que el empleo de la estadística inferencial 
presume el dominio de la estadística descriptiva. Sin embargo se debe 
tener presente que al predecir un resultado o tomar una decisión se está 
sujeto a una incertidumbre o margen de error, bien sea por la técnica de 
muestreo o por la selección del estadístico de prueba. 
Es importante resaltar que se debe diferenciar entre las técnicas que 
son válidas para el análisis de los datos cualitativos y de los datos cuanti-tativos. 
En el caso de la estadística inferencial el investigador se encuentra 
con dos tipos de técnicas. Por un lado las técnicas paramétricas que 
suponen una serie de supuestos acerca de la naturaleza de la población 
de la que se extrajo la muestra de estudio. Por otro lado, las técnicas no 
paramétricas, que no requieren supuestos sobre las características de la 
población y que se facilitan más para el análisis de datos nominales y 
ordinales. 
Las ventajas de las técnicas paramétricas es que son más potentes 
que las no paramétricas y por consiguiente las inferencias que se realizan 
son más fiables. El inconveniente es que el investigador no siempre pue-de 
cumplir con los requisitos y supuestos que exige el enfoque paramétrico, 
sobre todo en investigaciones educativas y sociales. 
La ventaja de las técnicas no paramétricas es que son fáciles de utili-zar 
y algunas son tan potentes como las paramétricas. 
El análisis de datos cualitativos ha generado técnicas propias, que ac-tualmente 
constituyen toda una metodología específica que viene marcada 
por la propia idiosincrasia cualitativa y que toma determinadas opciones en 
relación a las unidades de registro de los datos y la forma de tratarlos.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 81 
Actualmente existe interés por sistematizar estos procedimientos, sin 
embargo esta tarea es difícil debido al carácter abierto y flexible de la me-todología, 
los diversos enfoques, y la variedad de objetivos científicos que 
puede cubrir. 
Una de las maneras de realizar estimaciones es con las pruebas de 
hipótesis referentes a sus valores. 
En muchos aspectos el procedimiento formal para la prueba de hipó-tesis 
es similar al método científico. 
5.1 La prueba de hipótesis 
Ya el investigador, desde el momento en que identifica y delimita el pro-blema 
que va a investigar, ha aclarado los elementos conceptuales y las 
hipótesis o modelos que tiene que probar. En las etapas complicadas con 
la generación de los instrumentos, con la recolección de la información y 
con la codificación de la misma, estas hipótesis se aclaran mucho más y 
en algunos casos, toman características cuantitativas, permitiendo la apli-cación 
de técnicas estadísticas, para probar su relevancia en cuanto a su 
capacidad para generalizar el fenómeno, o la relación entre fenómenos, a 
poblaciones mayores, o para tomar decisiones en relación con tales fenó-menos. 
En esta parte distinguiremos la lógica del proceso para probar una hi-pótesis 
y aplicaremos en casos determinados la prueba Z, la prueba T y la 
prueba de significación entre muestras, para ilustrar el proceso de prueba 
de hipótesis. 
La lógica de la prueba de hipótesis 
En el proceso de la estadística inferencial, hay dos tipos de hipótesis 
claves: una es la hipótesis de investigación (H1), que simplemente señala 
la existencia de un hecho o de un evento, o la relación entre dos o más 
fenómenos. 
La otra es la hipótesis nula (H0) que se construye artificialmente para 
que el investigador evalúe su hipótesis de investigación. 
Si la hipótesis de investigación afirma que existe una relación entre dos 
o más fenómenos, la hipótesis nula (H0) plantea que no existe relación 
entre los dos fenómenos.
82 SERIE: APRENDER A INVESTIGAR 
Es decir, se utiliza esta última como un modelo para probar la hipótesis de 
investigación, o sea, probar su veracidad o su falsedad. 
Para probar una hipótesis, se necesita: 
1° La existencia o planteamiento de la misma. 
2° Que se anticipen los eventos que pueden resultar a partir de la observa-ción 
o experimentación. 
3° Que se especifiquen las condiciones bajo las cuales la hipótesis se puede 
rechazar o aceptar. 
4° Que se haga el experimento y la observación y que se analice el evento o 
resultado. 
5° Que se tome la decisión de rechazar o aceptar la hipótesis. 
Esto implica que, aunque se tiene que observar o experimentar, todas las 
suposiciones se hacen antes de las mismas observaciones o experimentos. 
Es decir, el investigador predice y luego bajo las reglas del juego de su predic-ción 
evalúa en relación con los resultados. Si éstos no son consistentes con 
lo que se predijo, se rechaza la hipótesis. 
Con un ejemplo podemos ilustrar la naturaleza de la prueba de hipótesis. 
Supongamos que se está probando una nueva semilla para resolver proble-mas 
de productividad en una región determinada. La hipótesis de la investiga-ción 
sería que la media aritmética por fanegada es mayor de 519 arrobas, que 
es el tradicionalmente observado en esa región. 
Para verificar la hipótesis tenemos que completar los cinco pasos siguientes: 
1° Aclarar la hipótesis de investigación H1 y crear la hipótesis nula H0. 
2° Obtener la distribución del muestreo. 
3° Seleccionar un nivel de significancia y una región de rechazo. 
4° Hacer la prueba estadística. 
5° Comparar y concluir.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 83 
Punto 1 
El paso uno se define en el enunciado del problema. Para que sea verifica-da 
HI, el proceso a seguir es contradecir a H0, es decir, hay que contradecir 
que la media aritmética es igual o menor a 519. 
Entonces las dos hipótesis se representan así: 
H1: X > 519 
H0: X < 519 
Con lo anterior, lo que se está diciendo es que, si encontramos que el 
promedio de producción por fanegada es de 519 arrobas o menos, tendre-mos 
que concluir que nuestra hipótesis inicial H1, tendrá que ser modificada y 
por lo tanto, la nueva semilla, por lo menos en cuanto a su productividad, no 
es competitiva con las tradicionalmente utilizadas. 
Punto 2 
Una vez aclaradas las suposiciones del punto 1, acerca de H1 y H0, por 
medio de un razonamiento matemático podemos obtener la distribución de 
muestreo, o sea, la distribución de todos los posibles valores que una estadís-tica 
puede tener, con base en un muestreo probabilístico de un universo. 
Esta distribución nos dice, entonces, qué probabilidad hay de obtener cada 
uno de los resultados. 
Dependiendo del tamaño de las muestras, las distribuciones de muestreo 
tienden a tomar una distribución normal y por ello no es necesario calcularlas. 
Un teorema importante, que es una aplicación de la distribución normal, 
conocido como el teorema del Límite Central, dice que si en una población 
de tamaño N, con una media de m y una varianza de S2 se obtienen mues-tras 
al azar, la distribución de las medias de las muestras seleccionadas 
será normal -y más lo será en la medida en que se incremento el número de 
muestras seleccionadas- y tendrá una media de Y y varianza S2/N. 
El teorema garantiza que la media de una muestra puede estar muy cer-cana 
al de la población, en la medida en que tenga un tamaño n grande, ya 
que la varianza de la distribución de las medias muestrales S2/N, se hace 
más pequeña en la medida en que aumenta el tamaño n. 
La desviación estándar de la distribución de las medias de la muestra se 
denomina como el error estándar: S/ /N
84 SERIE: APRENDER A INVESTIGAR 
Punto 3 
A partir de la información obtenida, el investigador puede escoger resulta-dos 
que permitan aceptar o rechazar sus supuestos. Posteriormente, los re-sultados 
identificados para rechazar la suposición se llaman de región crítica, 
dividiendo así los resultados en los que sirven para rechazar y los que sirven 
para aceptar la hipótesis nula, sabiendo que estos sectores están relaciona-dos 
con errores de tipo a y b. 
Una vez aclaradas la H1 y H0, obtenemos aleatoriamente una muestra de 
la producción por fanegada de la semilla probada en la región. 
Calculamos la media aritmética y la desviación estándar de los datos de la 
muestra, información ésta que nos permite hacer la prueba estadística. 
Si calculamos x, sabemos que la distribución de muestreo de x, supo-niendo 
que H0 es cierto, es bastante aproximada a una distribución normal 
con un m = 519. 
Valores de x, que contradicen H0 y por lo tanto validan a H1, serán aque-llos 
que se encuentran en la región de la cola derecha de la distribución, 
como lo señala la figura 11. Estos valores contradictorios generan la re-gión 
de rechazo, es decir, si el valor observado de x cae en la región de 
rechazo, descartamos H0 y aprobamos H1. Observemos que se verifica H1 
contradiciendo H0. Por lo tanto si x cae en la región de aceptación de la 
figura 11, aceptamos H0 y no podemos verificar H1. Esta es la etapa de 
comparación con la región de rechazo. 
Gráfica 11. Suponiendo que H0 es verdadera, los valores 
contradictorios de X están en la cola superior.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 85 
Hay posibilidad de cometer dos tipos de errores al probar la hipótesis. 
Podemos, como en cualquier proceso de decisión entre dos escogencias, 
cometer el error de rechazar a H0 cuando en realidad es verdadera; error 
tipo l ó a; o podemos aceptar H0 cuando en realidad es falsa; error tipo ll ó b. 
Y aunque es conveniente determinar la región de aceptación y de rechazo, 
minimizando tanto el error tipo a como el error tipo b, esto no es imposible 
porque están inversamente relacionadas, es decir, para una muestra de 
tamaño h, cuando se cambia la región de rechazo para incrementar el error 
a, el error b disminuye y viceversa. 
Para resolver este problema, la comunidad de científicos ha decidido 
que se debe trabajar con la probabilidad de cometer error tipo l ó a y la espe-cificación 
del valor para el error tipo a determina la región de rechazo. 
¿Cómo se hace? Volviendo a nuestro ejemplo, sabemos que rechazamos 
H0 si obtenemos grandes valores de x. 
Si tenemos una muestra de 36 terrenos de una fanegada, como mues-tra 
del estudio y si la media aritmética es x = 573 y la desviación estándar 
es S = 124 la pregunta clave sobre la cual tenemos que tomar una deci-sión 
es si el x para toda la región es mayor que 519. 
Para concluir, decidimos el valor del error acon el cual queremos traba-jar; 
siempre sabemos que hay la posibilidad de cometer un error. Si en este 
caso queremos correr el riesgo de equivocarnos 1 de cada 40 decisiones, 
es decir de rechazar incorrectamente H0 entonces a = 1/40 = 0.025 
Como suponemos que H0 es verdadera, x está distribuida normalmen-te 
y tiene m = 51 9 y una desviación estándar de: 
S = 124 = 20.67 
Ö N Ö 36 
Punto 4 
Supongamos que en la figura 11 la región rayada sea la equivalente a la 
de un a = 0,025. Para calcular el punto de rechazo, se tiene que calcular el 
valor de Z, que tiene un área de 0.025 a su derecha. En la tabla de áreas 
bajo la curva normal vemos que el valor correspondiente es de 1.96, por lo 
que lo designaremos como el límite para la región de rechazo y si el valor 
observado de x es mayor que 1.96, desviaciones estándar arriba de m= 159, 
se rechaza la hipótesis nula.
86 SERIE: APRENDER A INVESTIGAR 
Cuando el valor de x es igual a 573 y el de S es igual a 124, el valor de 
Z normalizado es: 
Z = 
Punto 5 
x - m = 573 - 519 
= 54 = 2.61 
S 124 20.67 
Ö N Ö 36 
El último paso es comparar el valor obtenido con el dispuesto como 
rechazo, ya que x encontrado está a más de 1.96 unidades de desviación 
estándar arriba del m = 519, rechazamos H0 en favor de H1 y concluimos 
que la productividad de la nueva variedad de semilla es significativamente 
mayor que 519. 
5.2 Pruebas de significancia de muestras únicas o simples 
Cuando se quiere probar hipótesis a partir de una muestra única, se 
pueden utilizar varias pruebas de significancia de hipótesis. En estudios 
en ciencias naturales y ciencias sociales es muy frecuente este tipo de 
situaciones y las técnicas utilizadas más frecuentemente son la prueba Z, 
y la prueba t frecuentemente llamada t de Student. 
5.2.1 Prueba Z 
Normalmente se utiliza cuando se conoce el parámetro de la pobla-ción. 
Ilustremos su uso con el siguiente ejemplo hipotético: 
En una institución de enseñanza media se presenta una deserción que 
los directores consideran muy alta y pensaron que con un programa de 
consejería, podrían controlarla, con la hipótesis de que cuanta más guía 
personal, mayor sería la probabilidad de continuar exitosamente en la 
institución. Se generó una consejería y al cabo de un año se recopiló infor-mación 
sobre el número de veces que cada estudiante tuvo contacto for-mal 
con un consejero. 
La media aritmética para el total de estudiantes fue de 12.1 visitas al 
año, con una desviación estándar de 3.21. 
Meses después se hizo una muestra aleatoria simple de 40 estudian-tes 
desertores y a partir de los datos obtenidos con la recopilación de in-formación, 
se les calculó una media aritmética de 9.11. Al ver que era más 
baja que el resto de la población, los directores se hicieron la siguiente pre-
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 87 
gunta. ¿Es el número de visitas de los desertores significativamente más 
bajo que el de la población estudiantil? 
Supongamos la hipótesis de la investigación H1: x < m y la hipótesis 
nula H0: x > m, decidimos utilizar un nivel del 0.01 de significancia, la muestra, 
como vimos, es probabilística. 
Para probar la hipótesis calculamos el puntaje Z, normalizado como 
habíamos visto así: 
Z = 
x - m = 9.11 - 12.1 
= -2.99 
= -5.86 
S 3.21 3.21 
Ö N Ö 40 6.32 
El signo es indiferente al resultado, porque estamos trabajando con 
áreas, por lo tanto Z = 5.86. 
En la tabla de áreas bajo la curva normal, vemos que para que el x sea 
significativamente distinto de m = 12.1, se necesita una Z = 2.33 o mayor; 
como el Z obtenido es mayor, se rechaza H0 y se acepta H1, ya que: 
0.5000 - 0.0100 = 0.4900 
Entonces Z = 2.33 
Concluimos que los estudiantes desertores tienen un número de con-tactos 
significativamente inferior al resto de la población estudiantil. 
5.2.2 Distribución t de Student 
En los casos en que no se conoce el parámetro poblacional, depen-demos 
únicamente de las estadísticas de las muestras y utilizamos la 
Prueba t. 
Cuando n > 30 (muestra grande) la desviación estándar simbolizada por 
s, se le considera como un buen estimador de la desviación estándar 
poblacional, debido a que existe una mayor probabilidad de que los valores 
extremos que toma la variable, queden incluidos en el cálculo de la va-rianza 
para la muestra, tal como ocurre en el cálculo de la varianza pobla-cional. 
Siendo, s = S, la fórmula para obtener s será:
88 SERIE: APRENDER A INVESTIGAR 
s= S(x - x)2 
n 
^ 
Para n < 30 (muestra pequeña) la desviación estándar se simboliza 
por s, cuando no se ha efectuado ninguna corrección. Se considera que, 
s, por lo general, es mejor que S, debido a la menor probabilidad de que 
se incluyan los valores extremos de la variable. Por tanto, se hace nece-sario 
efectuar algunas correcciones en el cálculo: 
a. Cuando se da la desviación estándar sin corregir: 
s= S(x - x)2 n 
n n - 1 
^ 
b. Cuando se desea corregirla directamente 
s= S(x - x)2 
n - 1 
^ 
En la distribución de t Student, se considera que las curvas son simé-tricas, 
pero algo más achatadas y más abiertas en los extremos, los cua-les 
corresponden a regiones críticas. A medida en que el tamaño de la 
muestra se hace más grande, más se acerca a la normal. 
La función dada para este tipo de distribución es: 
Y = C 1+ 
t2 
v 
– v+1 
2 
donde v corresponde a los grados de libertad, número que depende de 
n; C es una constante que depende de v y es calculada en tal forma que el 
área bajo la curva sea igual a 1. 
Grados de libertad 
Corresponden al número máximo de variables que puedan asignarse 
libremente, antes de que el resto de las variables queden completamente 
determinadas.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 89 
Las variantes estadísticas para el cálculo de t son: 
a) En las distribuciones muestrales donde n < 30, la fórmula es: 
t = 
x - m 
s 
^ 
n-1 
también puede escribirse en la siguiente forma 
t = 
x - m 
s 
n 
donde s se obtiene corrigiéndola así: 
s= s   n 
ó s= 
S(x - x)2 
n - 1 n - 1 
^ 
b) En las distribuciones de medias muestrales se tiene: 
t = 
(X - Y)2 – (mx - my) 
siendo 
sx-y 
s2= S(X - X)2 + S(Y - Y)2 
n1+n2-2 
sx-y = s2 
+ 
s2 
n1 n2 
En la determinación de los puntos críticos, ti (inferior) y ts (superior), se 
utiliza la tabla t de Student. En primer lugar se fija el nivel de significación, 
por ejemplo, a = 0.05, luego se calculan los grados de libertad, siendo en 
distribuciones muestrales v = n - 1, en diferencias de medidas muestrales: 
v= ni + n2 - 2. Si la prueba es bilateral, se tomará el 5% para cada una de
90 SERIE: APRENDER A INVESTIGAR 
las regiones críticas y si es unilateral se tomará el doble del nivel de 
significancia asignado; en este caso, será 0. 1 0. 
Ejemplos: 
1. Una muestra de 25 observaciones tiene una media de 42.0 y una des-viación 
estándar de 8. Trabajando con un nivel de significancia del 1%. 
Existe razón para rechazar la hipótesis de que la media de la pobla-ción 
es de 46.0. 
a. H: mx K 
46 
1H0: m = 46 
b. a = 0.01 
Gráfica 12. 
c. s^ = 8 
s= 8 
25 
= 8(1.021) = 8.17 
25 - 1 
t = 
42 - 46 t = 
-4 
= -2.45 
8.17 1.63 
Ö 25 
V = 25-1; a = 0.01; corresponde a una t = 2.7969
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 91 
Como el valor de t = -2.45 queda en la región de aceptación, se acepta 
la hipótesis de que m = 46, es decir no existe razón para rechazar que la 
media de la población es 46. 
2. Un fabricante de cigarrillos analiza el tabaco de dos marcas diferen-tes, 
para determinar el contenido de nicotina y obtiene los siguientes 
resultados, en miligramos. 
Marca A: 24 26 25 22 23 
Marca B: 27 28 25 29 26 
¿Los resultados anteriores, señalan que existe una diferencia en el 
contenido medio de nicotina en ambas marcas? 
Solución: 
a) HI: mx my 
K 
HO: mx = my 
b) = 0.05 
c) sx-y = 1 
Siendo: 
s = S(X - X)2 + S(Y - Y)2 
n1+n2-2 
sx-y = s2 
+ 
s2 
n1 n2 
Tabla 11. Resultado de las dos marcas de cigarrillos 
para determinar el contenido de nicotina 
X y x-x (x - x)2 y-y (y - y)2 
24 27 0 0 0 0 
26 28 2 4 1 1 
25 25 1 1 -2 4 
22 29 -2 4 2 4 
23 26 -1 1 -1 1 
120 135 0 10 0 10
92 SERIE: APRENDER A INVESTIGAR 
d) 
X = 
s= 
s = 1.6 s2 = 2.5 
sx-y = 
t = 
120 
= 24 
5 
10 + 10 
= 
5 + 5 - 2 8 
2.5 
+ 
2.5 
5 5 
(24 - 27) - 0 
Y = 
20 
= 
1 1 
e) v = n1 + n2-2 
v = 5 + 5 - 2 
v = 8 
135 
5 
= 2.5 
1 = 1 
–3 
= 27 
Gráfica 13. 
= 
–3 
= 
f) Los resultados anteriores señalan que existe una diferencia significati-va 
en el contenido medio de nicotina en ambas marcas. Véase gráfica 
13. 
5.2.3 Distribución Chi Cuadrado: c2 
La distribución normal se utiliza en todos aquellos casos que ofrecen 
dos resultados posibles; cuando se presentan más de dos resultados posi-bles, 
debe aplicarse la prueba chi cuadrado que se simboliza así: c2. Un 
ejemplo típico de distribución lo constituye el lanzamiento de una moneda 
con posibilidades de que aparezca cara o sello. Uno de c2 consiste en el 
lanzamiento de un dado con seis caras posibles, numeradas del 1 al 6.
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 93 
El Chi cuadrado es la suma de las fracciones que tienen por numerador 
el cuadrado de las diferencias entre las frecuencias reales u observadas y 
las frecuencias esperadas o teóricas y por denominador la frecuencia es-perada. 
c2 
= S 
(n- n*)2 
i i 
n* 
i 
en donde ni frecuencia observada o real 
n*i frecuencia teórica o esperada 
Se puede observar en la fórmula, que mientras mayor sea la coinciden-cia 
entre las frecuencias observadas y las esperadas, menor será el valor 
de c2. Si c2 = 0 significa concordancia entre las frecuencias observadas y 
las esperadas. 
Ejemplo: 
Supongamos que se lanza un dado 60 veces. Se sabe que las fre-cuencias 
teóricas, para este caso son de 10 veces cada cara y las fre-cuencias 
reales son los resultados del lanzamiento. ¿La base de un nivel 
de significancia del 5%, permite suponer que el dado no es perfecto? 
Solución: 
El problema da las frecuencias reales nt, para cada cara, como se ve en 
la tabla 12. Las frecuencias esperadas se obtienen multiplicando la probabi-lidad 
de cada suceso por n (número de lanzamientos). Véase gráfica 14. 
Tabla 12. Frecuencia en el lanzamiento de un dado 60 veces 
Caras ni ni* ni - ni* (ni - ni*)2 
(ni - n*)2 
n* 
1 7 10 -3 9 0.9 
2 14 10 4 16 1.6 
3 8 10 -2 4 0.4 
4 5 10 -5 25 2.5 
5 16 10 6 36 3.6 
6 10 10 0 0 0 
S 60 60 0 - 9.0 
i 
i
94 SERIE: APRENDER A INVESTIGAR 
y así se obtienen las demás frecuencias teó-ricas. 
Se realiza la prueba teniendo en cuenta los siguientes pasos: 
1) HI: ni n*i 
HI: ni n*i 
2) a = 0.05 
3) 
4) V = n - 1 = 6 - 1 = 5... c2 
0.05 = 11.07 
Gráfica 14. 
En la tabla de distribución de c2, encontramos que 11.07 es el valor 
crítico. 
5) c2 < c2 
0.05 , es decir 9 < 11.07, por lo tanto se acepta la hipótesis de que 
la diferencia no es significativa. En otras palabras podemos afirmar que 
a un nivel del 5%, las diferencias que presentan las frecuencias reales, 
con relación a las frecuencias teóricas no nos da base para afirmar que 
el dado está cargado. 
n* 
i= np1= 60 
1 = 
60 =10 
6 6 (   ) 
K 
K 
c2 
= S 
(ni - n*i)2 
= 9.0 
n*i
MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 95 
PRUEBAS DE HIPÓTESIS - AUTOEVALUACIÓN N° 5 
1. ¿La hipótesis de investigación es exactamente lo mismo que la 
hipótesis nula? 
Sí _____ No _____ 
2. Si una hipótesis de investigación es que dos poblaciones tienen 
iguales medias aritméticas, ¿cuál es la hipótesis nula? 
a. Que en efecto tienen iguales medias aritméticas ____ 
b. Que las dos poblaciones tienen distintas medias aritméticas ____ 
c. Que las medias aritméticas pueden ser iguales o distintas ____ 
d. Para poder definirla hay que conocer la desviación estándar ____ 
3. ¿Una distribución de muestreo es lo mismo que una distribución 
de una muestra? 
Sí _____ No _____ 
¿Por qué? 
___________________________________________________ 
___________________________________________________ 
4. El nivel de significancia es: 
a. Lo mismo que el nivel de precisión _____ 
b. La región crítica de una curva normal _____ 
c. Una probabilidad _____ 
d. El error alfa a _____ 
e. La exactitud con que se predicen los parámetros _____ 
5. El valor crítico de un puntaje Z para una prueba de una cola, al 
nivel de significancia 0.05 es: ________
96 SERIE: APRENDER A INVESTIGAR 
6. ¿A partir de una muestra de obreros en una fábrica, se puede 
inferir a cerca de las características de esa fábrica? 
a. No _____ 
b. Sólo si uso una prueba Z _____ 
c. Sólo si uso una prueba t _____ 
d. Si se usa una prueba Z o prueba t _____ 
7. ¿La prueba t se prefiere a la prueba Z cuando no se conocen los 
parámetros del universo? 
Sí _____ No _____ 
8. Los salarios diarios de una industria están distribuidos normal-mente 
con una media de $132 y una desviación estándar de $25. 
Si una empresa de dicha industria, que cuenta con 40 obreros 
paga en promedio $122, puede acusarse a esta compañía de 
pagar salarios inferiores al nivel de significancia del 1%? 
Sí _____ No _____ 
Desarrollo: _________________________________________ 
___________________________________________________ 
___________________________________________________ 
9. Una hipótesis dice que el estudiante promedio de la universidad 
colombiana tiene un coeficiente de inteligencia mayor que el resto 
de la población. Escriba una hipótesis de investigación y una 
hipótesis nula, con un coeficiente de inteligencia que al estan-darizarse 
tiene una X = 100 
Hipótesis de investigación: ______________________________ 
Hipótesis nula: ________________________________________ 
10. Un fabricante de ciertas piezas de proyectiles sostiene que en 
condiciones normales de reparación, tienen una duración media 
m=320 horas. Probar esta afirmación frente a la alternativa 
m K 
320, si 16 piezas duran un promedio de 308 horas, con una 
desviación de 29 horas. Utilizar un nivel de significancia del 5%.
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4
Serie aprender a investigar 4

Más contenido relacionado

La actualidad más candente

Expo
ExpoExpo
Medidas, errores e incertidumbre
Medidas, errores e incertidumbreMedidas, errores e incertidumbre
Medidas, errores e incertidumbre
AWAKENMUSTAKRAKISH
 
Inferencia_Estadistica_libro.pdf
Inferencia_Estadistica_libro.pdfInferencia_Estadistica_libro.pdf
Inferencia_Estadistica_libro.pdf
Walter Alejandro Valera Rojas
 
Calculo de centroides
Calculo de centroidesCalculo de centroides
Calculo de centroides
Abraham Aj
 
MAS vertical. Periodo y frecuencia del MAS. Velocidad y aceleración
MAS vertical. Periodo y frecuencia del MAS. Velocidad y aceleraciónMAS vertical. Periodo y frecuencia del MAS. Velocidad y aceleración
MAS vertical. Periodo y frecuencia del MAS. Velocidad y aceleración
Yuri Milachay
 
Algebra lineal problemas_resueltos
Algebra lineal problemas_resueltosAlgebra lineal problemas_resueltos
Algebra lineal problemas_resueltos
mathbmc
 
Calculo vectorial
Calculo vectorialCalculo vectorial
Calculo vectorial
Arnol Chayña Sandoval
 
Cálculo de la moda y mediana para datos agrupados
Cálculo de la moda y mediana para datos agrupadosCálculo de la moda y mediana para datos agrupados
Cálculo de la moda y mediana para datos agrupados
Carlos Andrés Hernández Doria
 
Funciones variable compleja
Funciones variable complejaFunciones variable compleja
Funciones variable compleja
Orlando Mariaca
 
sistemas dinamicos lineales oscar duarte
sistemas dinamicos lineales oscar duartesistemas dinamicos lineales oscar duarte
sistemas dinamicos lineales oscar duarte
vlado1884
 
Desarrollos en serie de Taylor
Desarrollos en serie de TaylorDesarrollos en serie de Taylor
Desarrollos en serie de Taylor
Kike Prieto
 
EscobarPaul_ProyectoGrupal_Fisica.pdf
EscobarPaul_ProyectoGrupal_Fisica.pdfEscobarPaul_ProyectoGrupal_Fisica.pdf
EscobarPaul_ProyectoGrupal_Fisica.pdf
JOSEMANUELMEGOCHAVEZ
 
C E09 S07 D C
C E09  S07  D CC E09  S07  D C
C E09 S07 D C
Tareas 911
 
Trayectorias ortogonales monografia
Trayectorias ortogonales monografiaTrayectorias ortogonales monografia
Trayectorias ortogonales monografia
Centro de Multimedios
 
Funciones
FuncionesFunciones
Funciones
Iva C
 
tipos de campos vectoriales y los mas comunes en electricidad
tipos de campos vectoriales y los mas comunes en electricidadtipos de campos vectoriales y los mas comunes en electricidad
tipos de campos vectoriales y los mas comunes en electricidad
20_masambriento
 
Cinetica del solido pdf
Cinetica del solido pdfCinetica del solido pdf
Cinetica del solido pdf
Franco Diaz Vasquez
 
Solucionario estática beer 9 ed
Solucionario estática beer   9 edSolucionario estática beer   9 ed
Solucionario estática beer 9 ed
Ñathy García Pinto
 
Fundamentos de la Ciencia e Ingenieria de Materiales - CAPITULO 2.pdf
Fundamentos de la Ciencia e Ingenieria de Materiales - CAPITULO 2.pdfFundamentos de la Ciencia e Ingenieria de Materiales - CAPITULO 2.pdf
Fundamentos de la Ciencia e Ingenieria de Materiales - CAPITULO 2.pdf
MarcosAsensi1
 
Solucionario de dennis g zill ecuaciones diferenciales
Solucionario de dennis g zill   ecuaciones diferencialesSolucionario de dennis g zill   ecuaciones diferenciales
Solucionario de dennis g zill ecuaciones diferenciales
MateoLeonidez
 

La actualidad más candente (20)

Expo
ExpoExpo
Expo
 
Medidas, errores e incertidumbre
Medidas, errores e incertidumbreMedidas, errores e incertidumbre
Medidas, errores e incertidumbre
 
Inferencia_Estadistica_libro.pdf
Inferencia_Estadistica_libro.pdfInferencia_Estadistica_libro.pdf
Inferencia_Estadistica_libro.pdf
 
Calculo de centroides
Calculo de centroidesCalculo de centroides
Calculo de centroides
 
MAS vertical. Periodo y frecuencia del MAS. Velocidad y aceleración
MAS vertical. Periodo y frecuencia del MAS. Velocidad y aceleraciónMAS vertical. Periodo y frecuencia del MAS. Velocidad y aceleración
MAS vertical. Periodo y frecuencia del MAS. Velocidad y aceleración
 
Algebra lineal problemas_resueltos
Algebra lineal problemas_resueltosAlgebra lineal problemas_resueltos
Algebra lineal problemas_resueltos
 
Calculo vectorial
Calculo vectorialCalculo vectorial
Calculo vectorial
 
Cálculo de la moda y mediana para datos agrupados
Cálculo de la moda y mediana para datos agrupadosCálculo de la moda y mediana para datos agrupados
Cálculo de la moda y mediana para datos agrupados
 
Funciones variable compleja
Funciones variable complejaFunciones variable compleja
Funciones variable compleja
 
sistemas dinamicos lineales oscar duarte
sistemas dinamicos lineales oscar duartesistemas dinamicos lineales oscar duarte
sistemas dinamicos lineales oscar duarte
 
Desarrollos en serie de Taylor
Desarrollos en serie de TaylorDesarrollos en serie de Taylor
Desarrollos en serie de Taylor
 
EscobarPaul_ProyectoGrupal_Fisica.pdf
EscobarPaul_ProyectoGrupal_Fisica.pdfEscobarPaul_ProyectoGrupal_Fisica.pdf
EscobarPaul_ProyectoGrupal_Fisica.pdf
 
C E09 S07 D C
C E09  S07  D CC E09  S07  D C
C E09 S07 D C
 
Trayectorias ortogonales monografia
Trayectorias ortogonales monografiaTrayectorias ortogonales monografia
Trayectorias ortogonales monografia
 
Funciones
FuncionesFunciones
Funciones
 
tipos de campos vectoriales y los mas comunes en electricidad
tipos de campos vectoriales y los mas comunes en electricidadtipos de campos vectoriales y los mas comunes en electricidad
tipos de campos vectoriales y los mas comunes en electricidad
 
Cinetica del solido pdf
Cinetica del solido pdfCinetica del solido pdf
Cinetica del solido pdf
 
Solucionario estática beer 9 ed
Solucionario estática beer   9 edSolucionario estática beer   9 ed
Solucionario estática beer 9 ed
 
Fundamentos de la Ciencia e Ingenieria de Materiales - CAPITULO 2.pdf
Fundamentos de la Ciencia e Ingenieria de Materiales - CAPITULO 2.pdfFundamentos de la Ciencia e Ingenieria de Materiales - CAPITULO 2.pdf
Fundamentos de la Ciencia e Ingenieria de Materiales - CAPITULO 2.pdf
 
Solucionario de dennis g zill ecuaciones diferenciales
Solucionario de dennis g zill   ecuaciones diferencialesSolucionario de dennis g zill   ecuaciones diferenciales
Solucionario de dennis g zill ecuaciones diferenciales
 

Destacado

Ejercicios y problemas resueltos de estadística ii
Ejercicios y problemas resueltos de estadística iiEjercicios y problemas resueltos de estadística ii
Ejercicios y problemas resueltos de estadística ii
Eliza Yanayaco Paucar
 
Social Media Marketing -Kundenfindung und Kundenbegeisterung im Web 3.0
Social Media Marketing -Kundenfindung und Kundenbegeisterung im Web 3.0 Social Media Marketing -Kundenfindung und Kundenbegeisterung im Web 3.0
Social Media Marketing -Kundenfindung und Kundenbegeisterung im Web 3.0
Stefan Zimmermann
 
Lgbt professores
Lgbt   professoresLgbt   professores
Lgbt professores
Licínia Simões
 
Wir kehren gruendlich_faltblatt_ippnw
Wir kehren gruendlich_faltblatt_ippnwWir kehren gruendlich_faltblatt_ippnw
Wir kehren gruendlich_faltblatt_ippnwmetropolsolar
 
agenturexcellence-Termine 28. Durchgang
agenturexcellence-Termine 28. Durchgangagenturexcellence-Termine 28. Durchgang
agenturexcellence-Termine 28. Durchgang
Meike Sahlmann
 
Facebook Deals - Informationen für Unternehmen
Facebook Deals - Informationen für UnternehmenFacebook Deals - Informationen für Unternehmen
Facebook Deals - Informationen für UnternehmenNorman Kaulfuß
 
Lincoln discurso gettysburg_1863_ingl_es_y_castellano_
Lincoln discurso gettysburg_1863_ingl_es_y_castellano_Lincoln discurso gettysburg_1863_ingl_es_y_castellano_
Lincoln discurso gettysburg_1863_ingl_es_y_castellano_
Maki65
 
Con la cabeza en otra parte
Con la cabeza en otra parteCon la cabeza en otra parte
Con la cabeza en otra parte
Emilio Armando Acosta
 
MATERIAL DE REPASO 4° GRADO (ENERO FEBRERO)
MATERIAL DE REPASO 4° GRADO (ENERO FEBRERO)MATERIAL DE REPASO 4° GRADO (ENERO FEBRERO)
MATERIAL DE REPASO 4° GRADO (ENERO FEBRERO)
Emilio Armando Acosta
 
El equilibrio de lo imposible
El equilibrio de lo imposibleEl equilibrio de lo imposible
El equilibrio de lo imposible
proyecto_comenius
 
Die richtigen Texte für SEA und SEO
Die richtigen Texte für SEA und SEODie richtigen Texte für SEA und SEO
Die richtigen Texte für SEA und SEO
Eric Kubitz
 
El paraiso de Sachsen (Deutchland)
El paraiso de Sachsen (Deutchland)El paraiso de Sachsen (Deutchland)
El paraiso de Sachsen (Deutchland)
marmopi
 
Propuesta
PropuestaPropuesta
Propuesta
JCASTINI
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
Rubén Darío Pelegrina
 
Seminario Internacional de Gestión Cultural y Políticas Culturales. La constr...
Seminario Internacional de Gestión Cultural y Políticas Culturales. La constr...Seminario Internacional de Gestión Cultural y Políticas Culturales. La constr...
Seminario Internacional de Gestión Cultural y Políticas Culturales. La constr...
★Ursula Elisabet Rucker
 
Binder1
Binder1Binder1
Primer indicador de desempeño III periodo
Primer indicador de desempeño III periodoPrimer indicador de desempeño III periodo
Primer indicador de desempeño III periodo
MarquezEspinosa
 
Social Media als Chance für den Geschäftserfolg
Social Media als Chance für den GeschäftserfolgSocial Media als Chance für den Geschäftserfolg
Social Media als Chance für den Geschäftserfolg
Herbert Wagger
 
Ponencia Jornada técnica “Proyectos europeos en eficiencia energética en edif...
Ponencia Jornada técnica “Proyectos europeos en eficiencia energética en edif...Ponencia Jornada técnica “Proyectos europeos en eficiencia energética en edif...
Ponencia Jornada técnica “Proyectos europeos en eficiencia energética en edif...
FAEN
 

Destacado (20)

Ejercicios y problemas resueltos de estadística ii
Ejercicios y problemas resueltos de estadística iiEjercicios y problemas resueltos de estadística ii
Ejercicios y problemas resueltos de estadística ii
 
Social Media Marketing -Kundenfindung und Kundenbegeisterung im Web 3.0
Social Media Marketing -Kundenfindung und Kundenbegeisterung im Web 3.0 Social Media Marketing -Kundenfindung und Kundenbegeisterung im Web 3.0
Social Media Marketing -Kundenfindung und Kundenbegeisterung im Web 3.0
 
Lgbt professores
Lgbt   professoresLgbt   professores
Lgbt professores
 
Seminartermine
SeminartermineSeminartermine
Seminartermine
 
Wir kehren gruendlich_faltblatt_ippnw
Wir kehren gruendlich_faltblatt_ippnwWir kehren gruendlich_faltblatt_ippnw
Wir kehren gruendlich_faltblatt_ippnw
 
agenturexcellence-Termine 28. Durchgang
agenturexcellence-Termine 28. Durchgangagenturexcellence-Termine 28. Durchgang
agenturexcellence-Termine 28. Durchgang
 
Facebook Deals - Informationen für Unternehmen
Facebook Deals - Informationen für UnternehmenFacebook Deals - Informationen für Unternehmen
Facebook Deals - Informationen für Unternehmen
 
Lincoln discurso gettysburg_1863_ingl_es_y_castellano_
Lincoln discurso gettysburg_1863_ingl_es_y_castellano_Lincoln discurso gettysburg_1863_ingl_es_y_castellano_
Lincoln discurso gettysburg_1863_ingl_es_y_castellano_
 
Con la cabeza en otra parte
Con la cabeza en otra parteCon la cabeza en otra parte
Con la cabeza en otra parte
 
MATERIAL DE REPASO 4° GRADO (ENERO FEBRERO)
MATERIAL DE REPASO 4° GRADO (ENERO FEBRERO)MATERIAL DE REPASO 4° GRADO (ENERO FEBRERO)
MATERIAL DE REPASO 4° GRADO (ENERO FEBRERO)
 
El equilibrio de lo imposible
El equilibrio de lo imposibleEl equilibrio de lo imposible
El equilibrio de lo imposible
 
Die richtigen Texte für SEA und SEO
Die richtigen Texte für SEA und SEODie richtigen Texte für SEA und SEO
Die richtigen Texte für SEA und SEO
 
El paraiso de Sachsen (Deutchland)
El paraiso de Sachsen (Deutchland)El paraiso de Sachsen (Deutchland)
El paraiso de Sachsen (Deutchland)
 
Propuesta
PropuestaPropuesta
Propuesta
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
Seminario Internacional de Gestión Cultural y Políticas Culturales. La constr...
Seminario Internacional de Gestión Cultural y Políticas Culturales. La constr...Seminario Internacional de Gestión Cultural y Políticas Culturales. La constr...
Seminario Internacional de Gestión Cultural y Políticas Culturales. La constr...
 
Binder1
Binder1Binder1
Binder1
 
Primer indicador de desempeño III periodo
Primer indicador de desempeño III periodoPrimer indicador de desempeño III periodo
Primer indicador de desempeño III periodo
 
Social Media als Chance für den Geschäftserfolg
Social Media als Chance für den GeschäftserfolgSocial Media als Chance für den Geschäftserfolg
Social Media als Chance für den Geschäftserfolg
 
Ponencia Jornada técnica “Proyectos europeos en eficiencia energética en edif...
Ponencia Jornada técnica “Proyectos europeos en eficiencia energética en edif...Ponencia Jornada técnica “Proyectos europeos en eficiencia energética en edif...
Ponencia Jornada técnica “Proyectos europeos en eficiencia energética en edif...
 

Similar a Serie aprender a investigar 4

Serie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_informaciónSerie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
SistemadeEstudiosMed
 
Aa i modulo 4
Aa i modulo 4Aa i modulo 4
Aa i modulo 4
Francisco Javier León
 
EstadisticaIngenieros.pdf
EstadisticaIngenieros.pdfEstadisticaIngenieros.pdf
EstadisticaIngenieros.pdf
MizaelwilmerAlbaGarc
 
Metodos
MetodosMetodos
Metodos
tototl
 
Graficaci ón
Graficaci ónGraficaci ón
Graficaci ón
Holger Coronel
 
Apunts dintel ligencia_artificial
Apunts dintel ligencia_artificialApunts dintel ligencia_artificial
Apunts dintel ligencia_artificial
Andreu Garcia
 
Peña - Analisis de datos multivariantes
Peña - Analisis de datos multivariantesPeña - Analisis de datos multivariantes
Peña - Analisis de datos multivariantes
Robert_Hooke
 
Daniel peña análisis de datos multivariantes
Daniel peña   análisis de datos multivariantesDaniel peña   análisis de datos multivariantes
Daniel peña análisis de datos multivariantes
fojeda89
 
Serie aprender a investigar 3 ICFES
Serie aprender a investigar 3 ICFESSerie aprender a investigar 3 ICFES
Serie aprender a investigar 3 ICFES
JCASTINI
 
Aa i modulo 3
Aa i modulo 3Aa i modulo 3
Aa i modulo 3
Francisco Javier León
 
Libro recolectar informacion
Libro  recolectar informacionLibro  recolectar informacion
Libro recolectar informacion
mariajulianita
 
Serie aprender a_investigar,_módulo_3_recolección_de_la_información
Serie aprender a_investigar,_módulo_3_recolección_de_la_informaciónSerie aprender a_investigar,_módulo_3_recolección_de_la_información
Serie aprender a_investigar,_módulo_3_recolección_de_la_información
SistemadeEstudiosMed
 
Inferencia estadística y análisis de datos
Inferencia estadística y análisis de datosInferencia estadística y análisis de datos
Inferencia estadística y análisis de datos
Unidad de Emprendimiento ambulante
 
Hefesto v2.1
Hefesto v2.1Hefesto v2.1
Algoritmos programacion-python
Algoritmos programacion-pythonAlgoritmos programacion-python
Algoritmos programacion-python
Maria Jóse Vidal Morant
 
Algoritmos y programacion_i_-_con_lengua
Algoritmos y programacion_i_-_con_lenguaAlgoritmos y programacion_i_-_con_lengua
Algoritmos y programacion_i_-_con_lengua
Darío Herrera
 
Aprender a investigar icfes módulo 4 análisis de la información
Aprender a investigar icfes módulo 4 análisis de la informaciónAprender a investigar icfes módulo 4 análisis de la información
Aprender a investigar icfes módulo 4 análisis de la información
Manuel Bedoya D
 
M 4 Análisis de la información
M 4 Análisis de la informaciónM 4 Análisis de la información
M 4 Análisis de la información
Skepper63
 
Aprender a investigar_modulo4
Aprender a investigar_modulo4Aprender a investigar_modulo4
Aprender a investigar_modulo4
Miguel Rebilla
 
Probabilidad y estadistica elementales
Probabilidad y estadistica elementalesProbabilidad y estadistica elementales
Probabilidad y estadistica elementales
Paul Alexander
 

Similar a Serie aprender a investigar 4 (20)

Serie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_informaciónSerie aprender a_investigar,_módulo_4_análisis_de_la_información
Serie aprender a_investigar,_módulo_4_análisis_de_la_información
 
Aa i modulo 4
Aa i modulo 4Aa i modulo 4
Aa i modulo 4
 
EstadisticaIngenieros.pdf
EstadisticaIngenieros.pdfEstadisticaIngenieros.pdf
EstadisticaIngenieros.pdf
 
Metodos
MetodosMetodos
Metodos
 
Graficaci ón
Graficaci ónGraficaci ón
Graficaci ón
 
Apunts dintel ligencia_artificial
Apunts dintel ligencia_artificialApunts dintel ligencia_artificial
Apunts dintel ligencia_artificial
 
Peña - Analisis de datos multivariantes
Peña - Analisis de datos multivariantesPeña - Analisis de datos multivariantes
Peña - Analisis de datos multivariantes
 
Daniel peña análisis de datos multivariantes
Daniel peña   análisis de datos multivariantesDaniel peña   análisis de datos multivariantes
Daniel peña análisis de datos multivariantes
 
Serie aprender a investigar 3 ICFES
Serie aprender a investigar 3 ICFESSerie aprender a investigar 3 ICFES
Serie aprender a investigar 3 ICFES
 
Aa i modulo 3
Aa i modulo 3Aa i modulo 3
Aa i modulo 3
 
Libro recolectar informacion
Libro  recolectar informacionLibro  recolectar informacion
Libro recolectar informacion
 
Serie aprender a_investigar,_módulo_3_recolección_de_la_información
Serie aprender a_investigar,_módulo_3_recolección_de_la_informaciónSerie aprender a_investigar,_módulo_3_recolección_de_la_información
Serie aprender a_investigar,_módulo_3_recolección_de_la_información
 
Inferencia estadística y análisis de datos
Inferencia estadística y análisis de datosInferencia estadística y análisis de datos
Inferencia estadística y análisis de datos
 
Hefesto v2.1
Hefesto v2.1Hefesto v2.1
Hefesto v2.1
 
Algoritmos programacion-python
Algoritmos programacion-pythonAlgoritmos programacion-python
Algoritmos programacion-python
 
Algoritmos y programacion_i_-_con_lengua
Algoritmos y programacion_i_-_con_lenguaAlgoritmos y programacion_i_-_con_lengua
Algoritmos y programacion_i_-_con_lengua
 
Aprender a investigar icfes módulo 4 análisis de la información
Aprender a investigar icfes módulo 4 análisis de la informaciónAprender a investigar icfes módulo 4 análisis de la información
Aprender a investigar icfes módulo 4 análisis de la información
 
M 4 Análisis de la información
M 4 Análisis de la informaciónM 4 Análisis de la información
M 4 Análisis de la información
 
Aprender a investigar_modulo4
Aprender a investigar_modulo4Aprender a investigar_modulo4
Aprender a investigar_modulo4
 
Probabilidad y estadistica elementales
Probabilidad y estadistica elementalesProbabilidad y estadistica elementales
Probabilidad y estadistica elementales
 

Más de JCASTINI

4.1 secuencia didáctica “el lugar donde vivo”
4.1 secuencia didáctica “el lugar donde vivo”4.1 secuencia didáctica “el lugar donde vivo”
4.1 secuencia didáctica “el lugar donde vivo”
JCASTINI
 
Presentación msts ciclo i 2021
Presentación msts ciclo i 2021Presentación msts ciclo i 2021
Presentación msts ciclo i 2021
JCASTINI
 
Sts lenguaje
Sts lenguajeSts lenguaje
Sts lenguaje
JCASTINI
 
Anexo 1. presentación sts i ciclo de educación inicial proyectos de investiga...
Anexo 1. presentación sts i ciclo de educación inicial proyectos de investiga...Anexo 1. presentación sts i ciclo de educación inicial proyectos de investiga...
Anexo 1. presentación sts i ciclo de educación inicial proyectos de investiga...
JCASTINI
 
Anexo 0 taller as ciclo i 10032021 v4
Anexo 0 taller as ciclo i 10032021 v4Anexo 0 taller as ciclo i 10032021 v4
Anexo 0 taller as ciclo i 10032021 v4
JCASTINI
 
Presentación evaluacion ciclo i revisado marzo 1 2021
Presentación evaluacion ciclo i revisado marzo 1 2021Presentación evaluacion ciclo i revisado marzo 1 2021
Presentación evaluacion ciclo i revisado marzo 1 2021
JCASTINI
 
Ppt gestión del curriculo ciclo 1 24 febrero
Ppt gestión del curriculo ciclo 1 24 febreroPpt gestión del curriculo ciclo 1 24 febrero
Ppt gestión del curriculo ciclo 1 24 febrero
JCASTINI
 
Pruebas
PruebasPruebas
Pruebas
JCASTINI
 
Anexo 8 texto completo el oso que no lo era
Anexo 8  texto completo el oso que no lo eraAnexo 8  texto completo el oso que no lo era
Anexo 8 texto completo el oso que no lo era
JCASTINI
 
Jornada escolar barranquilla 2021
Jornada escolar  barranquilla 2021Jornada escolar  barranquilla 2021
Jornada escolar barranquilla 2021
JCASTINI
 
ESTÁNDARES DE CIENCIAS SOCIALES - CIENCIAS NATURALES
ESTÁNDARES DE CIENCIAS SOCIALES - CIENCIAS NATURALESESTÁNDARES DE CIENCIAS SOCIALES - CIENCIAS NATURALES
ESTÁNDARES DE CIENCIAS SOCIALES - CIENCIAS NATURALES
JCASTINI
 
Estandaresbasicosdecompetenciasenlenguajepdf 130416155122-phpapp02 (1)
Estandaresbasicosdecompetenciasenlenguajepdf 130416155122-phpapp02 (1)Estandaresbasicosdecompetenciasenlenguajepdf 130416155122-phpapp02 (1)
Estandaresbasicosdecompetenciasenlenguajepdf 130416155122-phpapp02 (1)
JCASTINI
 
Estándares matemáticas MEN 2003
Estándares matemáticas MEN 2003 Estándares matemáticas MEN 2003
Estándares matemáticas MEN 2003
JCASTINI
 
Anexo 6. flexibilidad curricular
Anexo 6. flexibilidad curricularAnexo 6. flexibilidad curricular
Anexo 6. flexibilidad curricular
JCASTINI
 
Resolucion 02910-de-2020-modificacion-calendario-academico-2020-signed
Resolucion 02910-de-2020-modificacion-calendario-academico-2020-signedResolucion 02910-de-2020-modificacion-calendario-academico-2020-signed
Resolucion 02910-de-2020-modificacion-calendario-academico-2020-signed
JCASTINI
 
Competencias tic taller
Competencias tic tallerCompetencias tic taller
Competencias tic taller
JCASTINI
 
LSTS LENGUAJE CICLO II
LSTS LENGUAJE CICLO IILSTS LENGUAJE CICLO II
LSTS LENGUAJE CICLO II
JCASTINI
 
MSTS Pensamiento métrico sistema de medida
MSTS Pensamiento métrico sistema de  medidaMSTS Pensamiento métrico sistema de  medida
MSTS Pensamiento métrico sistema de medida
JCASTINI
 
Orientaciones sobre el SIEE
Orientaciones sobre el SIEEOrientaciones sobre el SIEE
Orientaciones sobre el SIEE
JCASTINI
 
cuadernillo de prueba saber matemática 9
cuadernillo de prueba saber matemática 9cuadernillo de prueba saber matemática 9
cuadernillo de prueba saber matemática 9
JCASTINI
 

Más de JCASTINI (20)

4.1 secuencia didáctica “el lugar donde vivo”
4.1 secuencia didáctica “el lugar donde vivo”4.1 secuencia didáctica “el lugar donde vivo”
4.1 secuencia didáctica “el lugar donde vivo”
 
Presentación msts ciclo i 2021
Presentación msts ciclo i 2021Presentación msts ciclo i 2021
Presentación msts ciclo i 2021
 
Sts lenguaje
Sts lenguajeSts lenguaje
Sts lenguaje
 
Anexo 1. presentación sts i ciclo de educación inicial proyectos de investiga...
Anexo 1. presentación sts i ciclo de educación inicial proyectos de investiga...Anexo 1. presentación sts i ciclo de educación inicial proyectos de investiga...
Anexo 1. presentación sts i ciclo de educación inicial proyectos de investiga...
 
Anexo 0 taller as ciclo i 10032021 v4
Anexo 0 taller as ciclo i 10032021 v4Anexo 0 taller as ciclo i 10032021 v4
Anexo 0 taller as ciclo i 10032021 v4
 
Presentación evaluacion ciclo i revisado marzo 1 2021
Presentación evaluacion ciclo i revisado marzo 1 2021Presentación evaluacion ciclo i revisado marzo 1 2021
Presentación evaluacion ciclo i revisado marzo 1 2021
 
Ppt gestión del curriculo ciclo 1 24 febrero
Ppt gestión del curriculo ciclo 1 24 febreroPpt gestión del curriculo ciclo 1 24 febrero
Ppt gestión del curriculo ciclo 1 24 febrero
 
Pruebas
PruebasPruebas
Pruebas
 
Anexo 8 texto completo el oso que no lo era
Anexo 8  texto completo el oso que no lo eraAnexo 8  texto completo el oso que no lo era
Anexo 8 texto completo el oso que no lo era
 
Jornada escolar barranquilla 2021
Jornada escolar  barranquilla 2021Jornada escolar  barranquilla 2021
Jornada escolar barranquilla 2021
 
ESTÁNDARES DE CIENCIAS SOCIALES - CIENCIAS NATURALES
ESTÁNDARES DE CIENCIAS SOCIALES - CIENCIAS NATURALESESTÁNDARES DE CIENCIAS SOCIALES - CIENCIAS NATURALES
ESTÁNDARES DE CIENCIAS SOCIALES - CIENCIAS NATURALES
 
Estandaresbasicosdecompetenciasenlenguajepdf 130416155122-phpapp02 (1)
Estandaresbasicosdecompetenciasenlenguajepdf 130416155122-phpapp02 (1)Estandaresbasicosdecompetenciasenlenguajepdf 130416155122-phpapp02 (1)
Estandaresbasicosdecompetenciasenlenguajepdf 130416155122-phpapp02 (1)
 
Estándares matemáticas MEN 2003
Estándares matemáticas MEN 2003 Estándares matemáticas MEN 2003
Estándares matemáticas MEN 2003
 
Anexo 6. flexibilidad curricular
Anexo 6. flexibilidad curricularAnexo 6. flexibilidad curricular
Anexo 6. flexibilidad curricular
 
Resolucion 02910-de-2020-modificacion-calendario-academico-2020-signed
Resolucion 02910-de-2020-modificacion-calendario-academico-2020-signedResolucion 02910-de-2020-modificacion-calendario-academico-2020-signed
Resolucion 02910-de-2020-modificacion-calendario-academico-2020-signed
 
Competencias tic taller
Competencias tic tallerCompetencias tic taller
Competencias tic taller
 
LSTS LENGUAJE CICLO II
LSTS LENGUAJE CICLO IILSTS LENGUAJE CICLO II
LSTS LENGUAJE CICLO II
 
MSTS Pensamiento métrico sistema de medida
MSTS Pensamiento métrico sistema de  medidaMSTS Pensamiento métrico sistema de  medida
MSTS Pensamiento métrico sistema de medida
 
Orientaciones sobre el SIEE
Orientaciones sobre el SIEEOrientaciones sobre el SIEE
Orientaciones sobre el SIEE
 
cuadernillo de prueba saber matemática 9
cuadernillo de prueba saber matemática 9cuadernillo de prueba saber matemática 9
cuadernillo de prueba saber matemática 9
 

Último

tema 7. Los siglos XVI y XVII ( resumen)
tema 7. Los siglos XVI y XVII ( resumen)tema 7. Los siglos XVI y XVII ( resumen)
tema 7. Los siglos XVI y XVII ( resumen)
saradocente
 
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdfFEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
Jose Luis Jimenez Rodriguez
 
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBALMATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
Ana Fernandez
 
La necesidad de bienestar y el uso de la naturaleza.pdf
La necesidad de bienestar y el uso de la naturaleza.pdfLa necesidad de bienestar y el uso de la naturaleza.pdf
La necesidad de bienestar y el uso de la naturaleza.pdf
JonathanCovena1
 
Presentación simple corporativa degradado en violeta blanco.pdf
Presentación simple corporativa degradado en violeta blanco.pdfPresentación simple corporativa degradado en violeta blanco.pdf
Presentación simple corporativa degradado en violeta blanco.pdf
eleandroth
 
Presentación de la historia de PowerPoint y sus características más relevantes.
Presentación de la historia de PowerPoint y sus características más relevantes.Presentación de la historia de PowerPoint y sus características más relevantes.
Presentación de la historia de PowerPoint y sus características más relevantes.
genesiscabezas469
 
Power Point: El conflicto inminente (Bosquejo)
Power Point: El conflicto inminente (Bosquejo)Power Point: El conflicto inminente (Bosquejo)
Power Point: El conflicto inminente (Bosquejo)
https://gramadal.wordpress.com/
 
ACERTIJO DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARÍS. Por JAVI...
ACERTIJO DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARÍS. Por JAVI...ACERTIJO DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARÍS. Por JAVI...
ACERTIJO DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARÍS. Por JAVI...
JAVIER SOLIS NOYOLA
 
Manual de procedimiento para gráficos HC
Manual de procedimiento para gráficos HCManual de procedimiento para gráficos HC
Manual de procedimiento para gráficos HC
josseanlo1581
 
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdfDESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
JonathanCovena1
 
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZACORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
Sandra Mariela Ballón Aguedo
 
Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024
israelsouza67
 
Los Dominios y Reinos de los Seres Vivos
Los Dominios y Reinos de los Seres VivosLos Dominios y Reinos de los Seres Vivos
Los Dominios y Reinos de los Seres Vivos
karlafreire0608
 
CINE COMO RECURSO DIDÁCTICO para utilizar en TUTORÍA
CINE COMO RECURSO DIDÁCTICO para utilizar en TUTORÍACINE COMO RECURSO DIDÁCTICO para utilizar en TUTORÍA
CINE COMO RECURSO DIDÁCTICO para utilizar en TUTORÍA
Fernández Gorka
 
UrkuninaLab.pdfsadsadasddassadsadsadasdsad
UrkuninaLab.pdfsadsadasddassadsadsadasdsadUrkuninaLab.pdfsadsadasddassadsadsadasdsad
UrkuninaLab.pdfsadsadasddassadsadsadasdsad
JorgeVillota6
 
200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural
shirherrer
 
La vida de Martin Miguel de Güemes para niños de primaria
La vida de Martin Miguel de Güemes para niños de primariaLa vida de Martin Miguel de Güemes para niños de primaria
La vida de Martin Miguel de Güemes para niños de primaria
EricaCouly1
 
Módulo 1 de didactica de la lecto escritura
Módulo 1 de didactica de la lecto escrituraMódulo 1 de didactica de la lecto escritura
Módulo 1 de didactica de la lecto escritura
marilynfloresyomona1
 
Hablemos de ESI para estudiantes Cuadernillo
Hablemos de ESI para estudiantes CuadernilloHablemos de ESI para estudiantes Cuadernillo
Hablemos de ESI para estudiantes Cuadernillo
Mónica Sánchez
 
Prueba/test conoce tus heridas de la infancia
Prueba/test conoce tus heridas de la infanciaPrueba/test conoce tus heridas de la infancia
Prueba/test conoce tus heridas de la infancia
LudmilaOrtega3
 

Último (20)

tema 7. Los siglos XVI y XVII ( resumen)
tema 7. Los siglos XVI y XVII ( resumen)tema 7. Los siglos XVI y XVII ( resumen)
tema 7. Los siglos XVI y XVII ( resumen)
 
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdfFEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
FEEDBACK DE LA ESTRUCTURA CURRICULAR- 2024.pdf
 
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBALMATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL
 
La necesidad de bienestar y el uso de la naturaleza.pdf
La necesidad de bienestar y el uso de la naturaleza.pdfLa necesidad de bienestar y el uso de la naturaleza.pdf
La necesidad de bienestar y el uso de la naturaleza.pdf
 
Presentación simple corporativa degradado en violeta blanco.pdf
Presentación simple corporativa degradado en violeta blanco.pdfPresentación simple corporativa degradado en violeta blanco.pdf
Presentación simple corporativa degradado en violeta blanco.pdf
 
Presentación de la historia de PowerPoint y sus características más relevantes.
Presentación de la historia de PowerPoint y sus características más relevantes.Presentación de la historia de PowerPoint y sus características más relevantes.
Presentación de la historia de PowerPoint y sus características más relevantes.
 
Power Point: El conflicto inminente (Bosquejo)
Power Point: El conflicto inminente (Bosquejo)Power Point: El conflicto inminente (Bosquejo)
Power Point: El conflicto inminente (Bosquejo)
 
ACERTIJO DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARÍS. Por JAVI...
ACERTIJO DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARÍS. Por JAVI...ACERTIJO DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARÍS. Por JAVI...
ACERTIJO DESCIFRANDO CÓDIGO DEL CANDADO DE LA TORRE EIFFEL EN PARÍS. Por JAVI...
 
Manual de procedimiento para gráficos HC
Manual de procedimiento para gráficos HCManual de procedimiento para gráficos HC
Manual de procedimiento para gráficos HC
 
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdfDESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf
 
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZACORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
CORREOS SEGUNDO 2024 HONORIO DELGADO ESPINOZA
 
Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024Evaluacion del tercer trimestre del 2023-2024
Evaluacion del tercer trimestre del 2023-2024
 
Los Dominios y Reinos de los Seres Vivos
Los Dominios y Reinos de los Seres VivosLos Dominios y Reinos de los Seres Vivos
Los Dominios y Reinos de los Seres Vivos
 
CINE COMO RECURSO DIDÁCTICO para utilizar en TUTORÍA
CINE COMO RECURSO DIDÁCTICO para utilizar en TUTORÍACINE COMO RECURSO DIDÁCTICO para utilizar en TUTORÍA
CINE COMO RECURSO DIDÁCTICO para utilizar en TUTORÍA
 
UrkuninaLab.pdfsadsadasddassadsadsadasdsad
UrkuninaLab.pdfsadsadasddassadsadsadasdsadUrkuninaLab.pdfsadsadasddassadsadsadasdsad
UrkuninaLab.pdfsadsadasddassadsadsadasdsad
 
200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural200. Efemerides junio para trabajar en periodico mural
200. Efemerides junio para trabajar en periodico mural
 
La vida de Martin Miguel de Güemes para niños de primaria
La vida de Martin Miguel de Güemes para niños de primariaLa vida de Martin Miguel de Güemes para niños de primaria
La vida de Martin Miguel de Güemes para niños de primaria
 
Módulo 1 de didactica de la lecto escritura
Módulo 1 de didactica de la lecto escrituraMódulo 1 de didactica de la lecto escritura
Módulo 1 de didactica de la lecto escritura
 
Hablemos de ESI para estudiantes Cuadernillo
Hablemos de ESI para estudiantes CuadernilloHablemos de ESI para estudiantes Cuadernillo
Hablemos de ESI para estudiantes Cuadernillo
 
Prueba/test conoce tus heridas de la infancia
Prueba/test conoce tus heridas de la infanciaPrueba/test conoce tus heridas de la infancia
Prueba/test conoce tus heridas de la infancia
 

Serie aprender a investigar 4

  • 1.
  • 2. YOLANDA GALLARDO DE PARADA ADONAY MORENO GARZÓN Serie APRENDER A INVESTIGAR Módulo 4 ANÁLISIS DE LA INFORMACIÓN
  • 3. INSTITUTO COLOMBIANO PARA EL FOMENTO DE LA EDUCACIÓN SUPERIOR, ICFES Subdirección General Técnica y de Fomento PATRICIA MARTÍNEZ BARRIOS Directora General PATRICIA ASMAR AMADOR Subdirectora General Técnica y de Fomento MÓNICA IBARRA ROSERO Jefe División de Fomento (A) MARÍA JESÚS RESTREPO ALZATE Coordinadora del Proyecto Serie: APRENDER A INVESTIGAR ISBN: 958-9279-11-2 Obra completa ISBN: 958-9279-15-5 Módulo 4 1ª Edición: 1987 1ª Reimpresión: 1988 2ª Reimpresión: 1991 2ª Edición: 1995 Reimpresión: 1998 3ª Edición: (corregida y aumentada) 1999 © ICFES Calle 17 Nº 3-40 A.A. 6319 Teléfono: 2819311 - 2834027 - 2834067 - 2435129 Fax: 2845309 - 2834047 - 2845980 Santa Fe de Bogotá Diseño de carátula, diagramación e impresión: ARFO EDITORES LTDA. Carrera 15 Nº 53-86 Tels.: 2355968 - 2175794 Santa Fe de Bogotá, D.C.
  • 4. INSTITUTO COLOMBIANO PARA EL FOMENTO DE LA EDUCACIÓN SUPERIOR Serie: APRENDER A INVESTIGAR Módulos: 1. CIENCIA, TECNOLOGÍA, SOCIEDAD Y DESARROLLO 2. LA INVESTIGACIÓN 3. RECOLECCIÓN DE LA INFORMACIÓN 4. ANÁLISIS DE LA INFORMACIÓN 5. EL PROYECTO DE INVESTIGACIÓN La serie APRENDER A INVESTIGAR ha sido realizada por el ICFES. Para las ediciones anteriores se contó con el siguiente grupo de autores: CARLOS ESCALANTE A. HUMBERTO RODRÍGUEZ M. Profesor Universidad Nacional de Colombia Profesor Universidad Nacional de Colombia ALBERTO MAYOR M. EDUARDO VÉLEZ B. Profesor Universidad Nacional de Colombia Investigador Instituto SER de Investigaciones ÁNGEL FACUNDO D. Exjefe División de Fomento Investigativo ICFES El proyecto de actualización y revisión de la presente edición de la serie APRENDER A IN-VESTIGAR fue realizado por el ICFES, para lo cual se conformó el siguiente grupo de autores: Módulo 1: LUIS JAVIER JARAMILLO Módulos 3 y 4: ADONAY MORENO Universidad San Buenaventura - Cali YOLANDA GALLARDO DE PARADA Universidad de Pamplona (N.S.) Módulos 2 y 5: MARIO TAMAYO Y TAMAYO Universidad ICESI - Cali Instructivos para videos: LUZ ESTELLA URIBE VÉLEZ EAFIT - Medellín
  • 5. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 5 Contenido SERIE APRENDER A INVESTIGAR Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Propósito, población y objetivos de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Estructura de aprendizaje de la serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 La organización de la serie: los módulos, y material audiovisual . . . . . . . . . . . . . . . 17 Descripción sintética de los módulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 La asesoría de tutores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Módulo 4: ANÁLISIS DE LA INFORMACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1. NATURALEZA DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2. DIVISIÓN DE LA ESTADÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.1 Estadística descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.1.1 Descripción de datos, técnicas de representación gráfica . . . . . . . . . . 29 2.1.2 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.3 Elaboración de una tabla de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 31 2.1.4 Presentación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.1.4.1 Histogramas y polígonos de frecuencias . . . . . . . . . . . . . . . . 34 2.1.4.2 Gráficas de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.1.4.3 Gráficas lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.1.4.4 Gráficas circulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3. DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS . . . . . . . . . . . . . . . . . . . . . 41 3.1 Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.1.1 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.1.2 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.1.3 La media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2.1 El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2.2 Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.2.3 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2.4 Desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2.5 Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.3 Asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4 Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.5 Tablas de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
  • 6. 6 SERIE: APRENDER A INVESTIGAR 4. INTRODUCCIÓN A LAS PROBABILIDADES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.1 Probabilidades elementales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.3 Leyes de las probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.4 Análisis combinatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.4.1 Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.4.2 Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.4.3 Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.5 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.6 Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.7 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.8 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5. ESTADÍSTICA INFERENCIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.1 La prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2 Pruebas de significancia de muestras únicas o simples . . . . . . . . . . . . . . . . . 86 5.2.1 Prueba Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.2.2 Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2.3 Distribución Chi cuadrado: c2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6. REGRESIÓN Y CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.1 Introducción a la bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.2 Ajuste de una recta de regresión rectilínea simple . . . . . . . . . . . . . . . . . . . . . 101 6.3 Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.4 Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 7. ANÁLISIS DE LA VARIANZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 8. ESTUDIO DE FACTIBILIDAD DEL SOFTWARE ESTADÍSTICO . . . . . . . . . . . . . . 117 8.1 SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.2 SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 8.3 Requerimientos mínimos para la instalación del Software SAS . . . . . . . . . . . 120 8.4 Requerimientos mínimos para la instalación del Software SPSS . . . . . . . . . . 120 8.5 Manejador de Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 9. STATGRAPHICS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 9.1 Grupo I: Data handling and system utilities . . . . . . . . . . . . . . . . . . . . . . . . . . 125 9.2 Grupo II: Plotting and descriptive statistics . . . . . . . . . . . . . . . . . . . . . . . . . . 125 9.3 Grupo III: Anova and regression analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.4 Grupo IV: Time series procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.5 Grupo V: Advanced procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.6 Grupo VI: Mathematical procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 9.7 Requerimientos físicos para la instalación de Statgraphics . . . . . . . . . . . . . . 127 ANEXO: Instructivo para el uso del video 1. Uso didáctico del video . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 2. Videos: • La medición y las ciencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 • La curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 • La muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 BIBLIOGRAFÍA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
  • 7. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 25 Módulo 4 Análisis de la información El análisis de la información en el proceso investigativo, depende del enfoque y del tipo de investigación que se haya seleccionado, como tam-bién de los objetivos que se hayan planteado. La estadística se constituye en una herramienta fundamental para el análisis de la información. Sin embargo es necesario precisar y seleccio-nar el tratamiento estadístico dependiendo del enfoque cuantitativo o cua-litativo, de la escala de medición de las variables, de las hipótesis y de los objetivos. La estadística es fundamental para resolver problemas de descripción de datos, análisis de muestras, contrastación de hipótesis, medición de relaciones y predicciones. 1. NATURALEZA DE LA ESTADÍSTICA La estadística es una rama de la ciencia, encargada del diseño y apli-cación de métodos para recolectar, organizar, analizar y hacer deduccio-nes a partir de ellos. Aunque los orígenes de la estadística se remontan a los estudios de los juegos de azar del siglo XVIII, sólo en los últimos 60 años se han desa-
  • 8. 26 SERIE: APRENDER A INVESTIGAR rrollado las aplicaciones de los métodos estadísticos en casi todos los campos de la ciencia (social, comportamental y física). La mayor parte de las primeras aplicaciones de la estadística consistieron principalmente en la presentación de datos en forma de tablas y gráficas. Este campo se desarrolló con rapidez llegando a incluir gran variedad de métodos para ordenar, resumir y expresar en alguna forma las características de un con-junto de números. Hoy estas técnicas cubren lo que es sin duda la más visible aplicación de la estadística: la masa de información cuantitativa que se recopila y se publica todos los días en nuestra sociedad. Las tasas de natalidad, de mortalidad, los índices de precios, los promedios de go-les obtenidos en las fechas semanales de fútbol, son algunas de las mu-chas «estadísticas» que nos resultan familiares. Además de expresar las características de la información cuantifica-ba, estas medidas proporcionan una base importante para el análisis en casi todas las disciplinas académicas, especialmente en las ciencias so-ciales y del comportamiento, donde la conducta humana no puede gene-ralmente ser descrita con la precisión que se consigue en las ciencias exactas. Las medidas estadísticas de satisfacción, inteligencia, aptitud para el trabajo y capacidad de liderazgo, que sirven para ampliar nuestro conocimiento de las motivaciones y del rendimiento humano, son ejem-plos de lo dicho. Del mismo modo, los índices de precios, productividad, producto nacional bruto, empleo, reservas disponibles y exportaciones son elementos útiles tanto para el gerente como para el gobernante cuando se trata de trazar una política encaminada a lograr el desarrollo y la estabili-dad económica a largo plazo. La estadística proporciona una metodología para evaluar y juzgar las discrepancias entre la realidad y la teoría. Además de su papel instrumen-tal, el estudio de la estadística es importante para entender las posibilida-des y limitaciones de la investigación experimental, para diferenciar las conclusiones que pueden obtenerse de los datos de aquellas que carecen de base empírica y en definitiva para desarrollar un pensamiento crítico y antidogmático ante la realidad. En la actualidad con la ayuda de la informática y la tecnología el trata-miento estadístico de la información se hace más sencillo. Para el análisis de datos cuantitativos, tenemos en la actualidad progra-mas como el SAS, SPSS, MINITAB, SVSTAT, RESAMPLING, STATGRA-PHIS. Para el análisis de datos cualitativos existen programas como el QUALPRO, ETHNOGRAPH, NUDIST, AQUAD.
  • 9. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 27 2. DIVISIÓN DE LA ESTADÍSTICA La estadística se divide en dos grandes ramas, dependiendo del méto-do empleado para manejar la información y hacer que tenga sentido: esta-dística descriptiva y estadística inferencial. Población Muestra K Gráfica 1. Estadística descriptiva Estadística inferencial K 2.1 Estadística descriptiva. Permite describir resumir y analizar la información obtenida de la muestra. Para tal fin se recolecta la información, se tabula, se grafica y en mu-chos casos en vez de trabajar con todas las observaciones, es preferible tener unas medidas que resuman los datos. Básicamente hay tres tipos de medidas de resumen: medidas de ten-dencia central, medidas de dispersión o variabilidad de los datos y medi-das de ubicación. La gráfica 1 se interpreta así: con los datos de la muestra se aplica la estadística descriptiva; con los resultados de la estadística descriptiva se hacen análisis de estadística inferencial referidos a la población.
  • 10. 28 SERIE: APRENDER A INVESTIGAR MAPA CONCEPTUAL DE ESTADÍSTICA DESCRIPTIVA TABLAS DE FRECUENCIAS TABULACIÓN TABLAS DE CONTINGENCIA PUNTOS GRÁFICAS O LÍNEAS DIAGRAMAS BARRAS HISTOGRAMAS CÍRCULO CAJA MEDIA MEDIDAS DE MEDIANA TENDENCIA MODA CENTRAL MEDIA GEOMÉTRICA RANGO MEDIDAS MEDIDAS DE DESVIACIÓN ESTÁNDAR DE DISPERSIÓN VARIANZA RESUMEN ÍNDICE DE DISPERSIÓN CATEGÓRICO CUARTILES MEDIDAS DE QUINTILES UBICACIÓN DECILES PERCENTILES
  • 11. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 29 2.1.1 Descripción de datos, técnicas de representación gráfica El concepto de la descripción está asociada a la distribución de fre-cuencias, que consiste en el ordenamiento o clasificación de los valores observados en una variable, de acuerdo con su magnitud numérica. Per-mite al investigador identificar la forma como ciertos puntos o caracterís-ticas están distribuidos. La distribución de frecuencia se puede construir a partir de variables medidas a cualquier nivel, desde nominal hasta de razón. Podríamos suponer que queremos ver cuántos productores agrícolas en una vereda son grandes, medianos o pequeños productores. Entrevistamos a los productores de la vereda y les preguntamos la extensión de su explotación y la clasificamos de acuerdo con el tamaño (magnitud) en una de las tres categorías. Se construye la distribución de frecuencias que muestre cuántos pro-ductores son grandes, cuántos medianos y cuántos pequeños. El recuen-to será: Tabla 1 - Tipo de productor agrícola Tipo de productor Frecuencia Pequeño 7 Mediano 12 Grande 9 Total 28 En el cuadro sólo se ha agrupado el número de agricultores pertene-cientes a cada categoría. El número de agricultores se denomina obser-vaciones o frecuencia (f). Para el caso de variables medidas a nivel intervalo o de razón, pode-mos hacer exactamente el mismo ejercicio. Si se tiene, por ejemplo, la información acerca del número de cajas de madera que construyen al día unos carpinteros en un taller, podríamos clasificarlos por su productividad.
  • 12. 30 SERIE: APRENDER A INVESTIGAR Tabla 2 - Número de cajas construidas por 15 carpinteros N° de cajas Carpinteros construidas 1 11 2 10 3 8 4 12 5 12 6 10 7 7 8 8 9 10 10 11 11 10 12 9 13 9 14 10 15 11 A partir de esta información podemos aclarar aún más la naturaleza de la producción por carpintero y se podría entrar a comparar esta productivi-dad con la de otro tipo de taller o fábrica. En la tabla 3 introducimos un mayor significado y ordenamiento a la información que se está analizando. Tabla 3 - Número de cajas construidas por 15 carpinteros Nº de carpinteros Nº de cajas que construyen X F construidas Nº de cajas 7 I 1 8 II 2 9 II 2 10 5 11 III 3 12 II 2 Hasta ahora los ordenamientos que se han hecho son bastante simples, pero en la vida real muchas veces la información analizada es más compleja y la distribución de frecuencias debe ser construida a partir de un mayor número de puntajes.
  • 13. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 31 2.1.2 Distribuciones de frecuencias La distribución de frecuencias es un método para organizar y resumir datos. Bajo este método los datos que componen una serie, se clasifican y ordenan, indicándose el número de veces en que se repite cada valor. Los caracteres de los elementos de una población pueden ser: cualita-tivos y cuantitativos. Los datos cualitativos, denominados también atributos, son todos aque-llos fenómenos que pueden ser descritos cualitativamente, es decir me-diante palabras; son ejemplos de atributos: la clasificación de los alum-nos de una universidad por departamento de origen, clasificación de un grupo de personas por ocupación, por sexo, por cargo, etc. Los caracteres cuantitativos, denominados variables, son todos aque-llos fenómenos susceptibles de ser expresados cuantitativamente, es decir mediante números. Por ejemplo: peso, estatura, edad, número de hijos, salarios, etc. Las variables se dividen en: discretas y continuas, teniendo en cuenta que ésta clasificación tiene más valor teórico que práctico. Las variables discretas son aquellas que admiten solamente valores enteros, es decir no tienen valores intermedios; por ejemplo el número de hijos por familia, ya que no se puede decir que una familia tiene dos hijos y medio. Las variables continuas, son aquellas que admiten valores fraccionar-los, pudiéndose establecer intervalos. Por ejemplo, la estatura de una per-sona que mide un metro con setenta centímetros, que pesa sesenta kilos, una libra y cuatro onzas, etc. 2.1.3 Elaboración de una tabla de frecuencias Tomemos como ejemplo una muestra de 20 alumnos, determinando su peso en kilos; para facilitar el trabajo redondeamos las cifras. X1 = 74 X5 = 69 X9 = 47 X13 = 65 X17 = 76 X2 = 67 X6 = 61 X10 = 85 X14 = 88 X18 = 57 X3 = 94 X7 = 71 X11 = 82 X15 = 52 X19 = 72 X4 = 70 X8 = 79 X12 = 55 X16 = 58 X20 = 66
  • 14. 32 SERIE: APRENDER A INVESTIGAR El primer paso a seguir consiste en determinar el valor máximo y el mínimo. En el ejemplo tenemos: Xmáximo = 94; Xmínimo = 47 La diferencia entre el valor máximo y el mínimo se denomina recorrido o rango. 94 - 47 = 47 El rango, será entonces de 47. Introducimos dos nuevos símbolos que son: m = número de intervalos (o clase de la distribución) c = amplitud de intervalo (o de clase de la distribución) El valor de m, o sea, el número de intervalos se puede obtener me-diante la siguiente fórmula: m = 1 + 3.3 log n , donde n es el número de datos Es de anotar que la anterior fórmula es poco conocida, por consiguien-te, es poco usual. Sin embargo, se recomienda que el número de interva-los, hasta donde sea posible, no sea menor de 5 ni mayor de 16. Para el cálculo de amplitud del intervalo se puede aplicar la siguiente fórmula: Xmax. - Xmin. o sea rango C = C = m m En el caso de nuestro ejemplo, el número de intervalos será: m = 1 + 3.3 log2O de donde m = 1 + 3.3,x 1,30 m = 1 + 4,29 m = 5.29 @ 5 intervalos.
  • 15. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 33 La amplitud del intervalo de clase será: Rango R =47 Número de intervalos m = 5 C = R de donde C = 47 = 9.4 m 5 Redondeando y para mejor manejo de los datos, se puede considerar que la amplitud del intervalo sea de 9. La tabla de frecuencias nos quedará en la siguiente forma, Tabla 4 - Distribución de frecuencias del peso de 20 alumnos Peso Frecuencias (f) Frecuencia Relativa Fr 46 - 55 3 3/20 = 0.15 = 15% 56 - 65 4 4/20 = 0.20 = 20% 66 - 75 7 7/20 = 0.35 = 35% 76 - 85 4 4/20 = 0.20 = 20% 86 - 95 2 2/20 = 0.10 = 10% Total 20 20/20 = 1 = 100% Frecuencia relativa (Fr) Es su frecuencia dividida por el total de datos y se expresa general-mente como un porcentaje: f Fr = __ n 2.1.4 Presentación gráfica Aunque las tablas sean ya el resultado de una concentración de datos, pueden ser, sin embargo, demasiado amplias y complejas, de modo que pierden una buena parte de lo que debería ser su cualidad primordial, la claridad. Entonces, podemos recurrir a la presentación gráfica, para la mejor comprensión y análisis de los datos. En las variables discretas se hace la representación mediante diagramas de frecuencias; para ello, en el eje hori-
  • 16. 34 SERIE: APRENDER A INVESTIGAR zontal, se colocan los distintos valores de las frecuencias absolutas o rela-tivas. Si la representación se refiere a las frecuencias absolutas o relativas acumuladas se denomina: Diagrama de frecuencias acumuladas, colocán-dose los valores de la variable en el eje horizontal y las frecuencias Fr, en el vertical. 2.1.4.1 Histogramas y polígonos de frecuencias Una distribución de frecuencias, se puede describir por medio de histo-gramas de frecuencias, que son gráficos que representan la información contenida en una distribución de frecuencias. El ejemplo de la tabla 4, sobre el peso de los alumnos, se puede pre-sentar en un histograma que representa exactamente lo mismo. Gráfica 1. Peso en kilos de 20 alumnos de un colegio Otra manera de describir la distribución de la información obtenida, es por medio del polígono de frecuencias. Estos son gráficos en la forma de una serie de líneas rectas conecta-das entre sí y que unen puntos medios de intervalos a lo largo del eje horizontal. El caso del peso de los alumnos, puede servirnos para ilustrar la técnica de los polígonos de frecuencia. Para construirlo se siguen los mismos pa-sos que para construir un histograma, pero en lugar de construir los rectán-gulos a partir de los límites superior e inferior de los intervalos, se calcula el punto medio del mismo y se unen, por medio de una línea recta que se conecta a los puntos medios de los demás intervalos.
  • 17. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 35 Así por ejemplo en el gráfico 1 podemos trazar el polígono de frecuen-cias, uniendo los puntos medios del histograma de frecuencias. 2.1.4.2 Gráficas de barras La gráfica de barras es fácil de construir y su interpretación es de gran utilidad. Una gráfica diseñada para mostrar magnitudes absolu-tas deberá tener su inicio en cero y una escala de cantidades conti-nuas. Las gráficas de barras pueden construirse en forma vertical u horizontal. Las gráficas de barras pueden dividirse en tres tipos: a. Gráficas de barras con partes componentes. En esta gráfica cada ba-rra ha sido segmentada en dos partes componentes; así, por ejemplo, en la siguiente gráfica se tiene que la población de estudiantes de 100 semestre de la facultad X, de la Universidad Y, se distribuye según el sexo y la edad así: Distribución de los estudiantes de décimo semestre de la Facultad X, de la Universidad Y, por sexo y edad 0 10 2 0 3 0 4 0 N úm e ro d e E s tu d ia n te s 1 5 -1 9 2 0 -2 4 2 5 -2 9 3 0 -3 4 En la gráfica se muestra el número de estudiantes clasificados por sexo y edades, en cada barra se presentan los dos componentes, los hombres y las mujeres. b. Gráficas de barras agrupadas. En esta gráfica, se presentan los mis-mos datos de estudiantes, excepto que los componentes por sexo se muestran separadamente así: Edad h o m b re s m uje re s
  • 18. 36 SERIE: APRENDER A INVESTIGAR Distribución de los estudiantes de décimo semestre de la Facultad X, de la Universidad Y, según el sexo y la edad 0 5 1 0 1 5 2 0 2 5 3 0 1 5 - 1 9 2 0 - 2 4 2 5 - 2 9 3 0 - 3 4 Edad N ú m e r o d e E s t u d ia n t e s m u je re s h o m b r e s c. Gráficas de barras bidireccionales. Cuando se desea graficar cantida-des positivas y negativas, tales como pérdidas y ganancias en la pro-ducción de una empresa, por tipo de producto. Así, en la gráfica de producción de la empresa X, se tiene que las pérdidas y ganancias por tipo de producto son: Utilidad o pérdida en la producción de la Empresa X Estufas Calentadores de agua Secadores Enfriadores Planchas -40 -20 0 20 40 60 2.1.4.3 Gráficas lineales utilidad o pérdida Producción Cuando debe presentarse una serie que cubre un gran número de pe-ríodos de tiempo, los datos graficados por medio de barras se ven dema-siado acumulados; entonces, éstas pueden ser reemplazadas por una línea, ya que las líneas son más efectivas que las barras, cuando existen marcadas fluctuaciones en las series, o cuando deben presentarse varias series sobre la misma gráfica. Por ejemplo, el número de estudiantes de la facultad X, matriculados por sexo, en el período 1990-1998.
  • 19. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 37 Número de estudiantes de la Facultad X, matriculados por sexo, en el período 1990-1998 600 500 400 300 200 100 0 90 91 92 93 94 95 96 97 98 2.1.4.4 Gráficas circulares Años Las gráficas circulares, llamadas también de tipo pastel, se usan para mostrar los tamaños relativos de los componentes de un total. Son utiliza-dos, para indicar cosas tales como participación de cada facultad en el total de estudiantes matriculados de determinada universidad, en perío-dos diferentes. El proceso para realizar el diagrama consiste en una regla de tres. Para conocer el ángulo de cada sector se debe relacionar los 3600 que tiene una circunferencia con el tamaño de la muestra y con cada una de sus frecuencias absolutas, así: 360° n X F1 Por ejemplo, si la siguiente tabla representa el número de docentes de una universidad, clasificados por modalidad educativa. Modalidad Técnica 5 Tecnología 25 Universitaria 80 Post-grado 15 N = 125 El diagrama circular se construirá así: 360° 125 Donde 125 es el tamaño de la muestra y X 5 5 la frecuencia en la primera modalidad. Número de Estudiante Hombres Mujeres Total
  • 20. 38 SERIE: APRENDER A INVESTIGAR Luego X = 360° x 5 125 En el siguiente ejemplo, se muestra la distribución porcentual del nú-mero de estudiantes matriculados en 5 facultades de una universidad X, en los años de 1990 y 1998. DESCRIPCIÓN DE DATOS, TÉCNICA DE REPRESENTACIÓN GRÁFICA - AUTOEVALUACIÓN N° 1 Lea cuidadosamente cada uno de los siguientes enunciados y seña-le la respuesta correcta. 1. El propósito principal de la estadística descriptiva es: a) Representar los datos por medio de histogramas. b) Obtener la información necesaria para la investigación. c) Medir en escalas nominales, ordinales e intervalos. d) Conocer las características generales de una distribución de frecuencias. e) Todas las anteriores. 2. Una distribución de frecuencias sólo se puede construir a partir de variables medidas en escalas intervalos. Sí _______ No _______ a 15% b 18% c d 8% 36% c 13% d 27% e 15% b 14% a 31% e 23%
  • 21. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 39 ¿Por qué? _______________________________________________ _________________________________________________________ 3. Si clasificamos 220 municipios en grandes, medianos y peque-ños, de acuerdo con el número de habitantes, de forma tal que tenemos 49 grandes, 63 medianos y 108 pequeños, ¿cómo los representaría en un histograma de frecuencias como en un diagra-ma circular? 4. Para construir un histograma de frecuencias, primero es necesa-rio construir un polígono de frecuencias. Sí _______ No _______ 5. En un examen general de matemáticas los 30 alumnos de un cur-so obtuvieron las siguientes calificaciones: Calificación N° de alumnos 78 1 77 1 76 0 75 2 74 1 73 0 72 2 71 2 70 4 69 5 68 3 67 0 66 3 65 2 64 0 63 1 62 2 61 1 Represente la misma información en una distribución de frecuencias, basada en intervalos. Determine el rango, el número de intervalos y la amplitud de los intervalos. Represente los resultados por medio de un histograma y un polígono de frecuencias.
  • 22. 1. d 2. No 3. Gráfico 4. No 5. Rango = 17; número de intervalos = 6; amplitud de intervalo = 3 Calificaciones F Frecuencia Relativa % 61-63 4 13.3 64-66 5 16.7 67-69 8 26.7 70-72 8 26.7 73-75 3 10.0 76-78 30 100.0 RESPUESTAS A LA AUTOEVALUACIÓN N° 1 Graficar 40 SERIE: APRENDER A INVESTIGAR
  • 23. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 41 3. DESCRIPCIÓN DE DATOS - TÉCNICAS NUMÉRICAS La segunda técnica utilizada en la estadística descriptiva se basa en dos tipos de cálculos numéricos: Los de tendencia central y los de dis-persión. Las medidas de tendencia central se basan en que, en cualquier distri-bución de frecuencias, los valores tienden a concentrarse al rededor de un valor central de la distribución. Las de dispersión, por el contrario, se basan precisamente en la mane-ra en que los valores se distribuyen alrededor de esos valores centrales. Para entender la naturaleza de la distribución, tenemos que tratar de describir el centro de la distribución de las mediciones y la forma como éstas varían alrededor de ese centro. Podemos utilizar estas técnicas descriptivas, tanto para estudiar los parámetros de la población como las estadísticas de las muestras y en este último caso, a partir de ellas podemos estimar los correspondientes parámetros de la población. 3.1 Medidas de tendencia central A continuación describimos las técnicas de tendencia central: moda, mediana y media aritmética. 3.1.1 La moda La moda de una distribución se define como el valor que presenta la mayor frecuencia. Se usa con mediciones de escala nominal, ordinal, de intervalo o de razón. Es comúnmente utilizada como una medida de popularidad, que refle-ja la tendencia de una opinión. En algunas distribuciones sólo hay una moda, pero en otras puede haber dos o más modas. Si tomamos 1, 4, 4, 4, 2, 5, 5, 8, 3, 6, 5, vemos que tanto el cuatro como el cinco aparecen con más frecuencia y en tres ocasiones. Es decir, hay dos modas y la distribu-ción es bimodal. Cuando se trabaja con datos agrupados, la moda se refiere como el valor medio del intervalo que constituye la mayor frecuencia.
  • 24. 42 SERIE: APRENDER A INVESTIGAR Tabla 5. Puntajes obtenidos por 50 alumnos de un curso de física Puntajes Frecuencias 30 - 32 4 33 - 35 4 36 - 38 5 39 - 41 7 42 - 44 12 45 - 47 7 48 - 50 4 51 - 53 3 54 - 56 2 57 - 59 2 Total 50 En la tabla 5, presentamos la distribución obtenida al estudiar los puntajes obtenidos por 50 estudiantes como calificación en un curso de física. El intervalo que contiene el mayor número de casos, o mayor frecuen-cia es 42 - 44. Este intervalo contiene los puntajes 42, 43 y 44. El valor medio del intervalo es, por lo tanto, 43 y lo denominamos como la moda. 3.1.2 La mediana La mediana se define como la medida de tendencia central que divide a cualquier distribución en dos partes iguales. En la siguiente distribución: 7, 8, 8, 9, 12, 15, 18, 18, 20, 21, 23. La mediana es 15, porque se sitúa en el punto que divide la distribución en dos partes iguales. Hay el mismo número de casos antes y después del 15. La mediana se usa en variables medidas en escala ordinal, intervalo o de razón. Su mayor uso es cuando se tienen muchas observaciones y generalmente se utiliza en distribuciones de ingresos, edades, pesos. Cuando hay una distribución con un número par de casos, la mediana es el promedio de los dos valores medios. Así, en la siguiente distribución de notas: 78,95,86,73,52,90,89,84,76,92
  • 25. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 43 El valor de la mediana es 85, porque, primero al ordenar la distribución de menor a mayor así: 52,73,76,78,84,86,89,90,92,95 Siendo 10 el total de notas, las que aparecen en la posición quinta y sexta están en la mitad de la distribución, entonces la mediana será: 84 + 86 = 85 2 Cuando se tiene información agrupada, la mediana se define como el valor dentro del intervalo que divide la distribución en dos partes iguales. El símbolo utilizado es Me. En la tabla 6, tenemos una distribución cualquiera con 5 intervalos de tamaño 5 y con 30 observaciones. Tabla 6. Distribución de frecuencias de los pesos de 30 estudiantes Frecuencias Intervalos F acumuladas 30 - 34 4 4 35 - 39 7 11 40 - 44 8 19 45 - 49 6 25 50 - 54 5 30 Total 30 Los pasos a seguir para el cálculo de la mediana son: • Encuentro las frecuencias absolutas acumuladas. • Con base en las frecuencias acumuladas ubico el intervalo donde que-de la frecuencias correspondiente a la mitad del tamaño de la mues-tra, es decir: n 2 • Encuentro el valor del límite real inferior del intervalo donde está n 2 • Aplico la siguiente fórmula:
  • 26. 44 SERIE: APRENDER A INVESTIGAR n _ S Fa 2 Mediana = Li + C Fn 2 donde Li = Límite real inferior donde está ubicada n 2 SFa = Suma de las frecuencias anteriores a donde está ubicado n 2 C = Amplitud del intervalo. En el ejemplo anterior de los pesos de 30 estudiantes la mediana está dada por: n = 30 = 15 2 2 Li = 39.5 Corresponde al límite inferior donde está 15 como frecuencia acumulada. Corresponde a la frecuencia del intervalo donde está n 2 F n = 8 2 SFa = 11 Corresponde a la suma de las frecuencias antes de n 2 C = 5 Es la amplitud del intervalo. Luego: Mediana = 39.5 + Mediana = 42 (15 - 11) 8 3.1.3 La media aritmética x 5 Es la medida de tendencia central más conocida, es fácil de calcular, de gran estabilidad en el muestreo, sus fórmulas permiten tratamiento alge-braico.
  • 27. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 45 Además, presenta el inconveniente de ser muy sensible a los valores extremos, cuando éstos son demasiado bajos o demasiado altos. Se re-presenta así: X La media aritmética se define como la suma de todos los valores ob-servados dividido por el número de observaciones (n). X = S xi La fórmula para datos no agrupados es: Donde S-Xi corresponde a la sumatoria de todos los valores de la muestra. n La media aritmética de la siguiente distribución es: 1.1, 2, 1, 2.4, 3, 2, 4.5 X = 1.1 + 2 + 1 + 2.4 + 3 + 2 + 4.5 = 16.1 = 2.28 7 7 Para las distribuciones con datos agregados, existe una fórmula, aun-que un poco más complicada, es bastante fácil de aplicar. media = S fx n donde f corresponde a las frecuencias, y X al valor de cada marca de clase. Tabla 7. De valores de los pesos de los 30 estudiantes x f Intervalos Marca de clase Frecuencias fx 30-34 32 4 128 35-39 37 7 259 40-44 42 8 336 45-49 47 6 282 50-54 52 5 260 Total 30 1265 La marca de clase es el punto medio de cada intervalo. Para tal fin se suman los dos valores extremos y se divide entre dos. Por ejemplo, la marea de clase para el primer intervalo es:
  • 28. 46 SERIE: APRENDER A INVESTIGAR Por consiguiente al aplicar la fórmula la media aritmética es: La media aritmética tiene sus ventajas, sobre las otras medidas de tendencia central, en que: • Cada caso se incluye en el cálculo. • Es rígidamente calculada, es decir, sólo hay una para conjunto de datos. • Es importante para hacer inferencias, es decir sirve también para cal-cular parámetros de la población. La media aritmética sólo se puede calcular a valores numéricos, es decir que estén en escala de intervalos o de razón. 3.2 Medidas de dispersión Son aquellas que nos determinan cómo se agrupan o se dispersan los datos alrededor de un promedio. En este capítulo se estudiarán las medidas que se utilizan para deter-minar cuán bien representan los promedios a la distribución considerada. En el siguiente ejemplo se presentan las notas obtenidas por dos gru-pos de estudiantes: Grupo A Grupo B 80 97 80 95 75 70 83 72 82 73 81 96 82 80 75 72 79 71 7 71 795 797 X = 30 + 34 = 64 = 32 2 2 media = 1.265 = 42.17 30
  • 29. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 47 XA = 79.5 XB = 79.7 La media aritmética de ambas series es prácticamente igual (79.5 en el grupo A y 79.7 en el grupo B). Un análisis de las cifras individuales revelan un gran contraste. En el grupo A hubo muy poca variación entre las notas, siendo la más alta 83 y la más baja 75. En el grupo B, se nota mayor variación, en este grupo la mayor nota fue 97 y la menor 71. Como conclusión se podría decir que en el grupo B hubo notas muy altas y muy bajas. En el grupo A las notas tuvieron una mayor concentración alrede-dor del promedio. Para establecer esta característica se utilizan las medidas de varia-ción o dispersión, entre las cuales las más utilizadas son el rango, la varianza y la desviación estándar. 3.2.1 El rango La medida más simple de dispersión es el rango. Este identifica la distancia entre el valor mayor y el valor menor de la distribución. Más específicamente, se define como la diferencia entre el mayor valor y el menor valor. Se simboliza por r. Ejemplo, el rango de la siguiente distribución es: 25, 36, 64, 20, 48, 59. r = 64 - 20 = 44 El rango es sencillo de calcular pero tiene la desventaja de que es sensible a los valores extremos. 3.2.2 Percentiles Los percentiles son usados para calcular una segunda medida de dis-persión. El P-ésimo percentil de un conjunto de mediciones ordenadas según su magnitud, es el valor que tiene P% de las mediciones por debajo de él y (100 P%) por encima. Se utilizan muy frecuentemente para describir los resultados de pruebas de conocimiento, como los del Sistema Nacional de Pruebas y en la clasi-ficación de personas en forma comparativa. Entre los percentiles de más interés están el 25, el 50 y el 75, frecuentemente denominados como el menor cuartil Q1, el cuartil mediano (mediana) Q2 y el cuartil superior, Q3.
  • 30. 48 SERIE: APRENDER A INVESTIGAR 3.2.3 Varianza De todas las medidas de dispersión, la más importante, más conocida y usada es la varianza. Se define como la media aritmética de los cuadra-dos de las desviaciones, respecto a su media. Se simboliza por S2. Su fórmula es: para datos no agrupados datos agrupados S2 = S (xi - media)2 n S2 = S f (X - media)2 n Ejemplo con datos no agrupados Xi = 5; X2 = 3; X3 = 1; X4 = 6; X5 = 10 X = 5 + 3 + 1 + 6 + 10 = 25 = 5 5 5 S2 = (5-5)2 + (3-5)2 + (1-5)2 + (6-5)2 + (10-5)2 5 S2 = 0 + 4 + 16 + 1 + 25 = 46 = 9.2 5 5 Lo cual indica que la varianza de los datos es de 9.2 Ejemplo para datos agrupados Supongamos la siguiente tabla de pesos en kilogramos:
  • 31. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 49 Tabla 8 - Pesos de 100 estudiantes de un colegio Marca de Pesos clase X X - X (X - X)2 Frecuencias f f (X - X)2 60-62 61 -6.45 41.60 5 208.0 63-65 64 -3.45 11.90 18 214.2 66-68 67 -0.45 0.20 42 8.4 69-71 70 2.55 6.50 27 175.5 72-74 73 5.55 30.80 8 246.4 Total 100 = n 852.51 X = 67.45 donde X es la marca de clase X la media aritmética f la frecuencia de cada intervalo Propiedades de la varianza a. La varianza siempre debe ser un valor positivo S2> 0 b. La varianza de una constante es 0, es decir: si Xi = C para todo i, entonces S2 = 0 c. La varianza de una constante más una variable, es igual a la varianza de la variable. S2 (k + X): = S2 k + S2 x = 0 + S2 x = S2 x También es válida para la diferencia S2 (k + X): = S2 k + S2 x = 0 - S2 x = S2 x d. La varianza de una constante por una variable, es igual al producto de la constante al cuadrado por la varianza de la variable: S2 (kX): = k2 S2 X S2 = S f (x - x)2 n S2 = 852.5 = 8.52 100
  • 32. 50 SERIE: APRENDER A INVESTIGAR 3.2.4 Desviación estándar La desviación típica estándar es la raíz cuadrada de la varianza, con-siderada siempre con signo positivo. S = S2 Para el caso del peso de los 100 estudiantes del colegio la desviación estándar es: S = 8.52 = 2.92 La varianza se expresa siempre en unidades diferentes a las originales, es decir, si la variable se refiere a peso en Kg, al calcular la varianza estará dado el peso en Kg al cuadrado. Es una de las razones por la cual se utiliza la desviación estándar, pues se expresa en las mismas unidades de la va-riable. 3.2.5 Coeficiente de variación Esta medida relaciona la desviación estándar y la media, para expre-sar la variación de la desviación con respecto a la media aritmética. Se acostumbra expresarlo en porcentaje. La fórmula que se utiliza es: Cv = S • 100 X El coeficiente de variación sirve para determinar el grado de homogenei-dad de la información. Si el valor del coeficiente de variación es pequeño indica que la información tiene un alto grado de homogeneidad y si el coefi-ciente de variación es grande es porque la información es heterogénea. Ejemplo: al hallar el coeficiente de variación de 6, 3, 4, 7, 8 S = 1.85 Cv = Lo cual indica que la información es homogénea, pues el coeficiente de variación es de 33.04%. 1.85 = 0.3304 = 33.04% 5.6 X = 28 = 5.6 5
  • 33. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 51 3.3 Asimetría Una distribución es simétrica si se tiene que: la media es igual diana e igual al modo (X = Md = Mo); pero si la distribución se vuelve asimétrica las tres medidas se separan y entonces el valor promedio ar será mayor que la mediana, que a su vez será mayor que el modo, deduciéndose que la distribución es asimétrica positiva. Si la media aritmética es menor que la mediana y ésta menor que el modo, se dice que la distribución es asimétrica negativa. En la distribución asimétrica positiva, la curva pre-senta un alargamiento a la derecha; en la negativa el alargamiento pre-senta hacia la izquierda. Véase gráficas 4. Gráfica 4. Asimetría Las fórmulas para calcular la asimetría y su grado son: As = 3.4 Kurtosis Una característica importante de la variación de algunas distribucio-nes es su grado de agudeza en la cima de la curva que las representa agudeza que se observa en la región del modo, comparada con las con-diciones halladas para el mismo sitio en la curva normal, es lo que Kurtosis. 3(Media aritmética - Mediana) = 3(X - Md) Desviación estándar s As = Media aritmética - Modo = X - Mo Desviación estándar s
  • 34. 52 SERIE: APRENDER A INVESTIGAR Si la curva es más plana que la normal, la distribución se llama achatada o platicúrtica; si es más aguda, lleva el nombre de apuntada o leptocúrtica, y si la curva es normal, se denomina mesocúrtica. La Kurtosis es una medida de altura de la curva, por lo tanto está re-presentada por el cuarto momento de la media. En la misma forma que para la asimetría, su cálculo se efectúa en función de la desviación estándar y de los momentos unidimensionales de orden cuatro con respecto a la media aritmética. Su fórmula es: a4 = m4 = m4 s4 m2 2 Otra formula para medir la Kurtosis es la que se basa en los cuartiles y percentiles. K = Q P90 - P10 En donde Q = 1/2 (Q3-Q1). Si el valor encontrado de la Kurtosis es igual a 0.263 se dice que la curva es mesocúrtica o normal; si es mayor, la curva es leptocúrtica y si es menor, la curva es platicúrtica. Por ejemplo, calcular el coeficiente de Kurtosis, si el valor del primer cuartil es Q1 = 68.25; Q3 = 90.75; P10 D1 =58.12 y P90 = D9 = 101.00 Aplicando la fórmula se tiene: K = Q P90 - P10 2 Se tiene Q K = = 1 en donde Q = 1 (Q3-Q1) reemplazando 2 2 11.25 (90.75 - 68.25) = = 11.25 1 = 0.262 101.00 - 58.12 42.88 (22.5) = 11.25 Se puede decir que la curva es normal o mesocúrtica.
  • 35. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 53 3.5 Tablas de contingencia En muchas ocasiones, la información puede organizarse y presentar-se de acuerdo con la relación entre dos o más variables. Es cuando se habla de tablas de doble entrada o múltiples entradas o comparación de colectivos. Las variables pueden ser categóricas o nu-méricas. Esta forma de representación presenta grandes ventajas, entre otras resume información y posibilita el análisis de dependencia, asociación, correlación y homogeneidad. Supongamos que a partir de datos disponibles en nuestro estudio se ha elaborado el siguiente cuadro: Tabla 9. Distribución de alumnos por jornadas y clase de colegio CLASIFICACIÓN DE NÚMERO DE ALUMNOS LA JORNADA COLEGIOS COLEGIOS TOTAL OFICIALES PRIVADOS Única 230 840 1070 Mañana 583 614 1197 Tarde 418 234 652 Total 1231 1688 2919 Si comparamos los datos en dirección horizontal constatamos que el mayor número de estudiantes corresponde a la jornada de la mañana, mientras que si leemos los datos en dirección vertical el mayor número de estudiantes corresponde los colegios privados. En ocasiones el investigador desea especificar y analizar los datos con más variables. Para el ejemplo anterior podría ser sexo y edad.
  • 36. 54 SERIE: APRENDER A INVESTIGAR Tabla 10. Distribución de alumnos por jornadas, clase de colegio, sexo y edad Clasificación COLEGIOS OFICIALES COLEGIOS PRIVADOS de la jornada Hombres Mujeres Hombres Mujeres 10-15 15-20 10-15 15-20 10-15 15-20 10-15 15-20 Única 52 80 22 76 132 180 423 105 Mañana 121 47 168 247 241 132 86 155 Tarde 123 154 49 92 76 51 47 60 Subtotal 296 281 239 415 449 363 5561 320 TOTAL 1231 1688 En este ejemplo, el 52 corresponde al número de estudiantes hombres entre los 10 y 15 años, de jornada única pertenecientes a colegios oficiales. Las tablas de contingencia se pueden realizar con frecuencias relati-vas, es decir, con porcentajes. ÍNDICE DE DISPERSIÓN CATEGÓRICO Para datos ordinales y nominales se utiliza el llamado ÍNDICE DE DIS-PERSIÓN CATEGÓRICO, cuya fórmula es: D = K(N2 - Sf2) N2(K - 1) Donde K es el número de categorías de la variable. Sf2 es la suma de las frecuencias al cuadrado N = número de casos (tamaño de la muestra) Por ejemplo: Si tenemos la siguiente clasificación de 15 estudiantes por preferen-cias deportivas:
  • 37. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 55 DEPORTES ALUMNOS f2 FÚTBOL 8 64 VOLEIBOL 2 4 BASKET 5 25 TOTAL 15 El índice de dispersión categórico sería: Lo cual indica que los datos presentan una dispersión del 88%. DISTRIBUCIÓN DE DATOS, TÉCNICAS NUMÉRICAS AUTOEVALUACIÓN N° 2 Lea cuidadosamente cada uno de los siguientes enunciados y seña-le la respuesta correcta. 1. Para entender la naturaleza de la distribución de frecuencias, las medidas de tendencia central son mejores que las de dispersión Sí _______ No _______ 2. Las medidas de tendencia central son-. ___________________________________________________ 3. ¿Cuál es la mediana de la siguiente distribución? 4, 4, 5, 3, 7, 9, 5, 1, 7, 3, 7, 7, 5 D = 3(225 - 93) 225(3 - 1) D = 396 = 0.88 450
  • 38. 56 SERIE: APRENDER A INVESTIGAR 4. Un profesor pidió los pesos en Kg a 30 estudiantes del curso de álgebra y obtuvo los siguientes resultados: No. de estudiantes Edad f 30-34 5 35-39 6 40-44 8 45-49 7 50-54 4 Total 30 a. ¿Cuál es el peso promedio de sus alumnos? _________ b. ¿Cuál es la mediana? _________ c. ¿Cuál es la moda de las edades? _________ 5. ¿Cuáles son las modas de las siguientes series de números? a) 122, 103, 148, 113, 103, 118. b) 75, 84, 37, 49, 51, 83. c) 22, 43, 22, 38, 41, 43, 20. 6. ¿Cuál es la medida de dispersión más sencilla? ___________________________________________________ 7. El rango tiene la desventaja de ser sensible a los valores extremos. Sí _______ No _______
  • 39. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 57 8. La varianza siempre debe ser un valor positivo. Sí _______ No _______ 9. ¿Cómo se define la Desviación Estándar? ___________________________________________________ 10. Una de las características de la Kurtosis es el grado de agudeza de la curva, la cual se puede clasificar en tres tipos: a. Una más plana que la normal 0: __________________ b. La segunda más aguda 0: __________________ c. Si la curva es normal 0: __________________ RESPUESTA A LA AUTOEVALUACIÓN N° 2 5. a) 103 b) No hay c) 22 y 43 6. El rango 7. Sí 8. Sí 9. La raíz cuadrada de la varianza 10. a. Platicúrtica. b. Leptocúrtica. c. Mesocúrtica b. Mediana = 42 c. moda= 8 1. No 2. Media, mediana y moda 3. 5 4. a. X = 4.18
  • 40. 58 SERIE: APRENDER A INVESTIGAR Taller de estadística N° 1 Se realizó un experimento para evaluar el efecto de la edad en la fre-cuencia cardíaca, cuando se somete una persona a un grado específico de ejercicios. Se seleccionaron al azar hombres de cuatro grupos de eda-des, 10-19, 20-39, 40-59, 60-69. Cada individuo recorrió la banda sin fin a una velocidad específica durante 12 minutos y se registró el aumento de la frecuencia cardíaca, la diferencia antes y después del ejercicio, (en la-tidos por minuto) ¿Qué puede usted concluir, si los siguientes datos son el resultado del procesamiento de la información apoyada en el computador. VARIABLE GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 Talla 15 10 12 12 Promedio 30.1333 27.5 29.5 38.3333 Mediana 30 27.5 29 37.5 Moda 22 24 33 36 Varianza 24.8381 23.8333 19.1818 50.6061 Desviación estándar 4.98378 4.88194 4.37971 7.11379 Mínimo 22 21 22 28 Máximo 39 34 37 54 Rango 17 13 1.5 26 Quartil inferior 26 24 26.5 34.5 Quartil superior 34 32 33 42 Rango interquartil 8 8 6.5 7.5 Skewness -0.0873053 -0.0716212 0.0311649 0.668752 Kurtosis -0.612727 -1.59948 -0.726827 1.02909 Coeficiente de variación 16.5391 17.7525 14.8465 18.5577 Suma 452 275 354 460 Preguntas 1. ¿Qué tipo de muestreo se realizó? 2. ¿Qué grupo fue más homogéneo en los resultados? ¿Por qué? 3. Comparando las medias aritméticas ¿qué grupo obtuvo la menor media? 4. ¿Qué grupo presenta un mayor rango? ¿Qué significa? 5. Si consideramos el grupo 4 5.1 ¿Cuál es el mínimo valor? 5.2 ¿Cuál fue el mayor aumento de frecuencia cardíaca? 5.3 ¿Qué porcentaje de la información está por debajo de 34.5?
  • 41. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 59 5.4 ¿Qué porcentaje de la información está por encima de 34.5? 5.5 ¿Qué porcentaje de la información está entre 34.5 y 42? 6. Si consideramos el grupo 2 6.1 ¿Qué porcentaje de la información está por encima de 32? 6.2 ¿Qué valor corresponde al dato que más se repite? 6.3 ¿Qué dato está ubicado en el primer cuartil? 6.4 ¿Qué significado tienen las dos respuestas anteriores? Respuestas 1. Muestreo aleatorio por estratos según edades. 2. El grupo No. 3 porque obtuvo el menor coeficiente de variación. 3. El grupo No. 2 con un valor de 27.5. 4. El grupo No. 4 significa que obtuvo mayor variabilidad entre el dato mayor y el dato menor. 5. 5.1 28 5.2 54 5.3 El 25% 5.4 El 75% 5.5 El 50% 6. 6.1 El 25% 6.2 24 6.3 24 6.4 Significa que por debajo del dato que más se repite hay un 25% de la información.
  • 42. 60 SERIE: APRENDER A INVESTIGAR 4. INTRODUCCIÓN A LAS PROBABILIDADES 4.1 Probabilidades elementales Consideramos varios ejemplos: es casi seguro que hoy no llueve, con ello expresamos algún grado de confianza de que no llueve, a pesar de la completa seguridad. ¿Qué posibilidad existe de obtener una buena nota en el examen de economía? ¿En el de estadística? «En el próximo examen tengo la oportunidad de obtener una nota alta». Si un aficionado a la hípica es preguntado sobre una fija en una deter-minada carrera, puede darnos una insinuación de cuál caballo puede ga-nar. «El caballo X tiene una buena oportunidad». Nos encontramos con un conjunto cuya técnica se refiere a resultados que no estamos muy seguros. Asociamos cierto grado de confianza, con relación a que cada una de estas predicciones se realice. El cierto grado de confianza reposa en la experiencia (pasada y presente). Los Bayecianos definen la probabilidad de un acontecimiento, como una medida del grado de confianza que uno tiene, en que ocurra el acon-tecimiento. Otros autores consideran que la probabilidad pertenece a aquellas no-ciones imposibles de ser definidas adecuadamente y se les considera basadas en la experiencia. Por lo tanto, se puede decir que la probabilidad es una creencia basada en la experiencia. Consideramos algunas definiciones, según el método. a. Método axiomático. El cual concibe la probabilidad de ocurrencia de un suceso, como un número comprendido entre cero y uno. Este con-cepto tiene que ver directamente con la noción de frecuencia relativa, donde: 0 < p < l. Supongamos que se lanza 100 veces una moneda, anotamos el número de veces que sale cara y las veces que sale sello; los resultados fueron los siguientes: Frecuencias absolutas: cara 56 veces; sello 44 veces Frecuencias relativas: 56/100; 44/100 Posibilidad: p = 56% (éxito); q = 44% (fracaso)
  • 43. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 61 b. Método empírico o práctico. Considera la probabilidad de un su-ceso, como aquel número al cual se aproxima cada vez la frecuencia re-lativa de la ocurrencia de un suceso, cuando las veces que se repite el experimento que origina ese suceso es bastante grande. Este concepto tiene algo que ver con el experimento de Quetelet, en donde la probabili-dad de un suceso tiende a estabilizarse en un punto, cuando el número de experimentos se va haciendo cada vez más grande. c. Método clásico. Considera la probabilidad como el cuociente de dividir los casos favorables, que pueden ocurrir en un suceso, por el total de casos posibles. Número de casos favorables p = __________________________ Número de casos posibles Ejemplos: – En el lanzamiento de una moneda hay: 2 posibilidades N° Combinaciones Probabilidades C (C) 1/2 = 0.5 S (S) 1/2 = 0.5 2 1 = 1.0 – Lanzamiento de dos monedas. 4 Posibilidades N° Combinaciones Probabilidades 2C (C,C) 1 1/4 = 0.25 1 C y 1 S (C, S) (S, C) 2 2/4 = 0.50 2S (S,S) 1 1/4 = 0.25 4 1 = 1.00 – Lanzamiento de tres monedas. 8 posibilidades N° Combinaciones Probabilidades 1C (C, C, C) 1 1/8 = 0.125 2C y 1S (C, C, S) (C, S, C) (S, C, C) 3 3/8 = 0.375 2S y 1C (S,S,C)(S,C,S)(C,S,S) 3 3/8 = 0.375 3S (S, S, S) 1 1/8 = 0.125 8 1 = 1.000
  • 44. 62 SERIE: APRENDER A INVESTIGAR En efecto el número de casos posibles en los ejemplos anteriores se obtiene: 21 = 1 2n 22 = 4 2 = casos posibles en una moneda 23 = 8 n = número de lanzamientos En un dado sería: 6n 61 = 6 6 = casos posibles en un dado 62 = 36 36 = casos posibles al lanzar dos dados 4.2 Esperanza Si p es la posibilidad de éxito en un suceso, en un solo ensayo, el número de sucesos o esperanzas de ese suceso en n ensayos, estará dado por el producto de n y la probabilidad de éxito p. E = n p Ejemplo: En el lanzamiento 900 veces de dos dados, ¿cuál es la esperanza de que la suma de sus caras sea un valor menor a 6? Primero obtenemos la probabilidad de éxito del suceso en un solo ensayo. (1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (3,1) (3,2) (4,1) = 10 Como se lanzan 900 veces, en dos dados, se tiene: E = np = 900 10 = 900 = 250 36 36 La esperanza es que en 250 de los 900 lanzamientos, la suma de sus caras sea menor de 6. 4.3 Leyes de las probabilidades Para facilitar el cálculo de las probabilidades se emplean estas leyes. 1. Si dos o más sucesos son tales que solamente uno de ellos puede ocu-rrir en un solo ensayo, se dice que son mutuamente excluyentes. Se
  • 45. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 63 denomina probabilidad aditiva y será igual a la suma de las probabilidades de cada suceso. P = P1 + P2 + P3........... + Pn Ejemplo: La probabilidad de obtener un as o un rey, sacando una sola carta en una baraja española de 40 cartas. Si uno de los casos aparece, queda excluido el otro. P1 = 4 = 1 (As) 40 10 P2 = 4 = 1 (Rey) 40 10 P = P1+P2 = 1 + 1 = 2 = 1 10 10 10 5 2. Se dice que dos o más sucesos son independientes, si la probabilidad de presentación de alguno de ellos queda influenciada por la presenta-ción del otro. En caso contrario, se dice que son dependientes. En otras palabras, si el resultado de un suceso no afecta al otro, se dice que son independientes, por lo tanto se efectuará la multiplicación de las probabilidades para cada suceso. P = P1 x P2 x P3..... x Pn Ejemplo: ¿Qué probabilidad tendremos de obtener dos reyes, sacando una car-ta de una baraja y la otra de una segunda baraja? P = 4 x 4 = 16 = 1 40 40 1600 100 Se dice que los sucesos son dependientes, o eventos compuestos, si la ocurrencia o no ocurrencia de un evento en cualquier prueba afecta la probabilidad de otros eventos en otras pruebas, es decir que la probabi-lidad del segundo suceso depende del primer suceso, el del tercero, de lo que haya sucedido en el primero y segundo y así sucesivamente.
  • 46. 64 SERIE: APRENDER A INVESTIGAR Ejemplo: La probabilidad de obtener tres ases, sacando sucesivamente tres cartas de una baraja española, sin volverlas a incluir (sin reposición) en el montón. P1 = 4 40 P2 = 3 39 P = P = 4 40 39 38 59280 1 2470 • 3 • 2 4.4 Análisis combinatorio P3 = 2 38 = 24 El análisis combinatorio es un sistema que permite agrupar y ordenar, en diversas formas, los elementos de un conjunto. Los tres principales tipos de análisis combinatorio son: 4.4.1 Permutaciones Se denominan permutaciones de h elementos, los diferentes grupos que se pueden hacer, tomándolos todos cada vez. Las permutaciones implican orden. Cada conjunto ordenado de h elementos se denominará una permuta-ción de los n elementos diferentes. La formula es Pn = n!, donde Pn corresponde al número de permuta-ciones posibles. Por ejemplo: Determine el número de permutaciones posibles de las letras A, B, C, D. P4 = 4! = 4 x 3 x 2 x 1 = 24 Representémoslas:
  • 47. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 65 ABCD BACD CABD DABC ABDC BADC CADB DACB ACBD BCDA CBAD DBAC ADBC BDAC CDAB DCBA ADCB BDCA CDBA DCAB ACDB BCAD CBDA DBCA Otro ejemplo: ¿Cuántos números diferentes de 9 cifras se pueden formar con los dígitos del cero al 9, usándolos una sola vez? P10,= 10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 3.628.800 Permutaciones con repetición Las permutaciones con repetición r, son un caso particular de las variacio-nes y no existe una ley sencilla para su formación. Dado lo complicado del sistema, sólo, se presenta la fórmula que logra el número de esta clase de permutaciones. Sean los elementos aa - bbb - cc - d, para permutar con repetición, ten-dremos 8 elementos repartidos así: dos del primero, tres del segundo, dos del tercero y uno del cuarto, entonces las permutaciones se presentarán así: P8(r: 2,3,2,1) y la fórmula respectiva será: P8(r:2,3,2,1) = P8(r:2,3,2,1)=1680 La formula será Ejemplo: ¿De cuántas maneras distribuiríamos 3 monedas de $100 y 4 monedas de $500 en una misma línea? P7(r: 3,4) = 35 8! = 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 2!3!2! 2 x 1 x 3 x 2 x 1 x 2 x 1 Pn(r: r1, r2) = n! r1!r2! P7(r: 3,4) = 7! = 7 x 6 x 5 x 4 x 3 x 2 x 1 3!4! 3 x 2 x 1 x 4 x 3 x 2 x 1
  • 48. 66 SERIE: APRENDER A INVESTIGAR Otro ejemplo: Cuántos grupos de 2 letras se pueden formar con las letras de la palabra amigas. P6(r: 2) = 6! = 360 2! 4.4.2 Variaciones Las variaciones corresponden a aquellas permutaciones donde los ele-mentos no se toman en su totalidad. Dado un conjunto de n elementos diferentes, se denominará permutación parcial o variaciones, de subconjunto de r elementos (r<n) pertenecientes al conjunto dado. n! (n - r)! r La fórmula es: Vn = En el ejemplo de las cuatro letras o elementos (n) vamos a permutar de a 2 (r) 4! = 4 x 3 x 2 x 1 = 12 (4 - 2)! 2 x 1 2 AB BA CA DA AC BC CB DB AD BD CD DC Ejemplo: ¿Cuántas cifras diferentes de 4 dígitos se pueden formar con los dígitos del 0 al 9, usándolos una vez? 10! = 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1 = 5.040 (10 - 4)! 6 x 5 x 4 x 3 x 2 x 1 4 4.4.3 Combinaciones Son aquellas en las que no interesa el orden de la aparición de ele-mentos del conjunto. Será lo mismo AB que BA. V4 = V10 =
  • 49. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 67 Cuando se toma la totalidad de elementos, solamente se puede hacer una combinación. Si se tiene las letras A, B, C, D y se combinan de dos en dos, se obtienen 6 casos: AB BC CD AC BD AD La fórmula será: n! r!(n - r)! r r (n) = Cn = Y se lee combinación de n elementos tomados de r en r. Ejemplo: Cuál es la combinación de las 4 letras A, B, C, D, tomadas de 4 en 4. (4) = C4 = El factorial de cero es uno (0! = l). En la combinación de estas 4 letras tomadas de 2 en 2 será, 4.5 Probabilidad condicional En algunos eventos probabilísticos se tiene alguna información, que reduce el espacio muestral original a uno de sus subconjuntos; las probabi-lidades asociadas a esos subconjuntos determinan la probabilidad condi-cional. Su fórmula está dada así: Ejemplo: 4! = 4 x 3 x 2 x 1 = 1 4!(4 - 4)! 4 x 3 x 2 x 1 x 1 4 4 (4) = C4 = 4! = 4 x 3 x 2 x 1 = 6 2!(4 - 2)! 2 x 1 x 2 x 1 2 2 P(B/A) = P(BÇA) P(A)
  • 50. 68 SERIE: APRENDER A INVESTIGAR El 18 % de las familias de un barrio tienen vehículo propio, el 20% tiene vivienda de su propiedad y el 12% tiene vivienda y vehículo. ¿Cuál es la posi-bilidad de tener vivienda si se tiene vehículo? A = Propietario de vehículo A’ = No propietario de vehículo B Propietario de vivienda B’ No propietario de vivienda B B’ Total A 0.12 0.06 0.18 A’ 0.08 0.74 0.82 Total 0.20 0.80 1.00 0.12 = 0.66 0.18 INTRODUCCIÓN A LAS PROBABILIDADES AUTOEVALUACIÓN N° 3 P(B/A) = 1. La definición clásica de probabilidades es el cociente de dividir el número de casos favorables que pueden ocurrir en un suceso, por el número de casos posibles: Sí ______ No ______ 2. ¿Cuál es la probabilidad de que una bola, extraída al azar de una urna que contiene 3 bolas rojas, 4 blancas y 5 azules, sea blanca? a. 3/12 b. 1/3 c. 5/16 d. Ninguna
  • 51. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 69 3. Una señora invita a cenar a 8 personas; después de sentarse ella, ¿de cuántas maneras se pueden sentar sus invitados? 4. En un juego de moneda, entre dos personas, con un premio de $1.000 por aparición de cara, ¿cuál es la esperanza de ganar con el resultado de cara? 5. ¿De cuántas maneras se pueden sacar dos manzanas de una caja que contiene 8 manzanas? RESPUESTAS A LA AUTOEVALUACIÓN N° 3 2 = 28 1. Sí. 2 . 1/3 3 . 40.320 4 . $500 5 . C8
  • 52. 70 SERIE: APRENDER A INVESTIGAR 4.6 Distribución binomial En repetidos ensayos, siendo p la probabilidad de éxito en un solo ensayo la cual debe permanecer fija y q la probabilidad de fracaso, entonces la proba-bilidad P de que se obtengan r éxitos en n ensayos, es el termino del desarro-llo binomial (q+p)n. La fórmula general será: p = Cn r pr qn-r Los criterios que deben satisfacer una experiencia binomial son: a) Existir un número fijo de pruebas repetidas (n). b) Cada una de las n pruebas debe tener dos resultados: favorable o desfa-vorable; en el caso de una moneda será: cara o sello. c) La probabilidad de éxito de un acontecimiento es fija. d) Las pruebas son independientes. e) Nos interesa el número de éxitos en n pruebas. En caso de lanzar 4 monedas y se quiera determinar la probabilidad de obtener exactamente dos caras, será: P = C4 2 4-2 2 2 1 1 = 2 2 2!2! 2 2 2.1.2.1 4 4 2 P = 6 1 = 6 = 16 16 4.7 Distribución normal 4! 1 1 = 4.3.2.1 1 1 0.375 = 37.5% Muchas distribuciones de mediciones, que se hacen tanto en las cien-cias sociales como en las ciencias naturales, tienden a tener un polígono de frecuencias con una forma que se asemeja al corte transversal de una campana. Esta distribución se observa más cuando el número de observaciones es grande y cuando en muchos casos las investigaciones se realizan con muestras de poblaciones grandes; en la mayoría de los casos las distri-
  • 53. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 71 buciones tienden a aproximarse a la curva en forma de campana ya men-cionada. Una distribución de frecuencias que se asemeja a una campana se reco-noce como una Distribución Normal, que por tener características especia-les, se convierte en un requisito fundamental para entender el proceso rela-cionado con la inferencia estadística y la prueba de hipótesis. Cuando el número n de experimentos es grande, se hace difícil el cálculo de las probabilidades mediante el teorema del Binomio; para facilitar el cálculo y agilizar las operaciones, utilizaremos la distribución normal. Entre las propiedades de la distribución normal están, a. El área total debajo de la curva, puede representar el número total de ele-mentos en una población y se puede considerar que el área es igual a la unidad. Esta propiedad permite determinar la proporción de la frecuencia conteni-da entre dos puntajes a lo largo del eje horizontal, ya que se puede calcular la proporción del área debajo de la curva y contenida entre los dos puntos. b. La media aritmética, la mediana, y la moda de una distribución normal son iguales a cero. c. La desviación estándar es igual a 1 d. Como veíamos, tiene una distribución simétrica. e. Es una distribución asintótica, es decir, como no toca el eje de las X, se extiende infinitamente. f. En una distribución normal el 68.26% de los valores bajo la curva, se en-cuentra dentro de más o menos una desviación estándar de la media arit-mética; el 95.46% de los valores debajo de la curva se encuentra dentro de más o menos dos desviaciones estándar de la media y el 99.9% se encuentra dentro de más o menos tres desviaciones estándar, tal como se ve en la gráfica 5. La curva está dada por la función:
  • 54. 72 SERIE: APRENDER A INVESTIGAR donde: n número de datos G desviación estándar de la distribución binomial = npq e base de los logaritmos naturales = 2.71828 p 3.1416 m media de la distribución nominal = np Gráfica 5. Características de una distribución normal. Probabilidad mediante una aproximación a la curva normal X y Y son cantidades concretas de la misma especie. La variante esta-dística z = c - m , representa una medida de las desviaciones estándar o G de las G llamadas unidades estandarizadas. La expresión anterior también es conocida como desviación normal. Aplicando la fórmula podemos cal-cular la probabilidad, por ejemplo de obtener 4, 5 y 6 caras, en 9 lanza-mientos de una moneda, mediante una aproximación a la binomial. Y = n e G 2p z2 2G2 Ö Ö
  • 55. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 73 n = 9 p = ½ q = ½ m = np = 9 (½) = 4.5 G = Ö npq = Ö 9 (½) (½) = 1.5 p = (3.5 < x <6.5) x = 4,5 y 6 caras Gráfica 6. Se tiene que x 3.5 corresponde al límite inferior de 4, y x 6.5 es el límite superior de 6. Se va a buscar el valor del área comprendido entre 3.5 y 6.5, o sea, P (3.5<x<6.5). Primero localizamos el área a partir de la media hasta el límite inferior, dado que cada lado vale el 50%, la suma total será igual a uno. De donde z = x – m entonces z = 3.5 - 4.5 = –0.67 G 1.5 z = (-0.67) = 0.2486, tomado de la tabla, área bajo la curva normal.
  • 56. 74 SERIE: APRENDER A INVESTIGAR Z = 1.33 = 0.4082, tomado de la tabla, área bajo la curva normal. Se desea el área comprendida entre z = -0.67 y z = 1.33 Para ello sumamos: 0.2486 + 0.4082 = 0.6568 La probabilidad de que aparezca 4, 5 y 6 caras es del 65.68%. Véase gráfica 6. Ejemplos: Usando la tabla del área bajo la curva normal, plantearemos algunos problemas que servirán de modelo. Ver gráficas: 7 - 8 - 9 y 1 0. a) Para z = 1.5 y z = -1.4 z = 1.5 la tabla da 0.4332 z =1.4 la tabla de 0.4192 p (-14<z<1.5) = 0.4332+0.4192 p 0.8524 = 85.24% Gráfica 7. Z = 6.5 - 4.5 = 1.33 1.5
  • 57. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 75 b) Si se plantea p (z<1.5), corresponde al siguiente gráfico. 0.5000 + 0.4332 = 0.9332 = 93.32% Gráfica 8. c) P (z>1.5) 0.5000 - 0.4332 = 0.0668 =6.68% Gráfica 9.
  • 58. 76 SERIE: APRENDER A INVESTIGAR d) Si queremos conocer el porcentaje de frecuencia comprendida entre z = -3 y z = -2, será necesario proceder por diferencia. z = -3 = 0.4987 z = -2 = 0.4772 0.0215 La diferencia es 0.0215 = 2.15% P (-3 < z < -2)= 2.15% Gráfica 10. 4.8 Distribución de Poisson Se tiene ahora una distribución binomial, cuando n es grande, por lo gene-ral mayor de 50, a la vez que p, la probabilidad de éxito de un suceso se acerque a cero, mientras que q, la probabilidad de fracaso, se aproxime a uno, de tal manera que el producto np, llamado lamda l es menor o igual a 5, debe utilizarse la distribución de Poisson. Su fórmula es: P = lxe-l X! donde e = 2.71828
  • 59. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 77 l = np x = número de casos favorables Ejemplo: a) Si el 1 % de las bombillas fabricadas por una compañía son defectuosas, hallar la probabilidad de que en una muestra de 100 bombillas 3 sean defectuosas. l = 100 x 0.01 = 1 X = 3 P = 13 - e-1 = 1 (0.36788) = 0.06131 3! 3.2.1 e-1 (utilizamos la tabla para valores de e-l) e-1 = 0.36788 b) Si, la probabilidad de que una persona adquiera la enfermedad como consecuencia de una vacuna contra la misma, es 0.0002, ¿cuál es la probabilidad de que la adquieran exactamente 5 personas en una po-blación de 10.000 vacunados? p = lx . e-l X! l = np = 10.000 x 0.0002 = 2 x = 5 entonces P = 25 (0.13534) = 32(0.13534) = 4.33088 5.4.3.2.1 120 120 P = 0.03609 = 3.61 % P (x = 5) = 3.61 %
  • 60. 78 SERIE: APRENDER A INVESTIGAR LA CURVA NORMAL Y SUS APLICACIONES AUTOEVALUACIÓN N° 4 1. La curva normal se caracteriza por que es asimptótica. Esto quiere decir que: a. La media es igual a la moda _________________ b. Tiene forma de campana _________________ c. Es simétrica _________________ d. Nunca toca el eje _________________ e. Ninguna de las anteriores _________________ 2. La tabla bajo la curva normal sirve para indicar cuál es: a. La proporción de los casos que se encuentran entre la media y un valor llamado puntaje _____________ b. El valor de la desviación estándar en relación con el valor de la media _____________ 3. En una distribución normal, la media, la mediana y la moda son iguales: Sí _____ No _____ 4. ¿Cuál es el área bajo la curva normal que corresponde a un z = 2.5? _____________________________________________________ 5. El promedio de las notas de un curso está en 1.350 puntos y tiene una distribución normal con una desviación estándar de 18 puntos. a. ¿Qué porcentaje de alumnos tiene notas entre 1.350 y 1.377 puntos? _________________ b. Entre 1.365 y 1.377 _________________ c. Entre 1.31 y 1.351. _________________
  • 61. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 79 6. Con una distribución de 20 elementos se obtiene una media de 20.3 y una desviación estándar de 2.81. Si uno de los elementos tiene un valor de 28, ¿cuál es el valor de z? a. 17.18 _____________ b. 7.70 _____________ c. 2.74 _____________ d. 5.48 _____________ e. Ninguno de los anteriores _____________ 7. En una distribución normal, el 68.26% de los valores bajo la curva se encuentra dentro de más o menos una desviación estándar de la media aritmética. Sí _____ No _____ 8. En una distribución binomial, cuando n es pequeña, se utiliza la dis-tribución de Poisson. Sí _____ No _____ RESPUESTAS A LA AUTOEVALUACIÓN N° 3 1 =d; 2=a-, 3=Sí; 4=49.38%; 5=a)43.32%; b)13.65; c)21.14%; 6=c)2.74; 7=Sí; 8=No
  • 62. 80 SERIE: APRENDER A INVESTIGAR 5. ESTADÍSTICA INFERENCIAL Ayuda a determinar la confiabilidad de la inferencia de que los fenóme-nos observados en la muestra ocurrirán también en la población de donde se seleccionó la muestra. Es decir, sirve para estimar la eficacia del razo-namiento inductivo con el cual se infiere que lo que se observa en una parte se observará en el grupo entero. El objeto de la estadística es el de hacer inferencias (predecir, decidir) sobre algunas características de la población con base en la información contenida en una muestra. Por lo tanto, se puede afirmar que el empleo de la estadística inferencial presume el dominio de la estadística descriptiva. Sin embargo se debe tener presente que al predecir un resultado o tomar una decisión se está sujeto a una incertidumbre o margen de error, bien sea por la técnica de muestreo o por la selección del estadístico de prueba. Es importante resaltar que se debe diferenciar entre las técnicas que son válidas para el análisis de los datos cualitativos y de los datos cuanti-tativos. En el caso de la estadística inferencial el investigador se encuentra con dos tipos de técnicas. Por un lado las técnicas paramétricas que suponen una serie de supuestos acerca de la naturaleza de la población de la que se extrajo la muestra de estudio. Por otro lado, las técnicas no paramétricas, que no requieren supuestos sobre las características de la población y que se facilitan más para el análisis de datos nominales y ordinales. Las ventajas de las técnicas paramétricas es que son más potentes que las no paramétricas y por consiguiente las inferencias que se realizan son más fiables. El inconveniente es que el investigador no siempre pue-de cumplir con los requisitos y supuestos que exige el enfoque paramétrico, sobre todo en investigaciones educativas y sociales. La ventaja de las técnicas no paramétricas es que son fáciles de utili-zar y algunas son tan potentes como las paramétricas. El análisis de datos cualitativos ha generado técnicas propias, que ac-tualmente constituyen toda una metodología específica que viene marcada por la propia idiosincrasia cualitativa y que toma determinadas opciones en relación a las unidades de registro de los datos y la forma de tratarlos.
  • 63. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 81 Actualmente existe interés por sistematizar estos procedimientos, sin embargo esta tarea es difícil debido al carácter abierto y flexible de la me-todología, los diversos enfoques, y la variedad de objetivos científicos que puede cubrir. Una de las maneras de realizar estimaciones es con las pruebas de hipótesis referentes a sus valores. En muchos aspectos el procedimiento formal para la prueba de hipó-tesis es similar al método científico. 5.1 La prueba de hipótesis Ya el investigador, desde el momento en que identifica y delimita el pro-blema que va a investigar, ha aclarado los elementos conceptuales y las hipótesis o modelos que tiene que probar. En las etapas complicadas con la generación de los instrumentos, con la recolección de la información y con la codificación de la misma, estas hipótesis se aclaran mucho más y en algunos casos, toman características cuantitativas, permitiendo la apli-cación de técnicas estadísticas, para probar su relevancia en cuanto a su capacidad para generalizar el fenómeno, o la relación entre fenómenos, a poblaciones mayores, o para tomar decisiones en relación con tales fenó-menos. En esta parte distinguiremos la lógica del proceso para probar una hi-pótesis y aplicaremos en casos determinados la prueba Z, la prueba T y la prueba de significación entre muestras, para ilustrar el proceso de prueba de hipótesis. La lógica de la prueba de hipótesis En el proceso de la estadística inferencial, hay dos tipos de hipótesis claves: una es la hipótesis de investigación (H1), que simplemente señala la existencia de un hecho o de un evento, o la relación entre dos o más fenómenos. La otra es la hipótesis nula (H0) que se construye artificialmente para que el investigador evalúe su hipótesis de investigación. Si la hipótesis de investigación afirma que existe una relación entre dos o más fenómenos, la hipótesis nula (H0) plantea que no existe relación entre los dos fenómenos.
  • 64. 82 SERIE: APRENDER A INVESTIGAR Es decir, se utiliza esta última como un modelo para probar la hipótesis de investigación, o sea, probar su veracidad o su falsedad. Para probar una hipótesis, se necesita: 1° La existencia o planteamiento de la misma. 2° Que se anticipen los eventos que pueden resultar a partir de la observa-ción o experimentación. 3° Que se especifiquen las condiciones bajo las cuales la hipótesis se puede rechazar o aceptar. 4° Que se haga el experimento y la observación y que se analice el evento o resultado. 5° Que se tome la decisión de rechazar o aceptar la hipótesis. Esto implica que, aunque se tiene que observar o experimentar, todas las suposiciones se hacen antes de las mismas observaciones o experimentos. Es decir, el investigador predice y luego bajo las reglas del juego de su predic-ción evalúa en relación con los resultados. Si éstos no son consistentes con lo que se predijo, se rechaza la hipótesis. Con un ejemplo podemos ilustrar la naturaleza de la prueba de hipótesis. Supongamos que se está probando una nueva semilla para resolver proble-mas de productividad en una región determinada. La hipótesis de la investiga-ción sería que la media aritmética por fanegada es mayor de 519 arrobas, que es el tradicionalmente observado en esa región. Para verificar la hipótesis tenemos que completar los cinco pasos siguientes: 1° Aclarar la hipótesis de investigación H1 y crear la hipótesis nula H0. 2° Obtener la distribución del muestreo. 3° Seleccionar un nivel de significancia y una región de rechazo. 4° Hacer la prueba estadística. 5° Comparar y concluir.
  • 65. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 83 Punto 1 El paso uno se define en el enunciado del problema. Para que sea verifica-da HI, el proceso a seguir es contradecir a H0, es decir, hay que contradecir que la media aritmética es igual o menor a 519. Entonces las dos hipótesis se representan así: H1: X > 519 H0: X < 519 Con lo anterior, lo que se está diciendo es que, si encontramos que el promedio de producción por fanegada es de 519 arrobas o menos, tendre-mos que concluir que nuestra hipótesis inicial H1, tendrá que ser modificada y por lo tanto, la nueva semilla, por lo menos en cuanto a su productividad, no es competitiva con las tradicionalmente utilizadas. Punto 2 Una vez aclaradas las suposiciones del punto 1, acerca de H1 y H0, por medio de un razonamiento matemático podemos obtener la distribución de muestreo, o sea, la distribución de todos los posibles valores que una estadís-tica puede tener, con base en un muestreo probabilístico de un universo. Esta distribución nos dice, entonces, qué probabilidad hay de obtener cada uno de los resultados. Dependiendo del tamaño de las muestras, las distribuciones de muestreo tienden a tomar una distribución normal y por ello no es necesario calcularlas. Un teorema importante, que es una aplicación de la distribución normal, conocido como el teorema del Límite Central, dice que si en una población de tamaño N, con una media de m y una varianza de S2 se obtienen mues-tras al azar, la distribución de las medias de las muestras seleccionadas será normal -y más lo será en la medida en que se incremento el número de muestras seleccionadas- y tendrá una media de Y y varianza S2/N. El teorema garantiza que la media de una muestra puede estar muy cer-cana al de la población, en la medida en que tenga un tamaño n grande, ya que la varianza de la distribución de las medias muestrales S2/N, se hace más pequeña en la medida en que aumenta el tamaño n. La desviación estándar de la distribución de las medias de la muestra se denomina como el error estándar: S/ /N
  • 66. 84 SERIE: APRENDER A INVESTIGAR Punto 3 A partir de la información obtenida, el investigador puede escoger resulta-dos que permitan aceptar o rechazar sus supuestos. Posteriormente, los re-sultados identificados para rechazar la suposición se llaman de región crítica, dividiendo así los resultados en los que sirven para rechazar y los que sirven para aceptar la hipótesis nula, sabiendo que estos sectores están relaciona-dos con errores de tipo a y b. Una vez aclaradas la H1 y H0, obtenemos aleatoriamente una muestra de la producción por fanegada de la semilla probada en la región. Calculamos la media aritmética y la desviación estándar de los datos de la muestra, información ésta que nos permite hacer la prueba estadística. Si calculamos x, sabemos que la distribución de muestreo de x, supo-niendo que H0 es cierto, es bastante aproximada a una distribución normal con un m = 519. Valores de x, que contradicen H0 y por lo tanto validan a H1, serán aque-llos que se encuentran en la región de la cola derecha de la distribución, como lo señala la figura 11. Estos valores contradictorios generan la re-gión de rechazo, es decir, si el valor observado de x cae en la región de rechazo, descartamos H0 y aprobamos H1. Observemos que se verifica H1 contradiciendo H0. Por lo tanto si x cae en la región de aceptación de la figura 11, aceptamos H0 y no podemos verificar H1. Esta es la etapa de comparación con la región de rechazo. Gráfica 11. Suponiendo que H0 es verdadera, los valores contradictorios de X están en la cola superior.
  • 67. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 85 Hay posibilidad de cometer dos tipos de errores al probar la hipótesis. Podemos, como en cualquier proceso de decisión entre dos escogencias, cometer el error de rechazar a H0 cuando en realidad es verdadera; error tipo l ó a; o podemos aceptar H0 cuando en realidad es falsa; error tipo ll ó b. Y aunque es conveniente determinar la región de aceptación y de rechazo, minimizando tanto el error tipo a como el error tipo b, esto no es imposible porque están inversamente relacionadas, es decir, para una muestra de tamaño h, cuando se cambia la región de rechazo para incrementar el error a, el error b disminuye y viceversa. Para resolver este problema, la comunidad de científicos ha decidido que se debe trabajar con la probabilidad de cometer error tipo l ó a y la espe-cificación del valor para el error tipo a determina la región de rechazo. ¿Cómo se hace? Volviendo a nuestro ejemplo, sabemos que rechazamos H0 si obtenemos grandes valores de x. Si tenemos una muestra de 36 terrenos de una fanegada, como mues-tra del estudio y si la media aritmética es x = 573 y la desviación estándar es S = 124 la pregunta clave sobre la cual tenemos que tomar una deci-sión es si el x para toda la región es mayor que 519. Para concluir, decidimos el valor del error acon el cual queremos traba-jar; siempre sabemos que hay la posibilidad de cometer un error. Si en este caso queremos correr el riesgo de equivocarnos 1 de cada 40 decisiones, es decir de rechazar incorrectamente H0 entonces a = 1/40 = 0.025 Como suponemos que H0 es verdadera, x está distribuida normalmen-te y tiene m = 51 9 y una desviación estándar de: S = 124 = 20.67 Ö N Ö 36 Punto 4 Supongamos que en la figura 11 la región rayada sea la equivalente a la de un a = 0,025. Para calcular el punto de rechazo, se tiene que calcular el valor de Z, que tiene un área de 0.025 a su derecha. En la tabla de áreas bajo la curva normal vemos que el valor correspondiente es de 1.96, por lo que lo designaremos como el límite para la región de rechazo y si el valor observado de x es mayor que 1.96, desviaciones estándar arriba de m= 159, se rechaza la hipótesis nula.
  • 68. 86 SERIE: APRENDER A INVESTIGAR Cuando el valor de x es igual a 573 y el de S es igual a 124, el valor de Z normalizado es: Z = Punto 5 x - m = 573 - 519 = 54 = 2.61 S 124 20.67 Ö N Ö 36 El último paso es comparar el valor obtenido con el dispuesto como rechazo, ya que x encontrado está a más de 1.96 unidades de desviación estándar arriba del m = 519, rechazamos H0 en favor de H1 y concluimos que la productividad de la nueva variedad de semilla es significativamente mayor que 519. 5.2 Pruebas de significancia de muestras únicas o simples Cuando se quiere probar hipótesis a partir de una muestra única, se pueden utilizar varias pruebas de significancia de hipótesis. En estudios en ciencias naturales y ciencias sociales es muy frecuente este tipo de situaciones y las técnicas utilizadas más frecuentemente son la prueba Z, y la prueba t frecuentemente llamada t de Student. 5.2.1 Prueba Z Normalmente se utiliza cuando se conoce el parámetro de la pobla-ción. Ilustremos su uso con el siguiente ejemplo hipotético: En una institución de enseñanza media se presenta una deserción que los directores consideran muy alta y pensaron que con un programa de consejería, podrían controlarla, con la hipótesis de que cuanta más guía personal, mayor sería la probabilidad de continuar exitosamente en la institución. Se generó una consejería y al cabo de un año se recopiló infor-mación sobre el número de veces que cada estudiante tuvo contacto for-mal con un consejero. La media aritmética para el total de estudiantes fue de 12.1 visitas al año, con una desviación estándar de 3.21. Meses después se hizo una muestra aleatoria simple de 40 estudian-tes desertores y a partir de los datos obtenidos con la recopilación de in-formación, se les calculó una media aritmética de 9.11. Al ver que era más baja que el resto de la población, los directores se hicieron la siguiente pre-
  • 69. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 87 gunta. ¿Es el número de visitas de los desertores significativamente más bajo que el de la población estudiantil? Supongamos la hipótesis de la investigación H1: x < m y la hipótesis nula H0: x > m, decidimos utilizar un nivel del 0.01 de significancia, la muestra, como vimos, es probabilística. Para probar la hipótesis calculamos el puntaje Z, normalizado como habíamos visto así: Z = x - m = 9.11 - 12.1 = -2.99 = -5.86 S 3.21 3.21 Ö N Ö 40 6.32 El signo es indiferente al resultado, porque estamos trabajando con áreas, por lo tanto Z = 5.86. En la tabla de áreas bajo la curva normal, vemos que para que el x sea significativamente distinto de m = 12.1, se necesita una Z = 2.33 o mayor; como el Z obtenido es mayor, se rechaza H0 y se acepta H1, ya que: 0.5000 - 0.0100 = 0.4900 Entonces Z = 2.33 Concluimos que los estudiantes desertores tienen un número de con-tactos significativamente inferior al resto de la población estudiantil. 5.2.2 Distribución t de Student En los casos en que no se conoce el parámetro poblacional, depen-demos únicamente de las estadísticas de las muestras y utilizamos la Prueba t. Cuando n > 30 (muestra grande) la desviación estándar simbolizada por s, se le considera como un buen estimador de la desviación estándar poblacional, debido a que existe una mayor probabilidad de que los valores extremos que toma la variable, queden incluidos en el cálculo de la va-rianza para la muestra, tal como ocurre en el cálculo de la varianza pobla-cional. Siendo, s = S, la fórmula para obtener s será:
  • 70. 88 SERIE: APRENDER A INVESTIGAR s= S(x - x)2 n ^ Para n < 30 (muestra pequeña) la desviación estándar se simboliza por s, cuando no se ha efectuado ninguna corrección. Se considera que, s, por lo general, es mejor que S, debido a la menor probabilidad de que se incluyan los valores extremos de la variable. Por tanto, se hace nece-sario efectuar algunas correcciones en el cálculo: a. Cuando se da la desviación estándar sin corregir: s= S(x - x)2 n n n - 1 ^ b. Cuando se desea corregirla directamente s= S(x - x)2 n - 1 ^ En la distribución de t Student, se considera que las curvas son simé-tricas, pero algo más achatadas y más abiertas en los extremos, los cua-les corresponden a regiones críticas. A medida en que el tamaño de la muestra se hace más grande, más se acerca a la normal. La función dada para este tipo de distribución es: Y = C 1+ t2 v – v+1 2 donde v corresponde a los grados de libertad, número que depende de n; C es una constante que depende de v y es calculada en tal forma que el área bajo la curva sea igual a 1. Grados de libertad Corresponden al número máximo de variables que puedan asignarse libremente, antes de que el resto de las variables queden completamente determinadas.
  • 71. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 89 Las variantes estadísticas para el cálculo de t son: a) En las distribuciones muestrales donde n < 30, la fórmula es: t = x - m s ^ n-1 también puede escribirse en la siguiente forma t = x - m s n donde s se obtiene corrigiéndola así: s= s n ó s= S(x - x)2 n - 1 n - 1 ^ b) En las distribuciones de medias muestrales se tiene: t = (X - Y)2 – (mx - my) siendo sx-y s2= S(X - X)2 + S(Y - Y)2 n1+n2-2 sx-y = s2 + s2 n1 n2 En la determinación de los puntos críticos, ti (inferior) y ts (superior), se utiliza la tabla t de Student. En primer lugar se fija el nivel de significación, por ejemplo, a = 0.05, luego se calculan los grados de libertad, siendo en distribuciones muestrales v = n - 1, en diferencias de medidas muestrales: v= ni + n2 - 2. Si la prueba es bilateral, se tomará el 5% para cada una de
  • 72. 90 SERIE: APRENDER A INVESTIGAR las regiones críticas y si es unilateral se tomará el doble del nivel de significancia asignado; en este caso, será 0. 1 0. Ejemplos: 1. Una muestra de 25 observaciones tiene una media de 42.0 y una des-viación estándar de 8. Trabajando con un nivel de significancia del 1%. Existe razón para rechazar la hipótesis de que la media de la pobla-ción es de 46.0. a. H: mx K 46 1H0: m = 46 b. a = 0.01 Gráfica 12. c. s^ = 8 s= 8 25 = 8(1.021) = 8.17 25 - 1 t = 42 - 46 t = -4 = -2.45 8.17 1.63 Ö 25 V = 25-1; a = 0.01; corresponde a una t = 2.7969
  • 73. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 91 Como el valor de t = -2.45 queda en la región de aceptación, se acepta la hipótesis de que m = 46, es decir no existe razón para rechazar que la media de la población es 46. 2. Un fabricante de cigarrillos analiza el tabaco de dos marcas diferen-tes, para determinar el contenido de nicotina y obtiene los siguientes resultados, en miligramos. Marca A: 24 26 25 22 23 Marca B: 27 28 25 29 26 ¿Los resultados anteriores, señalan que existe una diferencia en el contenido medio de nicotina en ambas marcas? Solución: a) HI: mx my K HO: mx = my b) = 0.05 c) sx-y = 1 Siendo: s = S(X - X)2 + S(Y - Y)2 n1+n2-2 sx-y = s2 + s2 n1 n2 Tabla 11. Resultado de las dos marcas de cigarrillos para determinar el contenido de nicotina X y x-x (x - x)2 y-y (y - y)2 24 27 0 0 0 0 26 28 2 4 1 1 25 25 1 1 -2 4 22 29 -2 4 2 4 23 26 -1 1 -1 1 120 135 0 10 0 10
  • 74. 92 SERIE: APRENDER A INVESTIGAR d) X = s= s = 1.6 s2 = 2.5 sx-y = t = 120 = 24 5 10 + 10 = 5 + 5 - 2 8 2.5 + 2.5 5 5 (24 - 27) - 0 Y = 20 = 1 1 e) v = n1 + n2-2 v = 5 + 5 - 2 v = 8 135 5 = 2.5 1 = 1 –3 = 27 Gráfica 13. = –3 = f) Los resultados anteriores señalan que existe una diferencia significati-va en el contenido medio de nicotina en ambas marcas. Véase gráfica 13. 5.2.3 Distribución Chi Cuadrado: c2 La distribución normal se utiliza en todos aquellos casos que ofrecen dos resultados posibles; cuando se presentan más de dos resultados posi-bles, debe aplicarse la prueba chi cuadrado que se simboliza así: c2. Un ejemplo típico de distribución lo constituye el lanzamiento de una moneda con posibilidades de que aparezca cara o sello. Uno de c2 consiste en el lanzamiento de un dado con seis caras posibles, numeradas del 1 al 6.
  • 75. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 93 El Chi cuadrado es la suma de las fracciones que tienen por numerador el cuadrado de las diferencias entre las frecuencias reales u observadas y las frecuencias esperadas o teóricas y por denominador la frecuencia es-perada. c2 = S (n- n*)2 i i n* i en donde ni frecuencia observada o real n*i frecuencia teórica o esperada Se puede observar en la fórmula, que mientras mayor sea la coinciden-cia entre las frecuencias observadas y las esperadas, menor será el valor de c2. Si c2 = 0 significa concordancia entre las frecuencias observadas y las esperadas. Ejemplo: Supongamos que se lanza un dado 60 veces. Se sabe que las fre-cuencias teóricas, para este caso son de 10 veces cada cara y las fre-cuencias reales son los resultados del lanzamiento. ¿La base de un nivel de significancia del 5%, permite suponer que el dado no es perfecto? Solución: El problema da las frecuencias reales nt, para cada cara, como se ve en la tabla 12. Las frecuencias esperadas se obtienen multiplicando la probabi-lidad de cada suceso por n (número de lanzamientos). Véase gráfica 14. Tabla 12. Frecuencia en el lanzamiento de un dado 60 veces Caras ni ni* ni - ni* (ni - ni*)2 (ni - n*)2 n* 1 7 10 -3 9 0.9 2 14 10 4 16 1.6 3 8 10 -2 4 0.4 4 5 10 -5 25 2.5 5 16 10 6 36 3.6 6 10 10 0 0 0 S 60 60 0 - 9.0 i i
  • 76. 94 SERIE: APRENDER A INVESTIGAR y así se obtienen las demás frecuencias teó-ricas. Se realiza la prueba teniendo en cuenta los siguientes pasos: 1) HI: ni n*i HI: ni n*i 2) a = 0.05 3) 4) V = n - 1 = 6 - 1 = 5... c2 0.05 = 11.07 Gráfica 14. En la tabla de distribución de c2, encontramos que 11.07 es el valor crítico. 5) c2 < c2 0.05 , es decir 9 < 11.07, por lo tanto se acepta la hipótesis de que la diferencia no es significativa. En otras palabras podemos afirmar que a un nivel del 5%, las diferencias que presentan las frecuencias reales, con relación a las frecuencias teóricas no nos da base para afirmar que el dado está cargado. n* i= np1= 60 1 = 60 =10 6 6 ( ) K K c2 = S (ni - n*i)2 = 9.0 n*i
  • 77. MÓDULO 4: ANÁLISIS DE LA INFORMACIÓN 95 PRUEBAS DE HIPÓTESIS - AUTOEVALUACIÓN N° 5 1. ¿La hipótesis de investigación es exactamente lo mismo que la hipótesis nula? Sí _____ No _____ 2. Si una hipótesis de investigación es que dos poblaciones tienen iguales medias aritméticas, ¿cuál es la hipótesis nula? a. Que en efecto tienen iguales medias aritméticas ____ b. Que las dos poblaciones tienen distintas medias aritméticas ____ c. Que las medias aritméticas pueden ser iguales o distintas ____ d. Para poder definirla hay que conocer la desviación estándar ____ 3. ¿Una distribución de muestreo es lo mismo que una distribución de una muestra? Sí _____ No _____ ¿Por qué? ___________________________________________________ ___________________________________________________ 4. El nivel de significancia es: a. Lo mismo que el nivel de precisión _____ b. La región crítica de una curva normal _____ c. Una probabilidad _____ d. El error alfa a _____ e. La exactitud con que se predicen los parámetros _____ 5. El valor crítico de un puntaje Z para una prueba de una cola, al nivel de significancia 0.05 es: ________
  • 78. 96 SERIE: APRENDER A INVESTIGAR 6. ¿A partir de una muestra de obreros en una fábrica, se puede inferir a cerca de las características de esa fábrica? a. No _____ b. Sólo si uso una prueba Z _____ c. Sólo si uso una prueba t _____ d. Si se usa una prueba Z o prueba t _____ 7. ¿La prueba t se prefiere a la prueba Z cuando no se conocen los parámetros del universo? Sí _____ No _____ 8. Los salarios diarios de una industria están distribuidos normal-mente con una media de $132 y una desviación estándar de $25. Si una empresa de dicha industria, que cuenta con 40 obreros paga en promedio $122, puede acusarse a esta compañía de pagar salarios inferiores al nivel de significancia del 1%? Sí _____ No _____ Desarrollo: _________________________________________ ___________________________________________________ ___________________________________________________ 9. Una hipótesis dice que el estudiante promedio de la universidad colombiana tiene un coeficiente de inteligencia mayor que el resto de la población. Escriba una hipótesis de investigación y una hipótesis nula, con un coeficiente de inteligencia que al estan-darizarse tiene una X = 100 Hipótesis de investigación: ______________________________ Hipótesis nula: ________________________________________ 10. Un fabricante de ciertas piezas de proyectiles sostiene que en condiciones normales de reparación, tienen una duración media m=320 horas. Probar esta afirmación frente a la alternativa m K 320, si 16 piezas duran un promedio de 308 horas, con una desviación de 29 horas. Utilizar un nivel de significancia del 5%.