1. 0
Universidad Salesiana
de Bolivia
Ingeniería de Sistemas
DOSSIER
DOSSIER
TÉCNICASDE ESTUDIO
DOCENTE: Lic. Rita R. Torrico
DOSSIER
DOSSIER
PROBABILIDAD Y
ESTADÍSTICA
DOCENTE: Lic. Rolando Saúl Flores Lovera
II- 2013
2. 1
TÉCNICASDE ESTUDIO
ÍNDICE
PRESENTACIÓN
UNIDAD I FUNDAMENTOS DE LA ESTADÍSTICA
1.1 Introducción…………………………………………………………………………..5
1.2 Historia de la estadística…..…………………………………………......………...6
1.3 Definición de estadística……………………………………………………………7
1.4 Clasificación de la estadística……………………………………………………...7
1.5 Fuentes de datos estadísticos……………………………………………………...8
1.6 Procedimiento para recolectar datos……..……………………...........................9
1.6.1Observación…………………………………………………………………9
1.6.2 La encuesta………………………………………………………………..10
1.6.3 Consideraciones generales para la elaboración del formulario……...11
1.6.4 Requisitos de un instrumento de medición…………………..…………12
1.7 Parámetro y estadígrafo… …………………………………...…………………...12
1.8 Etapas del método científico y estadístico…..………………………………......13
1.8.1 Etapas del método estadístico…………………………………………..13
1.9 Población y muestra ………………………………………………………………..16
UNIDAD II EJECUCIÓN DEL TRABAJO ESTADÍSTICO
2.1Tabulación…………………………………………………………………………….22
2.2 ¿Qué es una distribución de frecuencia?.........................................................22
2.3 El elemento clase de la distribución de frecuencia………………………………23
2.3.1 Frecuencia de clase……………………………………………………….23
2.3.2 Distribución de frecuencia o tabla de frecuencia………………………23
2.3.3 Datos agrupados…………………………………………………………..23
2.3.4 Intervalos de clase y límites de clase…………………………………...23
2.3.5 Fronteras de clase……………………………………………………...…24
2.3.6 Tamaño o amplitud de un intervalo…………………………………..…24
2.3.7 Marca de clase…………………………………………………………….24
2.3.8 Rango………………………………………………………………………25
2.4 Reglas generales para construir distribución de frecuencias………………….25
2.5 Frecuencia absoluta simple………………………………………………………..26.
2.6 Frecuencia relativa…………………………………………………………………..27
2.7 Representación gráfica de variables cuantitativas………………………………28
2.8 Representación gráfica de variables cualitativas………………………………..32
UNIDAD III ANÁLISIS ESTADÍSTICO DE VARIABLES CUALITATIVAS
3.1 Concepto de variable cualitativa…………………………………………………..36
3.2 Razón…………………………………………………………………………………38
3. 2
3.3. Proporción…………………………………………………………………………..39
3.4 Porcentajes………………………………………………………………………….40
3.5 Tasas…………………………………………………………………………………41
UNIDAD IV ANÁLISIS ESTADÍSTICO DE VARIABLES CUANTITATIVAS
4.1 Concepto de variable cuantitativa………………………………………………...43
4.2 Medidas de tendencia central……………………………………………………..45
4.2.1 Tipos de promedio………………………………………………….46
4.2.2 Media aritmética – datos no agrupados…………………………46
4.2.3 Media aritmética – datos agrupados…………………………..…47
4.2.4 Propiedades de la media aritmética………………………………48
4.2.5 Media ponderada……………………………………………………51
4.2.6 Mediana………………………………………………………………52
4.2.7 Cuartiles………………………………………………………………55
4.2.8 Deciles………………………………………………………………..57
4.2.9 Percentiles……………………………………………………………58
4.2.10 La moda………………………………………………………….....59
4.2.11 Relación entre la media, mediana y moda……………………...62
4.2.12 Encogimiento entre la media, mediana y la moda……………..63
4.2.13 Media geométrica………………………………………………….63
4.2.14 Media armónica……………………………………………………66
4.2.15 Media cuadrática…………………………………………………..67
4.3 Medidas de dispersión o concentración………………………………………….67
4.3.1 Recorrido de la variable…………………………………………….69
4.3.2 Recorrido intercuartilitico……………………………………………69
4.3.3 Recorrido semi-cuartilitico…………………………………………..70
4.3.4 Desviación media o promedio……………………………………..70
4.3.5 Varianza y Desviación estándar…………………………………..72
4.4 Medidas de dispersión relativa…………………………………………………….77
4.4.1 Coeficiente de Variación……………………………………………78
4.4.2 Momentos………..…………………………………………………..79
4.5 Medidas de asimetría………………………………..……………………………..81
4.5.1 Coeficientes de asimetría………………………………………….82
4.6 Medidas de curtosis…………………………………………………………………83
UNIDAD V VARIABLE ESTADÍSTICA BIDIMENSIONAL
5.1 Introducción…………………………………………………………………………..85
5.2 Representación de la información mediante tablas bidimensionales…………86
5.2.1 Distribuciones marginales………………………………………….88
5.2.2 Propiedades de la frecuencia……………………………………...91
5.2.3 Medias y Varianzas marginales……………………………………92
5.3 Distribuciones condicionales……………………………………………………….94
5.4 Medidas de dependencia entre variables nominales……………………………95
5.4.1 Independencia de variables………………………………………..96
5.4.2 Diagrama de dispersión o nubes de puntos…………………….100
5.5 Nociones de correlación y regresión lineal……………………………………...101
5.5.1 Cálculo del coeficiente de correlación…………………………..103
5.5.2 Regresión…………………………………………………………..104
4. 3
UNIDAD VI ANÁLISIS COMBINATORIO
6.1 Introducción…………………………………………………………………………108
6.2 Principios básicos del proceso de contar……………………………………….109
6.3 Arreglos……………………………………………………………………………..110
6.3.1 Arreglos simples…………………………………………………..110
6.3.2 Arreglos con repetición…………………………………………...111
6.4 Permutaciones……………………………………………………………………..111
6.4.1Permutaciones simples……………………………………………111
6.4.2 Permutaciones circulares………………………………………...112
6.4.3 Permutaciones con repetición…………………………………...113
6.5 Combinaciones…………………………………………………………………….114
LECTURAS COMPLEMENTARIAS…………………………………………………120
PRÁCTICAS………………………………………………………………………….…120
BIBLIOGRAFÍA………………………………………………………………………..130
GLOSARIO…………………………………………………………………………..…130
5. 4
PRESENTACIÓN
El presente Dossier ha sido realizado como un instrumento de apoyo en la
asignatura de probabilidad y estadística. Contiene todo lo necesario para llevar a
cabo una investigación, desde la recolección, clasificación, análisis e
interpretación de los datos.
Así mismo este documento se divide en seis unidades. La primera aborda los
conceptos fundamentales de estadística y las etapas del método estadístico que
consisten en una serie de procedimientos para el manejo de los datos cualitativos
y cuantitativos de la investigación.
Una vez expuestas las características generales de la estadística, en la unidad
dos se desarrolla la ejecución del trabajo estadístico es decir la forma de realizar
el recuento de las repeticiones de un mismo valor o modalidad; lo que conduce al
concepto fundamental de frecuencia.
Luego, en la unidad tres se puede apreciar el análisis estadístico de las variables
cualitativas y para ello se considera: razón, proporción, porcentajes y tasas.
A continuación, la unidad cuatro procede al análisis descriptivo de las variables
cuantitativas a través de las medidas de tendencia central y de dispersión, que
sintetizan la información sobre los datos que analizamos, facilitando su manejo. En
lugar de trabajar con toda la tabla de frecuencias, las medidas resumen los valores
que separan a los datos en grupos significativos.
Posterior a ello en la unidad cinco se estudian las distribuciones bidimensionales,
es decir, se analizan al mismo tiempo dos variables de cada elemento de la
población. Estas variables pueden ser cuantitativas o cualitativas; para ello se
desarrollarán un conjunto de técnicas que permitan describir las relaciones que
ligan a esas dos variables o atributos, para establecer el grado de dependencia o
asociación entre ellos, así como para estimar a una de éstas a partir del
comportamiento de la otra.
Finalmente la unidad seis desarrolla los principios para determinar el número de
combinaciones de elementos de un conjunto finito, que es fundamental para
establecer la tradicional conexión entre combinatoria y probabilidad.
6. 5
1.1 Introducción
¿Quién no se ha preguntado por qué hay diferencias entre padres e hijos? Ya sea
en rasgos físicos, personalidad, gustos, etc. La respuesta es, a la luz de la ciencia,
¡La Variabilidad! que es la característica más relevante de todos los seres vivos.
Se interpreta como las diferencias existentes entre individuos de un mismo grupo
aún cuando tengan un estrecho vínculo de parentesco, incluso entre gemelos. La
variabilidad es el atributo que caracteriza a la naturaleza así como el azar esta
presente en los hechos biológicos. Esta variabilidad puede generarse por alguna o
más de una de las siguientes causas.
a. El medio ambiente o efecto ecológico.
b. La herencia o efecto genético.
La Variabilidad es la esencia misma de la estadística, ella estudia, analiza, explica
los efectos de la primera a través de los métodos que se fundamentan en la
matemática, la experimentación y la observación. Esta no puede estudiarse en un
7. 6
solo individuo, la formulación de un problema estadístico requiere de la presencia
de un grupo de ellos, mejor si es un conjunto numeroso.
Originalmente estadística derivó del vocablo “estado”
¿Por qué?
Porque la función tradicional de los gobiernos centrales es y ha sido llevar la
cuenta de la cantidad de:
Habitantes
Nacimientos
Defunciones
Empleo
Desempleo
Empresas
Costo de la vida
Etc.
Aunque se tiene muchos años de experiencia en la recolección de este tipo de
información, se continúa presentando complicaciones y oportunidades para la
contribución científica en lo que respecta a:
recolectar procesar interpretar
Hoy en día muchas actividades están relacionadas con la estadística y muchas
ocupaciones implican el uso del método científico.
1.2 Historia de la Estadística
La Estadística, tal como se la definió, se fundamenta en el cálculo de
probabilidades y se desarrolló a partir de inicios del siglo pasado. A veces se
denomina Estadística Matemática en oposición a la Estadística Estatal, cuya
misión es el registro de las estadísticas de los estados: población, empleo,
consumo, etc. La estadística estatal se remonta a las primeras civilizaciones
conocidas (5000 A.d.C. Sumeria, Mesopotamia, Egipto). En los siglos XVII y XVIII
a pedido de jugadores de azar, los matemáticos Bernoulli y De Moivre
desarrollaron parte de la teoría de probabilidad, como también Laplace y Gauss en
el siglo XIX.
Por la misma época, el religioso agustino y botánico austriaco, Gregori Mendel
(1822 – 1884) se hizo célebre por sus experimentos acerca de la herencia de los
caracteres en los guisantes, llevados a cabo entre 1856 a 1864 al cruzar sepas
que diferían por un solo carácter ( grano liso o rugoso, flor blanca o amarilla, etc).
Genera muchas clases de datos numéricos
Eficientemente tales datos
8. 7
Las leyes de reaparición del carácter en cuestión y su transmisión fueron
publicadas en 1965 y redescubiertas recién en 1900 las cuales recibieron el
nombre de Leyes de Mendel.
A finales del siglo XIX y comienzos del XX Quetelet, aplico la estadística a la
investigación de problemas sociales y educativos. Francis Galton fue el que
promovió su aplicación en colaboración con Pearson. En el siglo XX, Pearson,
Fixher, Gosset introducen nuevas técnicas y métodos en muestras de pequeño
tamaño. Hoy en día, es la principal herramienta metodológica en toda
investigación de cualquier ciencia.
1.3 Definición de estadística
es la
que proporciona
destinados a
los
para la
1.4 Clasificación de la estadística
De acuerdo a la anterior definición la estadística se clasifica en:
Estadística descriptiva.-
ESTADÍSTIC
A
Recolecta
r datos
Clasificar
datos
Prestar
datos
Tablas
Análisis
descriptiv
o
CIENCIA
MÉTODOS PROCEDIMIENTO
S
CLASIFICAR ANALIZARRECOLECTA
R
INTERPRETA
R
DATOS
TOMA DE
DECISIONES
9. 8
Es otras palabras podemos expresar que un estudio estadístico se
considera “descriptivo” cuando sólo se pretende analizar y describir los
datos.
Estadística Inferencial.-
Proporciona la teoría necesaria para inferir o estimar las leyes de una
población partiendo de los resultados o conclusiones del análisis de una
muestra que atañen a una población y como estas conclusiones nunca
pueden ser absolutamente ciertas, ellas estarán ligadas a cierto grado de
incertidumbre o probabilidad.
Modelización Estadística.-
Tiene por objetivo manejar la información para formar modelos aplicados a
la realidad con capacidad para predecir. Trata de establecer relaciones
lineales o no entre variables ajustándose a hipótesis probabilísticas. El
insumo importante es proporcionado por muestras.
1.5 Fuentes de Datos Estadísticos
Son los lugares donde se obtienen informes, resúmenes, hechos,
acontecimientos.
Fuente Primaria
Es la persona o acontecimiento que se estudia y al cual se tiene acceso directo,
es decir se puede hablar u observar directamente a ese individuo o presenciar el
acontecimiento.
Fuente Secundaria
Es el documento que recoge en forma exhaustiva las características de la persona
y/o del fenómeno que sufre como (una enfermedad, matrimonio, nacimiento) o
simplemente sus características como el sexo, color de la piel, ojos, peso,
estatura. Son conocidos también como fuentes secundarias los lugares donde
estos documentos se encuentran almacenados como ser: Registro Civil, Instituto
Nacional de Estadística, oficinas administrativas, hospitales, policlínicos, que
guardan los documentos antes citados.
También pueden considerarse en esta fuente, los registros como son: tarjetas de
ingreso de una institución, partes de asistencia, planillas de sueldos, Balances
Gráficas
10. 9
diarios, semestrales y anuales de los bancos, pólizas de importación, registros de
la precipitación pluvial, etc.
Fuente Terciaria
Son documentos que procesan la información de la fuente primaria o de la
secundaria, ubicando características similares, organizadas y presentadas al
investigador, en un boletín que puede ser de una plana. Con mayor razón serían
fuentes de investigación terciarias las revistas, periódicos, libros y cualquier otro
tipo de publicación que presenta datos procesados.
Diseños Experimentales
Generan información como respuesta a estudios en los que el investigador esta en
posibilidades de controlar variables independientes, buscando relaciones puras.
Por Ejemplo, ¿Cuál es el rendimiento de una variedad de maíz sembrado en
parcelas de iguales características de suelo que reciben 4 concentraciones de
fertilizante? Se obtienen 4 posibles respuestas. Por otra parte si se quiere medir
el rendimiento en 3 tipos de suelo, con 2 profundidades de sembrado y 4
fertilizantes se obtendrán 24 resultados. En estos 2 últimos ejemplos, ya sea por
criterio propio o experiencia de otros, elige el terreno, decide las profundidades de
sembrado y las dosis o variedades de fertilizante, y lo que llega al azar son los
rendimientos (variables respuestas, efecto) sobre la que no tiene ningún tipo de
acción.
1.6 Procedimiento para Recolectar Datos
Es necesario determinar el método de recolección de datos y tipo de instrumento
que se utilizará siendo esto la base para etapas siguientes.
Método.-
Es el medio o camino a través del cual se establece la relación entre el
investigador y el consultado para la recolección de datos y el logro de los
objetivos; se citan la entrevista, la observación y el cuestionario.
Instrumento.-
Es el mecanismo que utiliza el investigador para recolectar y registrar la
información; entre estos se encuentran los formularios, las pruebas
psicológicas, las escalas de opinión y de actitudes, las listas u hojas de
control y otros.
1.6.1 Observación
11. 10
Es el registro visual de lo que ocurre en una situación real, clasificando y
consignando los acontecimientos pertinentes de acuerdo con algún esquema
previsto y según el problema que se estudia.
Cuando se decide utilizarla se debe tomar en cuenta ciertas consideraciones.
Como método de recolección de datos, debe ser planificado cuidadosamente para
que reúna los requisitos de validez y confiabilidad.
También Quinteros comenta que “las condiciones de una investigación pueden
ser seriamente objetables si en el diseño de la misma no se han tomado en cuenta
los posibles errores de la observación”.
Estos errores están relacionados con:
Los observadores.
El instrumento utilizado para la observación.
El fenómeno observado.
1.6.2 La Encuesta
Este método consiste en obtener información de los sujetos de estudio,
proporcionada por ellos mismos, sobre opiniones, actitudes o sugerencias. Hay
dos maneras de obtener información con este método: la entrevista y el
cuestionario.
La Entrevista
Es la comunicación interpersonal establecida entre el investigador y el sujeto de
estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre
el problema propuesto.
Esta técnica de recolección de datos tiene muchas ventajas; es aplicable a toda
persona, siendo muy útil en los analfabetos, los niños o con aquellas personas que
tienen alguna limitación física u orgánica que les dificulte proporcionar una
respuesta escrita.
Hay dos tipos de entrevista: la estructurada y la no estructurada. La primera se
caracteriza por estar rígidamente estandarizada; se plantean idénticas preguntas y
en el mismo orden a cada uno de los participantes, quienes deben escoger la
respuesta entre 2, 3 o más alternativas que se les ofrecen. Sin embargo el
investigador tiene limitada libertad para formular preguntas independientes
generadas por la interacción personal.
Algunas ventajas que presenta este tipo de entrevista son:
La información es más fácil de procesar, simplificando el análisis
comparativo.
El entrevistador no necesita ser entrenado arduamente en la técnica.
Hay uniformidad en el tipo de información obtenida.
12. 11
Pero también tiene desventajas, tales como:
Es difícil obtener información confidencial.
Se limita la posibilidad de profundizar en un tema que emerja durante la
entrevista.
La entrevista no estructurada es más flexible y abierta, aunque los objetivos de la
investigación rigen a las preguntas; su contenido, orden, profundidad y formulación
se encuentran por entero en manos del entrevistador. Es muy útil en los estudios
descriptivos y en las fases de exploración para el diseño del instrumento de
recolección de datos.
Las ventajas de este método son:
Es adaptable y susceptible de aplicarse a toda clase de sujetos en
situaciones diversas.
Permite profundizar en los temas de interés.
Orienta a posibles hipótesis y variables cuando se exploran áreas nuevas.
Entre sus desventajas se cita:
Se requiere más tiempo.
Es más costoso por la inversión de tiempo de los entrevistadores.
Se dificulta la tabulación de los datos.
Se requiere mucha habilidad técnica para obtener la información y mayor
conocimiento del tema.
Cuestionario
Es el método que utiliza un instrumento o formulario impreso, destinado a obtener
respuestas sobre el problema en estudio y que el investigador o consultado llena
por sí mismo.
Algunas ventajas del cuestionario son: su costo relativamente bajo, su capacidad
para proporcionar información sobre un número mayor de personas en un
período bastante breve y la facilidad de obtener, cuantificar y analizar e interpretar
los datos.
Dentro de sus limitaciones figuran las siguientes: es poco flexible, la información
no puede variar ni profundizarse; si el cuestionario se envía por correo se corre
el riesgo de que no llegue al destinatario o no se obtenga respuesta de los
encuestados; además, resulta difícil obtener una alta tasa de compleción del
cuestionario. Debido a esta posible pérdida de información se recomienda que se
seleccione una muestra más grande de sujetos de estudio.
1.6.3 Consideraciones generales para la elaboración del formulario
Si el investigador decide utilizar la observación regulada, la entrevista o el
cuestionario u otra fuente de información secundaria como método de recolección
de datos, debe elaborar un instrumento para obtener la información que requiere,
13. 12
siendo el formulario el que se emplea con más frecuencia. Para diseñar
correctamente un formulario es necesario considerar algunos criterios
relacionados con su organización, las preguntas a plantear según los objetivos
propuestos en la investigación y las características físicas de los formularios.
1.6.4 Requisitos de un instrumento de medición
Las características de relevancia de los instrumentos de medición son:
Confiabilidad
Validez
El término confiabilidad se refiere a la capacidad del instrumento para arrojar datos
o mediciones que correspondan a la realidad que se pretende conocer, o sea, la
exactitud de la medición, así como a la consistencia o estabilidad de la medición
en diferentes momentos.
Se dice que el instrumento es confiable si se obtienen medidas o datos que
representen el valor real de la variable que se está midiendo y si estos datos o
medidas son iguales al ser aplicados a los mismos sujetos u objetos en dos
ocasiones diferentes, o al ser aplicados por diferentes personas.
La validez es entendida como el grado en que un instrumento logra medir lo que
se pretende medir.
1.7 Parámetro y estadígrafo
Parámetro
Medida que describe alguna característica de una población.
Se necesita utilizar la información de la población completa.
Las decisiones se toman con certidumbre total.
Las más usadas son:
i) Media poblacional ii) Proporción poblacional iii) Varianza poblacional
Estadígrafo
Medida que describe alguna característica de la muestra.
La toma de decisiones contiene un grado de incertidumbre.
Las más usadas son:
i) Media muestral ii) Proporción muestral iii) Varianza muestral
14. 13
1.8 Etapas del método científico y estadístico
La estadística ha tenido su origen paralelamente a la investigación
comprendiéndose éste último concepto como el desarrollo sistematizado de la
curiosidad. En las actividades cotidianas se utiliza el proceso de inducción es decir
se analizan las partes para llegar a un todo, el de deducción que inicia en el todo
hasta llegar al detalle; combinándose éstos se puede legitimar lo conocido como
cierto y utilizarlo en ocasiones semejantes. El instrumento de validación de
conocimientos o método científico tiene los siguientes pasos:
Observación del fenómeno
Formulación de una hipótesis
Verificación de la hipótesis
1.8.1 Etapas del método estadístico
De acuerdo con el orden de aplicaciones de la estadística a un problema
determinado, los métodos estadísticos se dividen en 4 etapas:
1. Planificación del estudio
Tiene por finalidad estudiar los detalles concernientes a la recolección,
clasificación y análisis de la información, en base a la cual se describen las
características de una determinada población o se confirmará o negará
determinada hipótesis de trabajo.
Se esquematiza la planificación en los siguientes pasos:
Primer Paso: Planteamiento del problema
El planteamiento del problema responde a la delimitación y jerarquización
del tema, lo que justifica el porqué se lo está investigando. Además debe
ser delimitado en base al tiempo y el espacio, es decir en que lapso de
tiempo, y en que límites geográficos ha de ser observado. Asimismo debe
ser jerarquizado en base a tres criterios de magnitud, trascendencia y
vulnerabilidad, es decir:
Definir la naturaleza e importancia del problema que se estudia.-
Naturaleza explicar ¿qué vamos a estudiar?
Importancia cuantificar su extensión ¿por qué se va estudiar?
Segundo Paso: Elaboración del Marco Teórico
15. 14
El marco teórico proporciona los conocimientos del tema que se está
investigando, en este acápite se detallan las definiciones y explicaciones
pre-existentes, asimismo anteriores investigaciones y sobre todo las
aclaraciones de los conceptos relativos al tema que se utiliza en el trabajo.
Proporciona información a través de una adecuada bibliografía, posibilita
familiarizarse con el tema, preparando el terreno de conocimientos para
acceder a la comprensión de la hipótesis de trabajo, de los objetivos que se
plantearan, el análisis de los datos, de las técnicas de investigación que se
utilizarán y el resultado obtenido a partir del cual se emitirán las
conclusiones y recomendaciones respectivas.
Tercer Paso: Determinación de objetivos
a) Objetivo general explicar para que se realiza la investigación
b) Objetivos específicos explicar cómo se realizará la investigación
Cuarto Paso: Formulación y Verificación de hipótesis
Hipótesis es una afirmación que está sujeta a verificación.
Se trata de probar una hipótesis de trabajo.
Su formulación debe hacerse claramente, ya que el diseño, planificación
y desarrollo de la investigación dependerán de la hipótesis que se trata
de probar.
La verificación de la hipótesis constituye la investigación propiamente dicha,
en la cual se consideran 2 aspectos:
a) Diseños de la Investigación
Estudiar por adelantado cada una se sus diferentes etapas,
recolección, organización, y análisis de los datos.
Determinar de antemano todo lo concerniente a las observaciones
que se harán
El número de individuos que se estudiará
El procedimiento a utilizar en su selección
Investigar cuidadosamente si existen factores éticos
Época en que hará el estudio
Tiempo que durará
Gastos que determinará
Seleccionar y entrenar el personal que va colaborar
16. 15
Definir la unidad que se observa, con el fin de incluir la totalidad de
los individuos que presentan las características que se estudia y
excluir aquellos que no las presentan
Definir lo que se va observar, para que todos los individuos sean
estudiados uniformemente.
Hacer un balance de los recursos que se dispone y los que se
necesitarán para ejecutar la investigación conforme lo planeado.
b) Ejecución de la Investigación
Es la recolección, clasificación y análisis de la información recogida,
etapas que debe realizar de acuerdo a lo planificado.
2. Recolección de la información
Está en función a las características del problema abordado y dependiendo
de la determinación de la población a ser estudiada, se tienen dos maneras
de realizar un estudio de la población:
En forma exhaustiva, global, total, completa, que significa estudiar todos
y cada uno de los integrantes de la población, siendo el resultado un
reflejo real y exacto de ella.
Mediante una muestra representativa de la población, que tiene las
mismas características cuantitativas y cualitativas de la población total o
universo, proporcionando los mismos datos que se obtiene al estudiar al
total de la población.
Por otra parte se debe considerar, la información que se va a recoger y la
precisión con la que debe ser obtenida, ello dependiendo del propósito de la
investigación y del material estudiado, siendo conveniente limitarse a
recoger tan sólo aquella información que va a utilizarse.
Los principales puntos que deben considerarse al recoger de la información
son:
a) Los errores que pueden cometerse en la recolección de los datos y la
manera de controlarse
b) Las ventajas y limitaciones de los diversos métodos empleados en la
recolección de la información
17. 16
c) Las condiciones que deben reunir los individuos que se estudian y los
procedimientos más convenientes para su elección.
d) El diseño de los formularios que servirán para registrar la información
que se recoja.
3. Tabulación, análisis e interpretación de los resultados
Tabular es contar y ordenar la información recabada, ello a partir de la
confección de cuadros, gráficos, y toda ayuda posible para poder luego
analizar la información disponible.
En el Análisis mediante formulas estadísticas y el uso de tablas
específicamente diseñadas, se efectúa la comparación de las medidas de
resumen previamente calculadas; por ejemplo, si antes se han calculado los
promedios de peso de dos grupos de personas sometidas a diferentes
dietas, el análisis estadístico de los datos consiste en la comparación de
ambos promedios con el propósito de decidir si parece haber diferencias
significativas entre tales promedio.
En Interpretación se explica el sentido de todos los datos obtenidos.
4. Conclusiones y recomendaciones
Ejecutado el estudio, se considera si fue realizado conforme se había
planificado y con los resultados a la vista se concluirá si la hipótesis a
sido verificada o no, emitiéndose las conclusiones y recomendaciones
pertinentes.
5. Presentación de resultados
Es la última actividad del proceso de investigación en la cual se dan a
conocer los resultados y con ello se estará contribuyendo a incrementar los
conocimientos existentes sobre el tema en estudio y se permitirá la
aplicación de las soluciones encontradas a los problemas que motivaron la
investigación.
1.9 Población y Muestra
Población o Universo
La totalidad de individuos o
elementos en los cuales puede
presentarse determinada
característica susceptible de ser
estudiada
18. 17
Ejemplos:
a) Población de ventas anuales de los supermercados de La Paz.
b) Población de todos los posibles resultados cara y sello que se obtiene al
arrojar una moneda un número indefinido de veces.
c) Población de puntajes de rendimiento en la lectura de todos los alumnos del
nivel primario es un sistema escolar.
La población puede ser finita o infinita, dependiendo del número de elementos que
la conforman.
Población finita, es aquella que tiene un número determinado de elementos.
Población infinita, es aquella que tiene un número infinito de elementos.
Muestra
Al número de electos de la muestra se denomina “tamaño de la muestra”.
Se llama unidad estadística o individuo a
cada uno de los elementos que
componen la población estadística. El
individuo es un ente observable que no
tiene por qué ser una persona, puede
ser un objeto, un ser vivo, o incluso algo
abstracto.
La investigación a partir de una muestra
tiene muchas ventajas, entre las que se
destacan las siguientes:
Permite que el estudio se realice en menos tiempo.
Se incurre en menos gastos.
Posibilita profundizar en las variables.
Permite tener mayor control de las variables a estudiar.
Parte o subconjunto de la población al cual se
tiene acceso y sobre el que se realizan las
observaciones (mediciones).
Debe ser “representativa”
Estar formada por miembros
“seleccionados” de la población (individuos,
unidades experimentales).
19. 18
Dato estadístico
Son números o medidas que han sido recopiladas como resultado de
observaciones, que pueden ser comparadas, analizados e interpretados. Un
número aislado que no puede compararse o que no muestre relación significativa
con otros números no es un dato estadístico.
Tipos de Muestreo
Son técnicas o procedimientos que aseguran la representatividad muestral para
que las unidades sean seleccionadas al azar; según la ley de probabilidades, al
escoger la muestra al azar se puede tener casi la certeza de que esa muestra
será representativa.
Según Pardinas, el muestreo consiste en:
Seguir un método, un procedimiento tal que al escoger un grupo pequeño de una
población podamos tener un grado de probabilidad de que ese pequeño grupo
efectivamente posee las características del universo y de la población que
estamos estudiando.
TIPOS DE
MUESTREO
No ProbabilísticoProbabilístico
Aleatorio
simple
Estratificado
Sistemático
Conglomerado
Por conveniencia
Por cuotas
Accidental
20. 19
Muestreo probabilístico
Aleatorio simple.-
Para que un muestreo sea aleatorio es requisito
que todos y cada uno de los elementos de la
población tengan la misma probabilidad de ser
seleccionados. Existen varias modalidades, una de
ellas es el procedimiento de tipo “sorteo” o “rifa”
(por Ejemplo, colocando en un recipiente fichas o
papeles que contengan nombre o números que
correspondan a cada unidad del universo).
Otra técnica utilizada es hacer uso de la tabla de números aleatorios, este
método es más rápido y práctico
Estratificado.-
Este término proviene de la
palabra “estrato” se caracteriza
por la subdivisión de la
población en subgrupos o
estratos, debido a que las
variables principales que deben
someterse a estudio presentan
cierta variabilidad o distribución
conocida que puede afectar los
resultados.
El número de elementos que deberá tomarse de cada estrato se determina
proporcionalmente, según la cantidad de unidades que integra cada estrato
y en base a la totalidad de la población muestral.
Sistemático.-
Es similar al aleatorio simple, en donde cada unidad del universo tiene igual
probabilidad de ser seleccionada, variando en el proceso de selección de la
muestra. Las etapas que deben seguirse son las siguientes:
o Determine el número de unidades que conformará su muestra (n).
o Asegúrese de la cantidad que integra su población y que todas las
unidades estén enumeradas.
o Calcule el ”número de selección sistemática”.
21. 20
𝑁
𝑛
=
500
100
= 5 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑠𝑒𝑙𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
o Determine la unidad muestral por la que se iniciará la selección de la
muestra; se puede hacer al azar o por sorteo, definiendo de esas 5
primeras unidades la cifra por la cual se iniciará la selección.
o Proceda a conformar la muestra; si al realizar el sorteo le resulta el
número 4 y dado que el “número de selección sistemática” es 5, la
primera unidad será 4 y las siguientes 9, 14, 19, y así sucesivamente
hasta completar los 100 elementos.
Conglomerado.-
Se utiliza cuando no se dispone de una lista detallada y enumerada de cada
una de las unidades que conforman el universo y resulta muy compleja
elaborarla.
Se le denomina así debido a que en la selección de la muestra en lugar de
escogerse cada unidad se procede a tomar los subgrupos o conjuntos de
unidades, a los que se llama “conglomerados”.
22. 21
Se tiende a creer que es lo mismo que el estratificado, ambos se
diferencian en que en el primero los subconjuntos se dan en la vida real o
ya están agrupados de esa manera; por Ejemplo: escuelas, tipos de
industrias, bloques de casas y otros. En el de estratos el investigador
decide las agrupaciones que utilizará según la posible variabilidad de los
fenómenos a estudiar. Otra diferencia es que en el de estratos el
investigador conoce la distribución de la variable, no así en el de
conglomerado.
El proceso se inicia definiendo los conglomerados, después se seleccionan
los subconjuntos a estudiar (o sea que se realiza un muestreo de
conglomerado); de estos seleccionados se procede a hacer el listado de las
unidades que componen cada conglomerado, continuando posteriormente
23. 22
con la selección de las unidades que integrarán la muestra, siguiendo
alguno de los métodos aleatorios indicados.
Muestreo no probabilístico
Se caracteriza porque el investigador selecciona su muestra siguiendo algunos
criterios identificados para los fines del estudio que le interesa realizar.
Por conveniencia o intencional.-
En el que el investigador decide, según sus
objetivos, los elementos que integrarán la
muestra, considerando aquellas unidades
supuestamente “típicas” de la población que
desea conocer.
Por cuotas.-
Consiste en que el investigador selecciona la muestra considerando
algunos fenómenos o variables a estudiar, como sexo, raza, religión, etc. El
paso inicial consiste en determinar la cantidad o “cuota” de sujetos de
estudio a incluirse y que poseen las características indicadas; un Ejemplo
de esto son las encuestas de opinión pública, en las que los encuestadores
proceden a buscar las personas hasta cubrir la cuota previamente fijada, sin
preocuparse por áreas geográficas, zonas u otro criterio.
Accidental.-
Consiste en aprovechar o utilizar para el estudio las personas disponibles
en un momento dado según lo que interese estudiar. Éste es el menos
eficiente.
24. 23
2.1 Tabulación
La palabra tabular significa expresar u ordenar unos datos en forma de tablas.
El proceso de tabulación consiste en el recuento de los datos que están
contenidos en los cuestionarios. En este proceso incluimos todas aquellas
operaciones encaminadas a la obtención de resultados numéricos relativos a los
temas de estudio que se tratan en los cuestionarios. Se requiere una previa
codificación de las respuestas obtenidas en los cuestionarios. Realizamos
tabulación, codificación y diseño de gráficos con datos biográficos, de consumo o
de opinión. Los resultados serán presentados en tablas y/o mapas gráficos que
expliquen las relaciones existentes entre las diversas variables analizadas. Esta
presentación se adecuará a la petición de nuestros clientes mediante análisis
estadísticos de datos, grabados por nosotros o por terceros, análisis bivariantes,
análisis multivariantes, tests de contraste de hipótesis
2.2 ¿Qué es una distribución de frecuencia?
Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus
respectivas categorías.
25. 24
2.3 El elemento clase de la distribución de frecuencia.
2.3.1 Frecuencia de clase
Se llama frecuencia de clase a la reunión de grandes cantidades de datos sueltos
distribuidos en clases o categorías, determinando el número de individuos que
pertenecen a cada categoría.
Estatura
(pulg)
Número de
estudiantes
60 - 62
63 - 65
66 - 68
69 - 71
72 - 74
5
18
42
27
8
Total 100
2.3.2 Distribución de frecuencia o tabla de frecuencia
Se conoce como distribución de frecuencias o tablas de frecuencias a una
disposición tabular de los datos por clases con su correspondiente frecuencias de
clase.
2.3.3 Datos agrupados
A los datos así organizados y reunidos, como en la anterior distribución de
frecuencias, se llama datos agrupados. Esto proporciona una visión amplia y clara,
además de que se obtienen relacionados evidentes.
2.3.4 Intervalos de clase y límites de clase
Intervalo de clase Símbolo que define una clase
Ejemplo:
60 - 62 , 72 - 74
26. 25
límite inferior límite superior
Aun intervalo de clase que, por lo menos teóricamente no tiene límite de clase
inferior o superior se le llama intervalos abierto.
Ejemplo:
65 años o más
2.3.5 Fronteras de clase
En el ejemplo anterior el intervalo 60 – 52 incluye todas las medidas desde 59.5
pulg. y 62.5 pulg., a estos números se les llaman frontera de clase o límites
verdaderos de clase.
De aquí:
59.5 es la frontera inferior de clase
62.5 es la frontera superior de clase
2.3.6 Tamaño o amplitud de un intervalo
Es la diferencia entre las fronteras de clase inferior y superior. Si todos los
intervalos de una distribución de frecuencias son de las misma amplitud, a esta
amplitud común se la denota por c.
Ejemplo:
62.5 - 59.5 = 3
65.5 – 62.5 = 3
2.3.7 Marca de clase
La marca de clase, que es el punto medio del intervalo de clase, se obtiene
promediando los límites inferior y superior de la clase. De este modo:
Del ejemplo anterior tenemos el intervalo 60 - 62
Marca de la clase: (60 + 62)/2 = 61
La marca de clase es, en definitiva, el valor que representa a la información
contenida en el intervalo.
2.3.8 Rango
Es la diferencia entre el número mayor y el número menor de os datos sueltos.
27. 26
Ejemplo:
Supongamos que las alturas de plantas, en una clase de botánica son las
siguientes:
64 73 68 68 76 70 62 67 71 69
68 60 65 68 66 68 67 71 66 72
Luego el rango de estos datos es:
R = 76 – 60 = 16
2.4 Reglas generales para construir distribución de frecuencias
1. Determinación del Rango.- Es conveniente primero determinar el rango de
los datos obtenidos.
2. Determinación del número de clase.- Cosiste en dividir el rango en un
número conveniente de intervalos de clase, generalmente del mismo tamaño.
Es conveniente tener entre 5 y 20 intervalos de clase. Entre más datos se
tengan, más intervalos de clase deben considerarse. No hay fórmula exacta
para calcular el número de intervalos de clase. Este número es determinado
por tentativas y aproximaciones. Sin embargo se puede, en principio tomar en
cuenta lo siguiente:
a) Número de clases = K = 5, si n = tamaño de la muestra <= 5
y K = √n , si n > 20
b) Fórmula de Sturges:
K = 1 + 3.22 log(n)
Cuando los resultados para obtener K en a) y b) son números reales
con decimales, entonces se redondearán al entero inmediato mayor.
3. Determinación del tamaño de los intervalos.- Como regla general para
encontrar la longitud de los intervalos (del mismo tamaño), divídase el rango
de las observaciones entre el número de intervalos de clase, esto es, Amplitud
de clase = C = R/K.
4. Determinación de los límites de la clase.- Se debe tomar el resultado
numérico más bajo de los datos originales como el límite inferior del primer
intervalo de clase. Agregar C para obtener el límite superior de dicha clase.
5. Determinación de la frecuencia de clase.- Consiste en determinar el
número de observaciones que caen en cada intervalo de clase.
28. 27
Técnicas de recuento
El proceso manual de recuento se puede hacer por:
2.5 Frecuencia absoluta simple
Frecuencia absoluta de un dato (fi)
Llamaremos frecuencia absoluta de un valor xi de la variable estadística x, al
número de veces que aparece repetido dicho valor en el conjunto de las
observaciones realizadas.
Ejemplo
Se quiere saber el número de hijos por matrimonio de un pequeño poblado. Para
este propósito, se elige una muestra representativa de 50 matrimonios de ella se
obtienen los siguientes datos:
2 , 2 , 4 , 1 , 3 , 5 , 3 , 2 , 1 , 6 , 3 , 4 , 1 , 2 , 0 , 2 , 3 , 1 , 7 , 4 , 2 , 3 , 0 , 5 , 1 , 4 , 3
, 2 , 4 , 1 , 5, 2 , 1 , 2 , 4 , 0 , 3 , 3 , 2 , 6 , 1 , 5 , 4 , 2 , 0 , 3 , 2 , 4 , 3 , 1
x i f i
0 4
1 9
2 12
3 10
4 8
5 4
6 2
7 1
Frecuencia absoluta acumulada de un dato (Fi)
La frecuencia absoluta acumulada indica cuantos elementos de la lista de datos
son menores o iguales a un valor dado. Es la suma de las frecuencias absolutas
desde la primera fila hasta la fila elegida.
29. 28
Por ejemplo anterior, sabemos que hay 25 matrimonios de la muestra que tienen
2 o más hijos.
x i f i F i
0 4 4
1 9 13
2 12 25
3 10 35
4 8 43
5 4 47
6 2 49
7 1 50
2.6 Frecuencia relativa
Frecuencia relativa de un dato ( hi )
La frecuencia relativa es el cociente entre la frecuencia absoluta ( fi ) y el número
total de datos ( n ).
hi = fi /n
En nuestro ejemplo:
x i f i F i h i
0 4 4 0,08
1 9 13 0,18
2 12 25 0,24
3 10 35 0,20
4 8 43 0,16
5 4 47 0,08
6 2 49 0,04
7 1 50 0,02
Frecuencia relativa acumulada de un dato ( Hi )
La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta
acumulada ( F i ) y el número total de datos ( n ).
En nuestro ejemplo:
x i f i F i h i H i
0 4 4 0,08 0,08
1 9 13 0,18 0,26
2 12 25 0,24 0,50
30. 29
3 10 35 0,20 0,70
4 8 43 0,16 0,86
5 4 47 0,08 0,94
6 2 49 0,04 0,98
7 1 50 0,02 1,00
2.7 Representación grafica de variables cuantitativas
Las más usadas son:
1. Diagrama de barras.
Esta forma de representación gráfica es propia de las distribuciones que
tienen muchas observaciones pero pocos valores distintos de la variables.
Dicho diagrama se elabora colocando en el eje de las abscisas los distintos
valores de la variable y sobre cada una de ellas se levanta una línea
perpendicular, cuya altura es la frecuencia (absoluta o relativa) de dicho
valor.
31. 30
2. Histogramas.
Es una representación gráfica de una distribución de frecuencia
agrupaciones en intervalos de clase, mediante una serie de rectángulos
contiguos que tienen:
a) Sus bases sobre un eje horizontal (eje de las X) con centros en las
marcas de clase y longitud igual al tamaño de los intervalos de clase.
b) Las alturas proporcionales a la frecuencia (absoluta o relativa)
tomados sobre el eje de las Y.
A veces conviene más graficar en el histograma las frecuencias relativas en
lugar de las frecuencias absolutas. En este caso, la altura correspondiente
a cada rectángulo que habrá que levantar sobre el eje de ordenadas será el
cociente entre la frecuencia relativa del mismo y la amplitud del intervalo. El
único cuidado que debe tenerse es que el área total del histograma sea
igual a 1, correspondiente a la suma total de áreas de cada rectángulo.
Se utiliza cuando se estudia una variable continua, como franjas de edades
o altura de la muestra, y, por comodidad, sus valores se agrupan en clases,
es decir, valores continuos. En los casos en los que los datos son
cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de
estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y
económicas que en ciencias naturales y exactas. Y permite la comparación
de los resultados de un proceso.
Puntajes
X
frecuencia absoluta Marca de Clase
11 – 17 6 14
17 – 23 4 20
23 – 29 15 26
29 – 35 13 32
35 – 41 1 38
41 – 47 1 44
Total 40
32. 31
3. Polígono de frecuencia
a) Si la variable es discreta, el polígono de frecuencia se obtienen
uniendo los extremos superiores de las barra en el diagrama de
barras
33. 32
b) Si la variable está agrupada en intervalos de clase, el polígono de
frecuencia se obtiene uniendo los puntos medios de las bases
superiores de cada rectángulo en el histograma.
4. Polígono de frecuencia acumuladas u ojiva
Esta representación es válida para variables estadísticas agrupadas en
intervalo clase.
En el eje de las abscisas representamos los distintos intervalos de clase que
han de estar naturalmente traslapados. En el extremo superior de cada
34. 33
intervalo se levanta una vertical con altura igual a la frecuencia (absoluta y
relativa) acumulada, luego se unen los extremos superiores de las verticales
con segmentos rectilíneos. Así por ejemplo el polígono de frecuencia
acumuladas absolutas alcanzará su máxima altura en el último intervalo.
2.8 Representación de variables cualitativas
a) Diagrama de rectángulos o de Barras
Se representa en el eje de las abscisas los distintos caracteres cualitativos
y se levantan sobre ellos rectángulos de bases iguales que no tiene porque
estar traslapados y cuya altura será igual a la frecuencia absoluta
correspondiente.
Ejemplo:
FACULTAD NUMERO DE ALUMNOS
Ingeniería Metalúrgica 200
Economía 1500
Ingeniería Industrial 3000
Contabilidad 800
Derecho 700
Ciencias de la Comunicación 900
Ingeniería de Sistemas 400
Ciencias Administrativas 600
35. 34
Ejemplo:
Causa del Accidente
Sexo
Total
Masculino Femenino
Accidentesde
transporte 1145 232 1377
Sumersión
accidental
346 92 438
Caída 242 101 343
Envenenamientos 58 43 101
Otros accidentes 653 311 964
TOTAL 2444 779 3223
36. 35
b) Diagramas de sectores o Gráfico Sectorial
Es una representación de un conjunto de datos estadísticos, en un círculo,
por medio de sectores circulares. Es utilizado principalmente cuando se
pretende comparar cada valor de la variable con el total.
Causa del Accidente
Sexo
Total
Masculino Femenino
Accidentesde
transporte 1145 232 1377
Sumersión
accidental
346 92 438
Caída 242 101 343
Envenenamientos 58 43 101
Otros accidentes 653 311 964
TOTAL 2444 779 3223
37. 36
c) Pictogramas
Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo
tamaño es proporcional a la frecuencia que representan; dicha frecuencia
se suele indicar.
¿En qué mes se plantaron menos árboles?, ¿y en cuál se hicieron más
plantaciones?
38. 37
Una variable estadística es una característica de la población que interesa al
investigador y que puede tomar diferentes valores.
La variables estadísticas generalmente se denotan con las letras x, y, z, etc.
Ejemplo
Peso, Coeficiente Intelectual (CI), Sexo, Edad, etc. y toman distintos valores
cuando se observan diferentes individuos.
Importante: Si los valores numéricos que toma una variable, provienen de
factores fortuitos (accidental) y si un determinado valor no se puede
predecir exactamente con anticipación, esa variable se denomina “variable
aleatoria”.
3.1 Concepto de Variable Cualitativa
Sus valores consisten en categorías de clasificación, o sea se refiere a las
cualidades que presenta la población, no lleva clasificación numérica.
Se refieren a propiedades de los objetos en estudio, sean éstos animados o
inanimados. Lo que determina que una variable sea cualitativa es el hecho de que
no puede ser medida en términos de la cantidad de la propiedad presente, sino
que sólo se determina la presencia o ausencia de ella.
Por ejemplo: las variables sexo, ocupación , religión, procedencia, estado civil, se
consideran cualitativas en vista de que no se les puede asignar mayor o menor
peso a las diferentes categorías; lo único que se puede hacer es clasificarlas.
39. 38
A su vez estas variables puede clasificarse en:
Variable Cualitativa Nominal.- Surge cuando se definen categorías y se
cuenta el número de observaciones pertinentes a cada categoría y no lleva
ninguna ordenación en las posibles modalidades.
Ejemplo:
Variable Cualitativa Ordinal.-Cuando el investigador busca ordenar sus
casos en términos del grado que poseen una determinada característica. Es
decir se clasifican los objetos, hechos o fenómenos en forma jerárquica
según el grado que posea una característica determinada, sin proporcionar
información sobre la magnitud de las diferencias entre los casos así
clasificados.
Ejemplo
Variable Categorías
Estado marital Soltero
Casado
Divorciado
Viudo
Unión libre
Orientación en el tiempo Presente
Pasado
Futuro
Color de ojos Castaños
Azules
Negros, etc.
Partidos políticos UN
MAS
MSM, etc.
Variable Categorías
Clase social Alta, media, baja.
Nota de un examen Excelente, bueno, malo, pésimo
Puesto en una prueba deportiva 1o, 2o, 3º,...
Medallas en una prueba deportiva Oro, Plata, Bronce
40. 39
3.2 Razón
La Razón es el cociente de dos cantidades entre sí, que representan dos variables
sujetas a comparación de unidad vs. Unidad.
Ejemplo:
Se debe determinar que variable será la unidad, es decir el denominador.
a) En el caso de que la unidad corresponda a Mujeres, el denominador de las
dos variables será el número de las 15 Mujeres, realizándose las
operaciones de la siguiente manera:
15/15 = 1 10/15 = 0,67 1 : 0,67
Mujeres : Hombres
La interpretación de estas cifras no refiere que por cada mujer atendida se
atendió un poco más de la mitad de un hombre, sino que hay menos
hombres en la consulta que mujeres.
b) Si se decide que la unidad serán los hombres, el planteamiento es:
10/10 = 1 15/10 = 1,5 1 : 1,5
Hombres : Mujeres
Se aprecia que hay más mujeres atendidas que hombres.
Los resultados nos pueden dar las siguientes variaciones:
1 : 0,67 0,67 : 1
Mujeres : Hombres Hombres : Mujeres
1 : 1,5 1,5 : 1
Hombres : Mujeres Mujeres : Hombres
En todos los casos podemos inferir que hay más mujeres, aunque no
sabremos cuántas mujeres u hombres hay en el universo estudiado. La
razón es aplicada para valorar el crecimiento o la disminución de la
población.
Atención hospitalaria
Mujeres Hombres
15 10 25
41. 40
Ejemplo:
En el año 2002, según el Centro Nacional de Epidemiología se declararon los
siguientes casos de legionelosis (enfermedad bacteriana ambiental):
Comunitario
(adquirida en la comunidad)
Nosocomial
(adquirida en centros de salud)
Total
Casos Defunciones Casos Defunciones Casos Defunciones
372 9 29 5 401 14
Casos de Legionelosis adquirida en la comunidad / casos de legionelosis
nosocomiales
372 / 29 = 12,8
Por cada caso de legionelosis nosocomial hay 12,8 casos comunitarios
Defunciones por legionelosis comunitario / defunciones por legionelosis
nosocomiales
9 / 5 = 1,8
Por cada defunción por legionelosis nosocomial hay 1,8 defunciones por
legionelosis comunitario.
3.3 Proporción
Se utiliza como estimación de la probabilidad de un evento. Es la relación de dos
cifras, cuando una de ellas es una parte que se divide por el total, lo que se puede
explicar mejor, si tomamos las cifras del primer ejemplo
Total = 25 pacientes
Parte = 15 mujeres
Parte = 10 hombres
La proporción de las mujeres se obtiene dividiendo el número 15 entre el total de
los pacientes atendidos.
Proporción de mujeres: 15/25 = 0,6
Para el caso de los varones tendremos:
Proporción de hombres: 10/25 = 0,4
42. 41
Si observamos en la siguiente tabla las proporciones serán:
Mediante estas medidas tenemos idea de la proporción, pero al igual que en las
razones, ignoramos cuantas mujeres o varones existen en éste universo. En las
proporciones la suma de todas las partes siempre alcanzará la Unidad, por tanto
una proporción no excede la unidad.
Con el segundo ejemplo tendríamos:
3.4 Porcentajes
El porciento es el resultado de multiplicar la proporción por 100, así siguiendo con
el primer Ejemplo si tenemos las proporciones para mujeres y hombres.
Mujeres 0,6 le corresponde 60%
Hombres 0,4 le corresponde 40%
Nótese que observando los porcentajes, tampoco se sabe “CUANTAS” personas
existen, sólo sabemos que hay más mujeres que hombres. La suma de todos los
porcentajes hacen mucho mas “manejables” las cifras de las proporciones, por
qué se puede apreciar mejor un 40% que un 0,4%.
Atención
hospitalaria
Sexo
Proporción
Mujeres 0,6
Hombres 0,4
Total 1,0
Legionelosis Casos Proporción Defunciones Proporción
Comunitario 372 0,93 9 0,64
Nosocomial 29 0,07 5 0,36
Total 401 1,00 14 1,00
Atención
hospitalaria
Sexo
Proporción Porcentaje
Mujeres 0,6 60%
Hombres 0,4 40%
Total 1,0 100%
43. 42
3.5 Tasas
Esta medida, indicador o número índice es una proporción en la que se relaciona
como “parte” un hecho vital que frecuentemente tiene que ver con los nacimientos,
muertes, migraciones, estado civil, enfermedades con un “total” que suele ser la
población y cuyo cociente se multiplica por 100,1000, 10.000 o 100.000 de
acuerdo a la magnitud de denominador para hacer comprables las tasas.
Las tasas tienen dos características importantes: Tiempo y lugar.
Tiempo.-
Es el hecho vital que se estudia durante un año determinado, un mes,
semana o día, ejemplos: 1991, Diciembre, 2da semana de Octubre, el 3 de
Febrero.
Lugar.-
Puede ser un país, una provincia, un Departamento, una ciudad o un barrio.
Los dos componentes permiten que las tasas puedan ser utilizadas para comparar
los hechos vitales entre dos zonas geográficas distintas o similares, así como
también entre dos épocas distintas.
El resultado de una tasa tampoco indica que cantidad del hecho vital se dio, el
numeral de la tasa lo mismo que las proporciones y las razones, nos ayudan a
comparar eventos, casuística, comportamiento entre distintas poblaciones sin
importar su totalidad. Así, si dos países, uno de 40 millones de habitantes y otro
de 5 millones, tienen una tasa de natalidad del orden de 23 por 100.000, haciendo
abstracción de la cantidad de habitantes, podemos concluir de que en ambos
países, el comportamiento de los nacimientos es similar.
Ejemplo:
Según el Instituto Nacional de Estadística, en el año 2002 se encontraba censada
en España una población de 41.837.894 personas.
a) Tasa de legionelosis en el año 2002 en España
𝐶𝑎𝑠𝑜𝑠 𝑑𝑒 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠
𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜)
𝑥 100.000
401
41.837.894
𝑥 100.000
= 0,96
44. 43
Es decir que 0,96 personas padecieron legionelosis en el año 2002 en España por
cada 100.000 habitantes.
b) Tasa de mortalidad por legionelosis en España en 2002
𝐷𝑒𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠 𝑝𝑜𝑟 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠
𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜)
𝑥 100.000
14
41.837.894
𝑥 100.000
= 0,033
Es decir que 0,033 personas fallecieron por legionelosis en España en 2002 por
cada 100.000 habitantes.
45. 44
4.1 Concepto de Variables Cuantitativas
Son aquellas cuya magnitud puede ser medida en términos numéricos, esto es,
que los valores de los fenómenos se encuentran distribuidos a lo largo de una
escala.
Por ejemplo, las variables edad, peso, talla, escolaridad, son cuantitativas debido
a que se les puede asignar mayor o menor peso a cada una de ellas; tomando por
ejemplo la edad, se puede afirmar que una persona que tiene 50 años representa
en doble en edad de una que tiene 25 años.
Las variables cuantitativas se clasifican en:
Variables Continuas.- Son aquellas cuya unidad de medición utilizada en
la escala puede ser subdividida en forma infinita.
Ejemplo:
- Estatura de los estudiantes de la U.S.B.
Si la unidad de medición es el metro éste puede ser subdividido en
centímetros y milímetros.
- Nivel de colesterol de ciertos pacientes del hospital Obrero
46. 45
Variables Discontinuas o Discretas.- Son aquellas que pueden tomar
solamente un número finito de valores, debido a que la unidad de medición
no puede ser fraccionada.
Ejemplo:
- Número de hijos (los hijos no pueden fraccionarse).
- Número de monedas que una persona lleva en su bolsillo.
- Número de admisiones en un hospital durante un día determinado.
- Número de accidentes automovilísticos que se producen en una
ciudad.
Sumatorias
La suma de los valores de la variable x: nxxx ,...,, 21 , se define mediante la notación
e indica que han de sumarse los elementos de la sucesión desde el subíndice
i = 1 hasta el subíndice n, esto es:
n
i
ni xxxx
1
21 ...
Ejemplo:
4
1
6141312111
i
i
¡Hazlo tú!
5
1
6
i
i
Nótese que el elemento típico de la sumatoria es una función únicamente
del índice de la sumatoria. Si algún otro símbolo aparece en la fórmula del
elemento típico, debe considerarse constante.
47. 46
Suponga que se seleccionan n = 5 compañías cerveceras del total en el país.
Sus tasas de ganancia, como porcentaje de precio de venta, son
respectivamente 12.2, 10.8, 12.1 y 11.3. Represente simbólicamente estas
cantidades como
2.121 x 8.102 x 4.103 x 1.124 x 3.115 x
a) Hallar
5
1i
ix
b) Hallar
5
5
1
i
ix
c) Hallar
5
1
2
i
ix
Propiedades de la Sumatoria
1.
n
i
nCCCCCC
1
... , donde C es una constante
2.
n
i
n
i
ii xCCx
1 1
3.
n
i
i
n
i
i
n
i
iiii
n
i
i
n
i
n
i
iii
zyxzyxb
yxyxa
111
11 1
)
)
4.
n
i
n
i
iii
n
i
i
n
i
ii yCyxCxCyx
1 1
22
1
2
1
2
4.2 Medidas de tendencia central
Clasificados los datos originales se debe
Calcular un conjunto de indicadores
Caracterizan en forma algo mas precisa la distribución que se estudia.
Para esto se dispone de estadígrafos
- Representan valores centrales en torno de los cuales se agrupen las
observaciones, llamadas usualmente promedios.
- Utilidad: análisis y comparación de una distribución.
48. 47
Medida de tendencia central
Es un índice de localización central empleado en la descripción de
las distribuciones de frecuencias.
…también sirve como una base para medir y evaluar valores anormalmente altos
o anormalmente bajos (o valores extremos),
Características del valor central
1. Debe estar definido en forma objetiva.
2. debe depender de toda la información obtenida en lo posible.
3. debe ser fácil de comprender (no debe tener un carácter abstracto) y de
interpretar.
4. Debe ser fácil de calcular.
5. Debe ser estable (no debe se sensible a fluctuaciones).
6. Debe ser adecuado a cálculos algebraicos posteriores.
4.2.1 Tipos de Promedio
Los promedios más usuales son:
a) La media aritmética o media
b) La mediana
c) La moda
d) La media geométrica
e) La media cuadrática
f) La media armónica
4.2.2 Media Aritmética – Datos no agrupados
Sea nxxx ,...,, 21 , valores de la variable X. La media aritmética simple de X
representada por X es dada por:
donde n es el tamaño de la muestra o número de elementos del conjunto de
observaciones.
Ejemplo:
n
x
X
n
i
i
1
49. 48
Consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60,
71, y 80.
La media de edad de estos sujetos será de:
Encuentre la medida aritmética de las observaciones: 3, 4, 7, 8, 2
4.2.3 Media Aritmética – Datos agrupados
Sean kxxx ,...,, 21 valores de la variable X ponderados por sus respectivas
frecuencias absolutas: kfff ,...,, 21 . La media de la variable X es dado por:
n
xf
X
k
i
ii
1
o
n
xh
X
k
i
ii
1
donde
k
i
ifn
1
y khhh ,...,, 21 son las frecuencias relativas respectivas.
Ejemplo
Si tenemos la siguiente distribución, se pide hallar la media aritmética, de
los siguientes datos expresados en kg.
xi fi xi fi
54
59
63
64
2
3
4
1
108
177
252
64
Total 10 601
50. 49
kg
n
xf
X
k
i
ii
1.60
10
6011
Ejemplo
Clases fi Marca de
clase
Xi
fixi
[30,40] 3 35 105
(40,50] 2 45 90
(50,60] 5 55 275
Total 10 470
47
10
4701
n
xf
X
k
i
ii
4.2.4 Propiedades de la media Aritmética
1. La suma de las desviaciones (diferencias) entre los valores de la variable X
y su media aritmética X es ceros, esto es:
0xxf ii
2. Para un conjunto dado de observaciones, la media es única.
3. La media es sensible ( o afectada) por los valores del conjunto. Así, si un
valore se modifica, la media aritmética X también se modifica.
4. La suma de los cuadrados de las desviaciones entre los valores de la
variable X y de su mediad aritmética X es mínima, esto es:
2
1
2
Bxfxxf ii
k
i
ii , para cualquier constante B
5. Si a los valores de una valores de una variable X se resuma o se le resta
una constante C, entonces la media aritmética X quedará aumentada o
disminuida en la constante C, esto es:
51. 50
CXYCXY
6. Si fueran multiplicados o divididos los valores de una variable X por una
constante C, entonces la media de X, X , quedará multiplicada o dividida
por esta constante, esto es:
XCYCXY
7. En general, si CXbYCbXY
Ventajas e inconvenientes:
- La media aritmética viene expresada en las mismas unidades que la
variable.
- En su cálculo intervienen todos los valores de la distribución.
- Es el centro de gravedad de toda la distribución, representando a
todos los valores observados.
- Es única.
- Su principal inconveniente es que se ve afectada por los valores
extremadamente grandes o pequeños de la distribución.
Ejemplo
En una empresa donde los salarios tienen una media de 100000 el
sindicato solicita que cada salario X, se transforma en Y, mediante la
siguiente.
1005.2 XY
El directorio acoge parcialmente la petición rebajando los salarios
propuestos por el sindicato en un 10%, lo que es aceptado. Se pide calcular
la media aritmética de la nueva distribución de salarios.
Solución
Tenemos: 100000X
Si 2501001001000005.21005.21005.2 XYXY
El salario propuesto por el directorio es:
2250902501009.09.09.0%10 YZYYYZ
Luego, la media de la nueva distribución de salarios es: 225090
52. 51
A) Primer proceso abreviado para el calculo de la media
Sea tO (el origen de trabajo) el valore más frecuente de la variable de X o que
está hacia el centro de la distribución de frecuencias, y sea tii Oxd
ki ,...,2,1 las desviaciones de ix respecto a tO entonces
tii Odx
Luego
itiiiii
k
i
ii
fOdf
n
Odf
nn
xf
X
111
B) Segundo proceso abreviado para el de la media
Este procedimiento es particularmente útil para ser aplicado cuando los valores de
X son grandes y la amplitud de clase constante. Como veremos, el uso de éste
proceso nos ofrece rapidez y facilidad en los cálculos.
Primer Paso: Se efectúa el cambio de variable de X a , utilizando la siguiente
fórmula:
C
Ox ti
1)
donde: ix =valores de la variable tO = origen de trabajo
i =Valores transformados C = amplitud del intervalo de clase
Segundo Paso: Cálculo de la mediana X
Tenemos: de 1): iti COx
n
df
OX
k
i
ii
t
|
53. 52
Entonces iitiitiii fCOf
n
COf
n
xf
n
X
111
Por tanto:
4.2.5 Medida Ponderada
Hay ocasiones en que se requiere expresar en una sola cifra los resultados de
varios grupos de datos, cada uno de los cuales ha sido resumido previamente
mediante un promedio. Tal es el caso de las muestras estratificadas, en las cuales
se calcula un promedio para cada estrato. En dichas ocasiones, el promedio
general para los diferentes grupos no se obtiene promediando los promedios
parciales, sino que es necesario tener en cuenta el numero de observaciones en
que se basa cada promedio. Tal promedio recibe el nombre de medida ponderada
y es definida como sigue:
Sean rXXX ,...,, 21 , las medias aritméticas de r subconjuntos menores, cada uno
con rnnn ,...,, 21 observaciones respectivamente. La media aritmética del conjunto
formado por los términos de los r subconjuntos es dado por la fórmula:
n
Xn
nnn
XnXnXn
X
r
j
jj
rr
p
1
321
2211
...
...
donde:
r
i
jnn
1
En general, si rppp ,...,, 21 son los pesos asociados a los valores de la variable
rxxxX ,...,,: 21 respectivamente, entonces la media ponderada será:
n
f
COX
ii
t
n
f
COX
ii
t
r
i
i
r
i
ii
p
p
xp
X
1
1
54. 53
Ejemplo:
Supongamos que en una ciudad en particular hay dos precios de pan, 0.80
centavos en los supermercados que vende 10000 unidades, y un centavo
en las panaderías que venden 1000 unidades. Hallar el promedio
ponderado del precio del pan:
Solución
Tenemos:
8182.0
11000
9000
100010000
100000.11000080.0
pX
Por tanto, el precio promedio del pan es de 0.8182.
4.2.6 Mediana
La mediana es un valor que divide a un conjunto de observaciones ordenadas en
forma ascendente o descendente en dos grupos de igual número de
observaciones. La notación que vamos a emplear será:
En el cálculo de la mediana, podemos considerar los 3 casos siguientes:
La variable en estudio es discreta y n (numero de observaciones)
es impar.
2
1
n
Me
Ejemplo:
En un estudio que se realizó en un asilo de ancianos, se tomó las edades
de los envejecí entes que pueden caminar sin dificultades. Buscar la
mediana de las siguientes edades.
69 73 65 70 71 74 60 62 78
Solución
Ordenando estos valores de acuerdo a la magnitud que tenemos:
60 62 65 69 70 71 73 74 78
Unidad
seleccio
nada
55. 54
donde n = 9
entonces 5
2
19
2
1
n
Me to, Me = 70
La edad de 70, que es la mediana, ocupa el lugar central de la distribución,
que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha.
La variable en estudio es discreta y n (numero de observaciones)
es par.
En este caso no, no existe e la ordenación un valor de la variable que ocupe la
posición central, esto es, la mediana es indeterminada, pues cualquier valor
comprendido entre los valores que ocupan la posición 1
22
n
y
n
Por tanto por convención la mediana es:
2
1
22
nn xx
Me
Ejemplo
Buscar la mediana de los siguientes números:
25 15 28 29 25 26 21 26
Solución
Arreglando estos valores en orden creciente tenemos:
15 21 25 25 26 26 28 29
Calculamos los valores que ocupan las posiciones: 1
22
n
y
n
, esto es:
to
n
to
n
51
2
8
1
2
4
2
8
2
Luego:
5.25
2
2625
2
1
22
nn xx
Me
56. 55
E valor 25.5, que es la mediana, ocupa el lugar central de la distribución,
que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha.
La variable es continua.
En este caso el problema consiste en determinar un punto dentro del intervalo en
que está comprendido la mediana.
Procedimiento
1er Paso. Calcular la posición de orden
2
n
. Como la variable es continua,
no se debe preocuparse si n es par o impar
2do paso. Por las frecuencias acumuladas se identifica la clase que
contiene a la mediana, esto es, la clase para el cual se cumple:
kk F
n
F
2
1
Con lo cual la mediana estará en la clase que tiene como frecuencia
acumulada kF .
3er Paso. Utilizar la fórmula:
med
kk
k
med C
FF
F
n
lMe *2
1
1
donde:
medl Límite inferior de la clase que contiene a la mediana.
n = Tamaño de la muestra.
meC Amplitud de la clase que contiene a la mediana.
kF Frecuencia acumulada de la clase que contiene la mediana.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene a la mediana
Ejemplo:
Clases 45,35 55,45 65,55 75,65 85,75 95,85
if 5 12 18 14 6 3
Ciuda
d
57. 56
Hallar la mediana.
Solución
Clases if iF
45,35 5 5
55,45 12 17
65,55 18 35
75,65 14 49
85,75 6 55
95,85 3 58
Total 58
Paso 1: von
29
2
58
2
posición
Paso 2: kk F
n
F
2
1 352917 32 FF vo
Paso 3:
67.6110*
1735
1729
55*2
1
1
med
kk
k
med C
FF
F
n
lMe
4.2.7 Cuartiles
Los cuartiles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en cuatro partes iguales.
Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a él y el 75%
superiores a él.
Q2 = 2do cuartil, coincide con la mediana
Q3 = 3er cuatil, deja 75% de las observaciones inferiores o iguales a él y el 25% de
éstas superiores a él.
Calle
58. 57
Utilizaremos los cuartiles solamente para datos agrupados en intervalos de clase.
Determinación de Q1:
1er Paso: Se calcula
4
n
2do Paso: Se identifica la clase que contiene a Q1 por medio de las
frecuencias acumuladas, esto es, por la desigualdad.
kk F
n
F
4
1
3er Paso: Se aplica la fórmula
11
*4
1
1
1 Q
kk
k
Q C
FF
F
n
lQ
o
11
*4
1
1
1
1 Q
kk
k
Q C
HH
H
lQ
(Cuando se usa frecuencias acumuladas relativas)
donde:
1Ql Límite inferior de la clase que contiene a Q1.
n = Tamaño de la muestra.
1QC Amplitud de la clase que contiene al primer cuartil.
kF Frecuencia acumulada de la clase que contiene al primer cuartil.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene al primer cuartil.
Determinación de Q3:
1er Paso: Se calcula
4
3n
2do Paso: Se identifica la clase que contiene a Q3 por medio de las
frecuencias acumuladas, esto es, por la desigualdad.
59. 58
jj F
n
F
4
3
1
3er Paso: Se aplica la fórmula
33
*4
3
1
1
3 Q
jj
j
Q C
FF
F
n
lQ
o
33
*4
3
1
1
3 Q
jj
j
Q C
HH
H
lQ
(Cuando se usa frecuencias acumuladas relativas)
donde:
3Ql Límite inferior de la clase que contiene a Q3.
n = Tamaño de la muestra.
3QC Amplitud de la clase que contiene a Q3.
jF Frecuencia acumulada de la clase que contiene a Q3.
1jF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene Q3.
4.2.8 Deciles
Los deciles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en 10 partes iguales.
D1 = 1er decil, deja 10% de las observaciones menores o iguales a él.
D2 = 2do decil, deja 20% de las observaciones menores o iguales a él .
.
.
.
D9 = 9no decil, deja el 90% de las observaciones menores o iguales a él.
Edificio
Barrios
60. 59
Para determinar los deciles seguimos los siguientes pasos:
1er Paso: Se calcula
4
*ni
, donde i = 1,2,…,9
2do Paso: Se identifica la clase que contiene los deciles por medio de las
frecuencias acumuladas, esto es, por la desigualdad.
kk F
ni
F
4
*
1
3er Paso: Se aplica la fórmula
ii D
kk
k
Di C
FF
F
ni
lD *10
*
1
1
donde:
iDl Límite inferior de la clase que contiene a Di, i = 1,2,…,9
n = Tamaño de la muestra.
iDC Amplitud de la clase que contiene a Di.
kF Frecuencia acumulada de la clase que contiene a Di.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene Di.
4.2.9 Percentiles
Son valores que dividen la muestra ordenada en forma ascendente o descendente
en 100 partes iguales.
P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él
y el 99% superiores a él
.
.
.
VARIABLE: CONDUCTOR REFERIDO
CATEGORÍAS CÓDIGOS FRECUENCIAS
AMT 1 50
LEM 2 88
FGI 3 12
MML 4 3
TOTAL 153
Total
61. 60
P99 = 99avo percentil, deja el 99% de las observaciones menores o iguales a
él y el 1% superiores a él
Para calcular los percentiles se siguen los siguientes pasos:
1er Paso: Se calcula
100
*ni
, donde i = 1,2,…,98,99.
2do Paso: Se identifica la clase que contiene los Pi por la frecuencia
acumulada, esto es, por la desigualdad.
kk F
ni
F
100
*
1
3er Paso: Se aplica la fórmula
ii P
kk
k
Pi C
FF
F
ni
lP *100
*
1
1
donde:
iPl Límite inferior de la clase que contiene a Pi, i = 1,2,…,99
n = Tamaño de la muestra.
iPC Amplitud de la clase que contiene a Pi.
kF Frecuencia acumulada de la clase que contiene a Pi.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene Pi.
4.2.10 La Moda
Es un valor de la variable que tiene la más alta frecuencia, esto es, es el valor más
frecuente de la distribución.
Nota.- La moda no siempre existe y no siempre es única
Ejemplo
Considere los pesos (en kilos) de 9 adultos
82, 65, 59, 74, 60, 67, 71, 73 y 70
62. 61
Estas nueve medidas no definen una moda.
Ejemplo
Considere la distribución de los pesos de 15 adultos
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83
El valor 63 y 71 ocurren 3 veces, y el resto ocurre una vez cada uno. Luego
la moda de estas observaciones es:
Mo = 63 Kilos y Mo = 71 Kilos
En este caso la distribución se llamará bimodal.
En general, se tiene lo siguiente:
i) La distribución que tiene una sola moda se llama unimodal
ii) La distribución que tiene dos modas se llama bimodal
iii) La distribución que tiene más de dos modas se llama multimodal
Propiedades del moda
1) El valor de la moda es totalmente independiente de los valores extremos.
2) La moda es una medida inestable porque varía si se cambia el intervalo de
clase.
3) Su significado es imitado cuando no se dispone de un gran número de
valores.
4) Es el valor típico y por ello el promedio más descriptivo.
5) La moda no se presta a manipulaciones algebraicas posteriores.
Cálculo de la Moda: caso de datos agrupados en intervalos de clase
Para datos agrupados en intervalos de clase, tenemos diversas fórmulas para el
cálculo de la moda. Aquí presentamos dos procesos:
1er Proceso: Fórmula Czuber
1er Paso: Se identifica la clase modal (la clase con mayor frecuencia)
2do Paso: se aplica la fórmula:
MoMo ClMo *
21
1
donde:
63. 62
Mol = límite inferior de la clase modal
1 = 1ffMo ( 1f = frecuencia de la clase inmediatamente anterior a
la clase
modal)
Mof = frecuencia de la clase modal
2 = 2ffMo ( 2f = frecuencia de la clase inmediatamente posterior
a la clase
modal)
MoC = amplitud de la clase modal
Ejemplo
Intervalo de
clase
fi
1,0 3
2,1 10
3,2 17
4,3 8
5,4 5
TOTAL 43
Solución
1er Paso.- El intervalo de clase de mayor frecuencia absoluta es 17 es el
tercer 3,2
2do Paso.- Aplicando la fórmula:
MoMo ClMo *
21
1
1 = 710171 ffMo
1*
97
7
2
Mo 2 = 98172 ffMo
44.2Mo 1MoC
2do Proceso: Determinación gráfica de la moda. En este caso, es
necesario construir el histograma de la distribución, identificar la clase
modal (aquella clase con mayor altura) y hacer la construcción que a
continuación se indica.
64. 63
4.2.11 Relación entre la Media, Mediana y Moda
1. Distribución Simétrica. Se dice que una distribución de frecuencias
es simétrica cuando valores de la variable equidistantes de una valor
central tienen las mismas frecuencias. Es importante destacar es
este caso que.
MoMeX
2. Para un distribución sesgada hacia la derecha (si la cola mayor se
presenta a la derecha de la curva)
MoMeX
Para una distribución sesgada hacia la izquierda tenemos:
MoMeX
TareaTar
ea
65. 64
4.2.12 Encogimiento entre la Media, Mediana y la Moda.
De las tres medidas de posición central, la media aritmética suele ser más
frecuentemente utilizado, quizá por la facilidad de su cálculo a pesar de que en
muchas ocasiones la mediana o la moda resultan de mayor interés.
a. La media aritmética como medida de resumen tiene la ventaja de tomar en
cuenta la totalidad de los valores de la serie, aumentando o disminuyendo
de acuerdo con ellos, pero a causa de esta propiedad, puede ser
desventajosamente afectado por la existencia de valores anormalmente
altos o anormalmente bajos. Por regla general, sin embargo, puede decirse
que cuando la serie es más o menos simétrica, el promedio debe ser
preferido a cualquier otra medida de resumen.
b. La mediana por su parte debe ser utilizada cuando entre los valores que se
estudian, hay alguno muy diferente de los otros. Si por ejemplo, el tiempo
de hospitalización, de 5 niños con gastroenteritis fuera respectivamente
2,3,4,6, y 30 días; el valor último, debido tal vez a alguna complicación de
la enfermedad, hace aparecer la permanencia en el hospital mucho más
larga de lo que generalmente es. El promedio:
9
5
45
5
306432
X días, es engañoso, pero en cambio la mediana, que
es x = 4 días, tiene la ventaja de no tomar en cuenta los valores extremos,
dando una impresión más acorde con lo usual.
Hay además ocasiones en que debe usarse la mediana por no ser posible
el cálculo del promedio. Tal sucede en aquellas distribuciones en las cuales
la primera o la última clase no tienen limites precisos. Exceptuando estas
aplicaciones, la mediana no tiene ninguna ventaja sobre la media
aritmética, pues su valor depende solamente del número de términos sin
tomar en cuenta los valores numéricos de estos.
c. La moda no es una medida de tendencia central muy usual, pero se emplea
cuando el interés se centra en conocer el valor que se presenta más
frecuentemente. Por ejemplo en los negocios, sirve para determinar qué
tamaño del producto es el de mayor demanda. Similarmente para
programar la producción de un medicamento el fabricante estará interesado
en ¿cuál es la dosis más comúnmente recetada por los médicos?.
4.2.13 Media Geométrica
Se define como la raíz de índice de la frecuencia total cuyo radicando es el
producto de las potencias de cada valor de la variable elevado a sus respectivas
frecuencias absolutas, se denota por G; suele utilizarse cuando los valores de la
variable siguen una progresión geométrica. También para promediar porcentajes,
66. 65
tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula
mediante la siguiente fórmula:
Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El
logaritmo de la media geométrica es la media aritmética de los logaritmos de los
valores de la variable. El problema se presenta cuando algún valor es 0 ó
negativo y exponente de la raíz par ya que no exista raíz par de un número
negativo, entonces la fórmula anterior se presenta de la siguiente manera.
n
xf
n
xfxfxf
GX
k
n
ii
kk
G
10
1021021101
1010
log
log...loglog
loglog
Luego,
n
xf
AntiGX
k
n
ii
G
10log
.log
Ejemplo:
Calcule la media geométrica de las observaciones maestrales:
3, 6, 12, 24, 48
Solución
Propiedades de la media geométrica
Si se define una variable
y
x
z
i
i
i
G
G
G
y
x
Z
Es única
Utiliza todos los elementos
Sólo se puede calcular con variables cuantitativas positivas
1224883248*24*12*6*3**** 55
21
21
n f
k
ff
G
k
xxxX
n f
k
ff
G
k
xxxX **** 21
21
67. 66
Su logaritmo es la media aritmética de la variable log X
Es el centro de gravedad de la distribución en términos
multiplicativos
Es más robusta que la media a valores grandes pero no a los
pequeños y siempre toma valores mas pequeños que la media
aritmética
No es invariante por cambios de origen y escala
Es útil para promediar tasas, porcentajes, tipos de interés y, en
general, en todas aquellas situaciones en las que la variable
analizada presente variaciones acumulativas
En demografía, para estimar la población de una determinada localidad
en un año t, cuando se supone crecimiento geométrico entre dos
censos, se usa la fórmula:
Donde P0 es la población en el primer censo, realizado en la fecha t0; P1 es
la población en el segundo censo, realizado en la fecha t1 y Px es la
población que se quiere determinar en la fecha tx.
Si se quiere determinar la población en el centro de período 10 ,tt esto es,
para
222
01
0
01
0
01 tt
t
tt
tt
tt
t xx
Luego,
10
2/1
0
1
0
01
0
2
1
pp
p
p
pp
tt
tt
x
x
esto es, xp es la media geométrica de 0p y 1p
Ejemplo:
Un país tiene en 1970 una población de 6.5 millones lo que sube en 1980 a
8 millones. ¿Cuál es la población media del período?
68. 67
Solución:
Aplicando la última fórmula para Px tenemos
21.78*5.610 pppx
4.2.14 Media Armónica
Sean x1,,x2,..., xk, valores de la variable X, asociadas a las frecuencias absolutas
f1,f2,…,fk respectivamente. La media armónica de X es dado por:
k
i i
i
k
k
H
x
f
n
x
f
x
f
x
f
n
HX
12
2
1
1
...
Donde:
n =
k
i
if
1
Esta media, como la media geométrica, solo es aplicable a ciertos tipos de
problemas. Se utiliza para promediar velocidades, tiempos, rendimiento, etc.
(cuando influyen los valores pequeños). Su problema: cuando algún valor de la
variable es ó próximo a cero no se puede calcular
Ejemplo:
Un automóvil recorre los primeros 10 kilómetros a razón de 30 km/h, y los
10 kilómetros siguientes a razón de 60 km/h. Determinar la velocidad media
durante todo el trayecto.
Solución
A primera vista muchos pensarían que la velocidad media sería igual a
45
2
6030
X km/h .
Sin embargo, al recordar que la velocidad definida como la distancia total
recorrida multiplicado por el tiempo gastado en el trayecto, es fácil percibir
que el resultado anterior incorrecto.
A la razón de 30 km/h, el automóvil gastó 20 minutos para primeros 10
kilómetros, y a razón de 60 km/h, gastó 10 minutos. Por lo tanto el carro
recorrió un total de 20 km en 20 + 10 = 30 minutos = 0.5 horas, a una
velocidad media de:
69. 68
40
5.0
2
km/h
Este resultado puede ser obtenido directamente calculando media armónica
entre las dos velocidades. Así tenemos:
hkmH /40
3
120
30
3
2
60
1
30
1
2
Propiedades de la media armónica
La media armónica se basa en todas las observaciones por lo que
está afectada por todos los valores de la variable. Da a los valores
extremadamente grandes un peso menor que el que les da la media
geométrica, mientras que a los valores pequeños les da un peso
mayor que el que les da tanto la media aritmética como la media
geométrica.
La media armónica esta indeterminada si alguno de los valores es
cero, pues hallar el recíproco de cero implica dividir entre cero, lo
cual no es válido. La media armónica está rígidamente definida y
siempre es definitiva, excepto cuando uno de los valores es cero.
La media armónica es el promedio que se ha de usar, cuando lo que
se va a promediar son proporciones donde los numeradores de las
razones son los mismos para todas las proporciones.
La media armónica se presta a manipulaciones algebraicas
posteriores
XGH , siempre que se trate de lamisca serie y cuando los
términos son iguales.
4.2.15 Media Cuadrática
Cuando se observa una distribución hay veces que no nos interesa tener en
cuenta la influencia del signo de los valores de la variable. Es típico en el caso de
los errores, ya que el error es error tanto en más como en menos. Este problema
se resuelve utilizando la media cuadrática.
n
xf
n
xfxfxf
X
k
i
ii
kk
c
1
2
22
22
2
11 ...
2
5
70. 69
4.3 Medidas de dispersión o concentración
En las secciones precedentes, se ha centrado la atención en un método básico
para describir un conjunto de datos, el promedio que resume los da tos en un solo
valor.
En este aparado se describiremos otras medidas estadísticas necesarias para
mostrar como varían los datos alrededor del promedio, ya que esta variación es a
veces tan importante como el mismo promedio.
Por ejemplo, si consideramos dos ciudades A y B que tienen el mismo ingreso me-
dio por habitante. ¿Este simple hecho de igualdad de las dos medias permite
concluir que la situación económica de las dos ciudades es la misma?.
Evidentemente que no, pues, esta igualdad podría existir aún cuando los ingresos
en A fuese perfectamente estabilizado en el sentido de que todos sus habitantes
tuviesen prácticamente el mismo ingreso (igual al ingreso medio por habitante) y
en B tuviese unos pocos individuos con ingresos extraordinariamente altos y la
mayoría con ingresos bajos. Así, el conocimiento de los valores de posición central
de una distribución, no es suficiente para su completa caracterización.
El hecho de que en la ciudad A todos los individuos tuvieran el mismo ingreso
puede ser traducido diciendo que en A los ingresos no varían de individuo a
individuo, o sea, la distribución de los ingresos no presentan variabilidad.
Análogamente, el hecho de que en B algunos individuos tuvieran ingresos muy
elevados en detrimento de la gran mayoría, que tiene ingresos muy bajos, puede
ser expresado diciendo que en B los ingresos varían o que la distribución de
ingresos presentan variabilidad. Así tenemos la siguiente definición.
Definición
Las medidas de dispersión son los que cuantifican el grado de concentración o de
dispersión de los valores de la variable en torno de un promedio o valor central de
la distribución. Las medí das de dispersión se necesitan para dos propósitos
básicos:
a) Para verificar la confiabilidad de los promedios y
b) Para que sirva come base para el control de la variación misma.
También podemos decir que los términos concentración y dispersión pueden ser
utilizados indistintamente, pues se da la relación.
alta dispersión baja concentración
baja dispersión alta concentración
Las medidas de dispersión que se utilizan con mayor frecuencia son:
71. 70
1) Recorrido o rango
2) Recorrido Intercuartilico
3) Recorrido semi-intercuartilico
4) Desviación media
5) Varianza y desviación estándar
4.3.1 Recorrido de la Variable
El recorrido de una variable estadística es simplemente la diferencia entre su valor
máximo y su valor mínimo y se denota por:
R = máx {X} - mín {X}
Desventaja
La utilización del rango como medida de dispersión es muy limitado, si bien
brinda una primera idea acerca de la heterogeneidad de los datos, tiene el
inconveniente que sólo toma en cuenta los valores extremos descuidando el
conjunto de valores intermedios. Puede suceder que uno de los valores
extremos esté accidentalmente desplazado y no constituye por tanto un
valor representativo; en este caso el recorrido sería exagerado y la
dispersión aparecería distorsionado.
Ejemplo
Serie 1: 1 5 7 7 8 9 9 10 17
Serie 2: 2 4 6 8 10 12 14 16 18
Ambas series tienen rango 16, pero están desigualmente agrupadas, pues
mientras la primera tiene una mayor concentración en el centro, la segunda
se distribuye uniformemente a lo largo de todo el recorrido.
4.3.2 Recorrido Intercuartilico
Como los cuartiles son tres puntos (valores) que dividen un ordenamiento de datos
o una distribución de frecuencias en 4 grupos aproximadamente iguales. Entonces
la medida dada por:
13 QQQI
llamada recorrido o amplitud intercuartílico, incluye la mitad central de los valores.
72. 71
Desventaja
Si bien es cierto que este indicador representa un adelanto respecto del
rango, sin embargo, también depende de dos valores de la variable,
dejando de lado el resto, y en consecuencia la influencia de valores
extremos puede, aunque en menor medida, originar algún tipo de
deformación en cuanto al grado de dispersión.
4.3.3 Recorrido Semi-Intercuartilico
Esta medida, que se basa en la posición ocupada por los 50% de los valores
centrales de la distribución, es dada por:
2
13 QQ
Q IS
4.3.4 Desviación Media o Promedio
En teoría, la desviación puede referirse a cada una de las medidas de tendencia
central: media, mediana o moda; pero el interés se suele centrar en la medida de
la desviación con respecto a la media, que llamaremos desviación media.
Puede definirse como la media aritmética de las desviaciones de cada uno de los
valores con respecto a la media aritmética de la distribución, y de indica así:
n
xx
DM
i
Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula
no distingue si la diferencia de cada valor de la variable con la media es en más o
en menos.
Ya se habrá advertido que esta expresión sirve para calcular la desviación media
en el caso de datos sin agrupar.
Ejemplo:
Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de
estos valores.
73. 72
x xx x
2 -3 3
2 3 3
4 -1 1
4 -1 1
4 -1 1
5 0 0
6 1 1
7 2 2
8 3 3
8 3 3
DM = 1,8
Veamos ahora cómo se calcula la desviación media en el caso de datos
agrupados en intervalos.
n
xf
DM
ii
donde observamos que ahora las desviaciones van multiplicadas por las
frecuencias de los intervalos correspondientes.
Además, las desviaciones son de cada centro, o marca de clase, a la media
aritmética.
Es decir,
n
xxf
DM
mi
)(
Ejemplo:
Para hallar la desviación media de la siguiente tabla referida a las edades
de los 100 empleados de una cierta empresa:
Clase fi
16-20 2
20-24 8
24-28 8
28-32 18
32-36 20
36-40 18
40-44 15
44-48 8
48-52 3
74. 73
veamos cómo se procede:
Clase fi xm ni * xm xx fi xx
16-20 2 18 36 16,72 33,44
20-24 8 22 176
24-28 8
28-32 18
32-36 20
36-40 18
40-44 18
44-48 8
48-52 3
100
DM = 6,09
Propiedades de la Desviación Media
1. Como medida de dispersión, la desviación media es superior al recorrido y
la desviación cuartílica, pues toma en cuenta cada elemento, y es más
simple y se ve menos afectada por la presencia de valores extremos. Por lo
tanto, se usa a menudo en muestras pequeñas que incluyen valores
extremos.
2. La principal deficiencia de la desviación promedio surge del hecho de que
promedia los valores absolutos de las desviaciones, esto es, que no
reconoce el signo de las desviaciones. Esto hace que sea menos
conveniente que la desviación estándar (que se describirá en la siguiente
apartado) cuando se requiere una medida de dispersión para ser usada en
cálculos posteriores.
4.3.5 Varianza y Desviación Estándar
Sean x1,x2,…,xk valores de la variable X, con frecuencias absolutas f1,f2,…,fk,
respectivamente. La varianza muestral de x es dado por:
1
1
2
2
n
Xxf
SXVar
k
i
ii
75. 74
Fórmula alternativa
n
Xxf
SXVar
k
i
ii
1
2
2
Si S2 = 0, entendemos que todos los xi coinciden con la media X ,
esto es, todas las observaciones están concentradas en un mismo punto,
por lo que la dispersión es mínima (nula).
La desviación estándar o típica de los valores de la variable X se define como la
raíz cuadrada positiva de la varianza.
1
1
n
Xxf
k
i
ii
El valor numérico de cuantifica el grado de dispersión de los
valores de una variable con respecto a su media. Mientras mayor es la
dispersión de las observaciones, mayor es la magnitud de sus desviaciones
respecto a la media y por ende, más alto el valor numérico de la desviación
estándar.
Propiedades de la Varianza y Desviación Estándar
1. Var[X] = S2 ≥ 0; la varianza de una variable X es siempre positiva y es igual
a cero cuando la variable X toma el valor constante C, esto es, Var[C] = 0
2. Var[X ± C] = Var[X]
3. Var[CX] = C2 Var[X] , C constante
4. Var[CX+b] = C2 Var[X] , C constante
5. Sean 1X y 2X las medias de dos submuestras de tamaño n1 y n2
respectivamente y sean 2
1S y 2
2S las varianzas correspondientes. La
varianza de la muestra de tamaño n = n1 + n2 es dada por:
2
22
2
11
2
22
2
11
2
11
1
1
pp XXnXXnSnSn
n
S
donde pX es la media ponderada de 1X y 2X
76. 75
6. El hecho de que la desviación estándar es matemáticamente lógica significa
que puede ser satisfactoriamente utilizada en cálculos posteriores. Esta
característica es la que da a la desviación estándar su gran superioridad
sobre las demás medidas de dispersión.
7. La desviación estándar es de la misma naturaleza que la variable X y
depende de su magnitud.
8. Para distribuciones simétricas resulta que:
a) El 68.27% de los casos están comprendidos entre X - S y X + S.
b) El 95.45% de los casos están comprendidos entre X - 2S y X + 2S, esto
es aproximadamente 95% de los casos están situados dentro de dos
unidades de desviación estándar de la media.
c) El 99.73% de los casos están comprendidos entre X - 3S y X + 3S
77. 76
A) Primer método abreviado
Con la finalidad de reducir el volumen de operaciones en el cálculo de la varianza
y desviación típica, podemos usar las fórmulas.
222
1
1
Xnxf
n
S ii y
22
1
1
Xnxf
n
ii
Ejemplo
Calcular la varianza y la desviación estándar de la siguiente distribución
muestral.
xi 5 7 8 9 11
fi 2 3 5 4 2
Solución
Completando la distribución de frecuencias tenemos.
xi fi fi xi fi xi
2
5 2 10 50
7 3 21 147
8 5 40 320
9 4 36 324
11 2 22 242
TOTAL 16 129 1083
Aplicando las fórmulas respectivas se tiene:
1.8
16
1291
n
xf
X
k
i
ii
22.224.33
15
1
76.10491083
15
1
1
1 222
Xnxf
n
S ii
Entonces
49.122.2
78. 77
b) Segundo método abreviado
Sea tO (origen de trabajo) el valor más frecuente de la variable X o que está hacia
el centro de la distribución de frecuencias, y sea:
tii Oxd ki ,...,2,1
las desviaciones de xi respecto a tO . Entonces se tiene:
tii Odx
Luego:
k
i
k
i
iiiitti
k
i
i
k
i
ii
dndf
n
ddf
n
dOOdf
nn
Xxf
S
1
2
1
222
1
1
2
2
1
1
1
1
1
1
1
Por tanto:
k
i
ii dndf
n
S
1
22
1
1
y
k
i
ii dndf
n 1
22
1
1
c) Tercer método abreviado
Este procedimiento es particularmente usado cuando los datos agrupados en
distribuciones de frecuencias con intervalos de clase de igual amplitud C. Para
calcular la varianza por este método se siguen los siguientes:
Primer Paso.
Se efectúa el cambio de variable de X a , utilizando la fórmula:
C
Ox ti
dO
n
df
OX t
k
i
ii
t
|