SlideShare una empresa de Scribd logo
1 de 139
0
Universidad Salesiana
de Bolivia
Ingeniería de Sistemas
DOSSIER
DOSSIER
TÉCNICASDE ESTUDIO
DOCENTE: Lic. Rita R. Torrico
DOSSIER
DOSSIER
PROBABILIDAD Y
ESTADÍSTICA
DOCENTE: Lic. Rolando Saúl Flores Lovera
II- 2013
1
TÉCNICASDE ESTUDIO
ÍNDICE
PRESENTACIÓN
UNIDAD I FUNDAMENTOS DE LA ESTADÍSTICA
1.1 Introducción…………………………………………………………………………..5
1.2 Historia de la estadística…..…………………………………………......………...6
1.3 Definición de estadística……………………………………………………………7
1.4 Clasificación de la estadística……………………………………………………...7
1.5 Fuentes de datos estadísticos……………………………………………………...8
1.6 Procedimiento para recolectar datos……..……………………...........................9
1.6.1Observación…………………………………………………………………9
1.6.2 La encuesta………………………………………………………………..10
1.6.3 Consideraciones generales para la elaboración del formulario……...11
1.6.4 Requisitos de un instrumento de medición…………………..…………12
1.7 Parámetro y estadígrafo… …………………………………...…………………...12
1.8 Etapas del método científico y estadístico…..………………………………......13
1.8.1 Etapas del método estadístico…………………………………………..13
1.9 Población y muestra ………………………………………………………………..16
UNIDAD II EJECUCIÓN DEL TRABAJO ESTADÍSTICO
2.1Tabulación…………………………………………………………………………….22
2.2 ¿Qué es una distribución de frecuencia?.........................................................22
2.3 El elemento clase de la distribución de frecuencia………………………………23
2.3.1 Frecuencia de clase……………………………………………………….23
2.3.2 Distribución de frecuencia o tabla de frecuencia………………………23
2.3.3 Datos agrupados…………………………………………………………..23
2.3.4 Intervalos de clase y límites de clase…………………………………...23
2.3.5 Fronteras de clase……………………………………………………...…24
2.3.6 Tamaño o amplitud de un intervalo…………………………………..…24
2.3.7 Marca de clase…………………………………………………………….24
2.3.8 Rango………………………………………………………………………25
2.4 Reglas generales para construir distribución de frecuencias………………….25
2.5 Frecuencia absoluta simple………………………………………………………..26.
2.6 Frecuencia relativa…………………………………………………………………..27
2.7 Representación gráfica de variables cuantitativas………………………………28
2.8 Representación gráfica de variables cualitativas………………………………..32
UNIDAD III ANÁLISIS ESTADÍSTICO DE VARIABLES CUALITATIVAS
3.1 Concepto de variable cualitativa…………………………………………………..36
3.2 Razón…………………………………………………………………………………38
2
3.3. Proporción…………………………………………………………………………..39
3.4 Porcentajes………………………………………………………………………….40
3.5 Tasas…………………………………………………………………………………41
UNIDAD IV ANÁLISIS ESTADÍSTICO DE VARIABLES CUANTITATIVAS
4.1 Concepto de variable cuantitativa………………………………………………...43
4.2 Medidas de tendencia central……………………………………………………..45
4.2.1 Tipos de promedio………………………………………………….46
4.2.2 Media aritmética – datos no agrupados…………………………46
4.2.3 Media aritmética – datos agrupados…………………………..…47
4.2.4 Propiedades de la media aritmética………………………………48
4.2.5 Media ponderada……………………………………………………51
4.2.6 Mediana………………………………………………………………52
4.2.7 Cuartiles………………………………………………………………55
4.2.8 Deciles………………………………………………………………..57
4.2.9 Percentiles……………………………………………………………58
4.2.10 La moda………………………………………………………….....59
4.2.11 Relación entre la media, mediana y moda……………………...62
4.2.12 Encogimiento entre la media, mediana y la moda……………..63
4.2.13 Media geométrica………………………………………………….63
4.2.14 Media armónica……………………………………………………66
4.2.15 Media cuadrática…………………………………………………..67
4.3 Medidas de dispersión o concentración………………………………………….67
4.3.1 Recorrido de la variable…………………………………………….69
4.3.2 Recorrido intercuartilitico……………………………………………69
4.3.3 Recorrido semi-cuartilitico…………………………………………..70
4.3.4 Desviación media o promedio……………………………………..70
4.3.5 Varianza y Desviación estándar…………………………………..72
4.4 Medidas de dispersión relativa…………………………………………………….77
4.4.1 Coeficiente de Variación……………………………………………78
4.4.2 Momentos………..…………………………………………………..79
4.5 Medidas de asimetría………………………………..……………………………..81
4.5.1 Coeficientes de asimetría………………………………………….82
4.6 Medidas de curtosis…………………………………………………………………83
UNIDAD V VARIABLE ESTADÍSTICA BIDIMENSIONAL
5.1 Introducción…………………………………………………………………………..85
5.2 Representación de la información mediante tablas bidimensionales…………86
5.2.1 Distribuciones marginales………………………………………….88
5.2.2 Propiedades de la frecuencia……………………………………...91
5.2.3 Medias y Varianzas marginales……………………………………92
5.3 Distribuciones condicionales……………………………………………………….94
5.4 Medidas de dependencia entre variables nominales……………………………95
5.4.1 Independencia de variables………………………………………..96
5.4.2 Diagrama de dispersión o nubes de puntos…………………….100
5.5 Nociones de correlación y regresión lineal……………………………………...101
5.5.1 Cálculo del coeficiente de correlación…………………………..103
5.5.2 Regresión…………………………………………………………..104
3
UNIDAD VI ANÁLISIS COMBINATORIO
6.1 Introducción…………………………………………………………………………108
6.2 Principios básicos del proceso de contar……………………………………….109
6.3 Arreglos……………………………………………………………………………..110
6.3.1 Arreglos simples…………………………………………………..110
6.3.2 Arreglos con repetición…………………………………………...111
6.4 Permutaciones……………………………………………………………………..111
6.4.1Permutaciones simples……………………………………………111
6.4.2 Permutaciones circulares………………………………………...112
6.4.3 Permutaciones con repetición…………………………………...113
6.5 Combinaciones…………………………………………………………………….114
LECTURAS COMPLEMENTARIAS…………………………………………………120
PRÁCTICAS………………………………………………………………………….…120
BIBLIOGRAFÍA………………………………………………………………………..130
GLOSARIO…………………………………………………………………………..…130
4
PRESENTACIÓN
El presente Dossier ha sido realizado como un instrumento de apoyo en la
asignatura de probabilidad y estadística. Contiene todo lo necesario para llevar a
cabo una investigación, desde la recolección, clasificación, análisis e
interpretación de los datos.
Así mismo este documento se divide en seis unidades. La primera aborda los
conceptos fundamentales de estadística y las etapas del método estadístico que
consisten en una serie de procedimientos para el manejo de los datos cualitativos
y cuantitativos de la investigación.
Una vez expuestas las características generales de la estadística, en la unidad
dos se desarrolla la ejecución del trabajo estadístico es decir la forma de realizar
el recuento de las repeticiones de un mismo valor o modalidad; lo que conduce al
concepto fundamental de frecuencia.
Luego, en la unidad tres se puede apreciar el análisis estadístico de las variables
cualitativas y para ello se considera: razón, proporción, porcentajes y tasas.
A continuación, la unidad cuatro procede al análisis descriptivo de las variables
cuantitativas a través de las medidas de tendencia central y de dispersión, que
sintetizan la información sobre los datos que analizamos, facilitando su manejo. En
lugar de trabajar con toda la tabla de frecuencias, las medidas resumen los valores
que separan a los datos en grupos significativos.
Posterior a ello en la unidad cinco se estudian las distribuciones bidimensionales,
es decir, se analizan al mismo tiempo dos variables de cada elemento de la
población. Estas variables pueden ser cuantitativas o cualitativas; para ello se
desarrollarán un conjunto de técnicas que permitan describir las relaciones que
ligan a esas dos variables o atributos, para establecer el grado de dependencia o
asociación entre ellos, así como para estimar a una de éstas a partir del
comportamiento de la otra.
Finalmente la unidad seis desarrolla los principios para determinar el número de
combinaciones de elementos de un conjunto finito, que es fundamental para
establecer la tradicional conexión entre combinatoria y probabilidad.
5
1.1 Introducción
¿Quién no se ha preguntado por qué hay diferencias entre padres e hijos? Ya sea
en rasgos físicos, personalidad, gustos, etc. La respuesta es, a la luz de la ciencia,
¡La Variabilidad! que es la característica más relevante de todos los seres vivos.
Se interpreta como las diferencias existentes entre individuos de un mismo grupo
aún cuando tengan un estrecho vínculo de parentesco, incluso entre gemelos. La
variabilidad es el atributo que caracteriza a la naturaleza así como el azar esta
presente en los hechos biológicos. Esta variabilidad puede generarse por alguna o
más de una de las siguientes causas.
a. El medio ambiente o efecto ecológico.
b. La herencia o efecto genético.
La Variabilidad es la esencia misma de la estadística, ella estudia, analiza, explica
los efectos de la primera a través de los métodos que se fundamentan en la
matemática, la experimentación y la observación. Esta no puede estudiarse en un
6
solo individuo, la formulación de un problema estadístico requiere de la presencia
de un grupo de ellos, mejor si es un conjunto numeroso.
Originalmente estadística derivó del vocablo “estado”
¿Por qué?
Porque la función tradicional de los gobiernos centrales es y ha sido llevar la
cuenta de la cantidad de:
 Habitantes
 Nacimientos
 Defunciones
 Empleo
 Desempleo
 Empresas
 Costo de la vida
 Etc.
Aunque se tiene muchos años de experiencia en la recolección de este tipo de
información, se continúa presentando complicaciones y oportunidades para la
contribución científica en lo que respecta a:
recolectar procesar interpretar
Hoy en día muchas actividades están relacionadas con la estadística y muchas
ocupaciones implican el uso del método científico.
1.2 Historia de la Estadística
La Estadística, tal como se la definió, se fundamenta en el cálculo de
probabilidades y se desarrolló a partir de inicios del siglo pasado. A veces se
denomina Estadística Matemática en oposición a la Estadística Estatal, cuya
misión es el registro de las estadísticas de los estados: población, empleo,
consumo, etc. La estadística estatal se remonta a las primeras civilizaciones
conocidas (5000 A.d.C. Sumeria, Mesopotamia, Egipto). En los siglos XVII y XVIII
a pedido de jugadores de azar, los matemáticos Bernoulli y De Moivre
desarrollaron parte de la teoría de probabilidad, como también Laplace y Gauss en
el siglo XIX.
Por la misma época, el religioso agustino y botánico austriaco, Gregori Mendel
(1822 – 1884) se hizo célebre por sus experimentos acerca de la herencia de los
caracteres en los guisantes, llevados a cabo entre 1856 a 1864 al cruzar sepas
que diferían por un solo carácter ( grano liso o rugoso, flor blanca o amarilla, etc).
Genera muchas clases de datos numéricos
Eficientemente tales datos
7
Las leyes de reaparición del carácter en cuestión y su transmisión fueron
publicadas en 1965 y redescubiertas recién en 1900 las cuales recibieron el
nombre de Leyes de Mendel.
A finales del siglo XIX y comienzos del XX Quetelet, aplico la estadística a la
investigación de problemas sociales y educativos. Francis Galton fue el que
promovió su aplicación en colaboración con Pearson. En el siglo XX, Pearson,
Fixher, Gosset introducen nuevas técnicas y métodos en muestras de pequeño
tamaño. Hoy en día, es la principal herramienta metodológica en toda
investigación de cualquier ciencia.
1.3 Definición de estadística
es la
que proporciona
destinados a
los
para la
1.4 Clasificación de la estadística
De acuerdo a la anterior definición la estadística se clasifica en:
 Estadística descriptiva.-
ESTADÍSTIC
A
Recolecta
r datos
Clasificar
datos
Prestar
datos
Tablas
Análisis
descriptiv
o
CIENCIA
MÉTODOS PROCEDIMIENTO
S
CLASIFICAR ANALIZARRECOLECTA
R
INTERPRETA
R
DATOS
TOMA DE
DECISIONES
8
Es otras palabras podemos expresar que un estudio estadístico se
considera “descriptivo” cuando sólo se pretende analizar y describir los
datos.
 Estadística Inferencial.-
Proporciona la teoría necesaria para inferir o estimar las leyes de una
población partiendo de los resultados o conclusiones del análisis de una
muestra que atañen a una población y como estas conclusiones nunca
pueden ser absolutamente ciertas, ellas estarán ligadas a cierto grado de
incertidumbre o probabilidad.
 Modelización Estadística.-
Tiene por objetivo manejar la información para formar modelos aplicados a
la realidad con capacidad para predecir. Trata de establecer relaciones
lineales o no entre variables ajustándose a hipótesis probabilísticas. El
insumo importante es proporcionado por muestras.
1.5 Fuentes de Datos Estadísticos
Son los lugares donde se obtienen informes, resúmenes, hechos,
acontecimientos.
Fuente Primaria
Es la persona o acontecimiento que se estudia y al cual se tiene acceso directo,
es decir se puede hablar u observar directamente a ese individuo o presenciar el
acontecimiento.
Fuente Secundaria
Es el documento que recoge en forma exhaustiva las características de la persona
y/o del fenómeno que sufre como (una enfermedad, matrimonio, nacimiento) o
simplemente sus características como el sexo, color de la piel, ojos, peso,
estatura. Son conocidos también como fuentes secundarias los lugares donde
estos documentos se encuentran almacenados como ser: Registro Civil, Instituto
Nacional de Estadística, oficinas administrativas, hospitales, policlínicos, que
guardan los documentos antes citados.
También pueden considerarse en esta fuente, los registros como son: tarjetas de
ingreso de una institución, partes de asistencia, planillas de sueldos, Balances
Gráficas
9
diarios, semestrales y anuales de los bancos, pólizas de importación, registros de
la precipitación pluvial, etc.
Fuente Terciaria
Son documentos que procesan la información de la fuente primaria o de la
secundaria, ubicando características similares, organizadas y presentadas al
investigador, en un boletín que puede ser de una plana. Con mayor razón serían
fuentes de investigación terciarias las revistas, periódicos, libros y cualquier otro
tipo de publicación que presenta datos procesados.
Diseños Experimentales
Generan información como respuesta a estudios en los que el investigador esta en
posibilidades de controlar variables independientes, buscando relaciones puras.
Por Ejemplo, ¿Cuál es el rendimiento de una variedad de maíz sembrado en
parcelas de iguales características de suelo que reciben 4 concentraciones de
fertilizante? Se obtienen 4 posibles respuestas. Por otra parte si se quiere medir
el rendimiento en 3 tipos de suelo, con 2 profundidades de sembrado y 4
fertilizantes se obtendrán 24 resultados. En estos 2 últimos ejemplos, ya sea por
criterio propio o experiencia de otros, elige el terreno, decide las profundidades de
sembrado y las dosis o variedades de fertilizante, y lo que llega al azar son los
rendimientos (variables respuestas, efecto) sobre la que no tiene ningún tipo de
acción.
1.6 Procedimiento para Recolectar Datos
Es necesario determinar el método de recolección de datos y tipo de instrumento
que se utilizará siendo esto la base para etapas siguientes.
 Método.-
Es el medio o camino a través del cual se establece la relación entre el
investigador y el consultado para la recolección de datos y el logro de los
objetivos; se citan la entrevista, la observación y el cuestionario.
 Instrumento.-
Es el mecanismo que utiliza el investigador para recolectar y registrar la
información; entre estos se encuentran los formularios, las pruebas
psicológicas, las escalas de opinión y de actitudes, las listas u hojas de
control y otros.
1.6.1 Observación
10
Es el registro visual de lo que ocurre en una situación real, clasificando y
consignando los acontecimientos pertinentes de acuerdo con algún esquema
previsto y según el problema que se estudia.
Cuando se decide utilizarla se debe tomar en cuenta ciertas consideraciones.
Como método de recolección de datos, debe ser planificado cuidadosamente para
que reúna los requisitos de validez y confiabilidad.
También Quinteros comenta que “las condiciones de una investigación pueden
ser seriamente objetables si en el diseño de la misma no se han tomado en cuenta
los posibles errores de la observación”.
Estos errores están relacionados con:
 Los observadores.
 El instrumento utilizado para la observación.
 El fenómeno observado.
1.6.2 La Encuesta
Este método consiste en obtener información de los sujetos de estudio,
proporcionada por ellos mismos, sobre opiniones, actitudes o sugerencias. Hay
dos maneras de obtener información con este método: la entrevista y el
cuestionario.
La Entrevista
Es la comunicación interpersonal establecida entre el investigador y el sujeto de
estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre
el problema propuesto.
Esta técnica de recolección de datos tiene muchas ventajas; es aplicable a toda
persona, siendo muy útil en los analfabetos, los niños o con aquellas personas que
tienen alguna limitación física u orgánica que les dificulte proporcionar una
respuesta escrita.
Hay dos tipos de entrevista: la estructurada y la no estructurada. La primera se
caracteriza por estar rígidamente estandarizada; se plantean idénticas preguntas y
en el mismo orden a cada uno de los participantes, quienes deben escoger la
respuesta entre 2, 3 o más alternativas que se les ofrecen. Sin embargo el
investigador tiene limitada libertad para formular preguntas independientes
generadas por la interacción personal.
Algunas ventajas que presenta este tipo de entrevista son:
 La información es más fácil de procesar, simplificando el análisis
comparativo.
 El entrevistador no necesita ser entrenado arduamente en la técnica.
 Hay uniformidad en el tipo de información obtenida.
11
Pero también tiene desventajas, tales como:
 Es difícil obtener información confidencial.
 Se limita la posibilidad de profundizar en un tema que emerja durante la
entrevista.
La entrevista no estructurada es más flexible y abierta, aunque los objetivos de la
investigación rigen a las preguntas; su contenido, orden, profundidad y formulación
se encuentran por entero en manos del entrevistador. Es muy útil en los estudios
descriptivos y en las fases de exploración para el diseño del instrumento de
recolección de datos.
Las ventajas de este método son:
 Es adaptable y susceptible de aplicarse a toda clase de sujetos en
situaciones diversas.
 Permite profundizar en los temas de interés.
 Orienta a posibles hipótesis y variables cuando se exploran áreas nuevas.
Entre sus desventajas se cita:
 Se requiere más tiempo.
 Es más costoso por la inversión de tiempo de los entrevistadores.
 Se dificulta la tabulación de los datos.
 Se requiere mucha habilidad técnica para obtener la información y mayor
conocimiento del tema.
Cuestionario
Es el método que utiliza un instrumento o formulario impreso, destinado a obtener
respuestas sobre el problema en estudio y que el investigador o consultado llena
por sí mismo.
Algunas ventajas del cuestionario son: su costo relativamente bajo, su capacidad
para proporcionar información sobre un número mayor de personas en un
período bastante breve y la facilidad de obtener, cuantificar y analizar e interpretar
los datos.
Dentro de sus limitaciones figuran las siguientes: es poco flexible, la información
no puede variar ni profundizarse; si el cuestionario se envía por correo se corre
el riesgo de que no llegue al destinatario o no se obtenga respuesta de los
encuestados; además, resulta difícil obtener una alta tasa de compleción del
cuestionario. Debido a esta posible pérdida de información se recomienda que se
seleccione una muestra más grande de sujetos de estudio.
1.6.3 Consideraciones generales para la elaboración del formulario
Si el investigador decide utilizar la observación regulada, la entrevista o el
cuestionario u otra fuente de información secundaria como método de recolección
de datos, debe elaborar un instrumento para obtener la información que requiere,
12
siendo el formulario el que se emplea con más frecuencia. Para diseñar
correctamente un formulario es necesario considerar algunos criterios
relacionados con su organización, las preguntas a plantear según los objetivos
propuestos en la investigación y las características físicas de los formularios.
1.6.4 Requisitos de un instrumento de medición
Las características de relevancia de los instrumentos de medición son:
 Confiabilidad
 Validez
El término confiabilidad se refiere a la capacidad del instrumento para arrojar datos
o mediciones que correspondan a la realidad que se pretende conocer, o sea, la
exactitud de la medición, así como a la consistencia o estabilidad de la medición
en diferentes momentos.
Se dice que el instrumento es confiable si se obtienen medidas o datos que
representen el valor real de la variable que se está midiendo y si estos datos o
medidas son iguales al ser aplicados a los mismos sujetos u objetos en dos
ocasiones diferentes, o al ser aplicados por diferentes personas.
La validez es entendida como el grado en que un instrumento logra medir lo que
se pretende medir.
1.7 Parámetro y estadígrafo
Parámetro
 Medida que describe alguna característica de una población.
 Se necesita utilizar la información de la población completa.
 Las decisiones se toman con certidumbre total.
Las más usadas son:
i) Media poblacional ii) Proporción poblacional iii) Varianza poblacional
Estadígrafo
 Medida que describe alguna característica de la muestra.
 La toma de decisiones contiene un grado de incertidumbre.
Las más usadas son:
i) Media muestral ii) Proporción muestral iii) Varianza muestral
13
1.8 Etapas del método científico y estadístico
La estadística ha tenido su origen paralelamente a la investigación
comprendiéndose éste último concepto como el desarrollo sistematizado de la
curiosidad. En las actividades cotidianas se utiliza el proceso de inducción es decir
se analizan las partes para llegar a un todo, el de deducción que inicia en el todo
hasta llegar al detalle; combinándose éstos se puede legitimar lo conocido como
cierto y utilizarlo en ocasiones semejantes. El instrumento de validación de
conocimientos o método científico tiene los siguientes pasos:
 Observación del fenómeno
 Formulación de una hipótesis
 Verificación de la hipótesis
1.8.1 Etapas del método estadístico
De acuerdo con el orden de aplicaciones de la estadística a un problema
determinado, los métodos estadísticos se dividen en 4 etapas:
1. Planificación del estudio
Tiene por finalidad estudiar los detalles concernientes a la recolección,
clasificación y análisis de la información, en base a la cual se describen las
características de una determinada población o se confirmará o negará
determinada hipótesis de trabajo.
Se esquematiza la planificación en los siguientes pasos:
Primer Paso: Planteamiento del problema
El planteamiento del problema responde a la delimitación y jerarquización
del tema, lo que justifica el porqué se lo está investigando. Además debe
ser delimitado en base al tiempo y el espacio, es decir en que lapso de
tiempo, y en que límites geográficos ha de ser observado. Asimismo debe
ser jerarquizado en base a tres criterios de magnitud, trascendencia y
vulnerabilidad, es decir:
Definir la naturaleza e importancia del problema que se estudia.-
Naturaleza explicar ¿qué vamos a estudiar?
Importancia cuantificar su extensión ¿por qué se va estudiar?
Segundo Paso: Elaboración del Marco Teórico
14
El marco teórico proporciona los conocimientos del tema que se está
investigando, en este acápite se detallan las definiciones y explicaciones
pre-existentes, asimismo anteriores investigaciones y sobre todo las
aclaraciones de los conceptos relativos al tema que se utiliza en el trabajo.
Proporciona información a través de una adecuada bibliografía, posibilita
familiarizarse con el tema, preparando el terreno de conocimientos para
acceder a la comprensión de la hipótesis de trabajo, de los objetivos que se
plantearan, el análisis de los datos, de las técnicas de investigación que se
utilizarán y el resultado obtenido a partir del cual se emitirán las
conclusiones y recomendaciones respectivas.
Tercer Paso: Determinación de objetivos
a) Objetivo general explicar para que se realiza la investigación
b) Objetivos específicos explicar cómo se realizará la investigación
Cuarto Paso: Formulación y Verificación de hipótesis
Hipótesis es una afirmación que está sujeta a verificación.
 Se trata de probar una hipótesis de trabajo.
 Su formulación debe hacerse claramente, ya que el diseño, planificación
y desarrollo de la investigación dependerán de la hipótesis que se trata
de probar.
La verificación de la hipótesis constituye la investigación propiamente dicha,
en la cual se consideran 2 aspectos:
a) Diseños de la Investigación
 Estudiar por adelantado cada una se sus diferentes etapas,
recolección, organización, y análisis de los datos.
 Determinar de antemano todo lo concerniente a las observaciones
que se harán
 El número de individuos que se estudiará
 El procedimiento a utilizar en su selección
 Investigar cuidadosamente si existen factores éticos
 Época en que hará el estudio
 Tiempo que durará
 Gastos que determinará
 Seleccionar y entrenar el personal que va colaborar
15
 Definir la unidad que se observa, con el fin de incluir la totalidad de
los individuos que presentan las características que se estudia y
excluir aquellos que no las presentan
 Definir lo que se va observar, para que todos los individuos sean
estudiados uniformemente.
 Hacer un balance de los recursos que se dispone y los que se
necesitarán para ejecutar la investigación conforme lo planeado.
b) Ejecución de la Investigación
Es la recolección, clasificación y análisis de la información recogida,
etapas que debe realizar de acuerdo a lo planificado.
2. Recolección de la información
Está en función a las características del problema abordado y dependiendo
de la determinación de la población a ser estudiada, se tienen dos maneras
de realizar un estudio de la población:
 En forma exhaustiva, global, total, completa, que significa estudiar todos
y cada uno de los integrantes de la población, siendo el resultado un
reflejo real y exacto de ella.
 Mediante una muestra representativa de la población, que tiene las
mismas características cuantitativas y cualitativas de la población total o
universo, proporcionando los mismos datos que se obtiene al estudiar al
total de la población.
Por otra parte se debe considerar, la información que se va a recoger y la
precisión con la que debe ser obtenida, ello dependiendo del propósito de la
investigación y del material estudiado, siendo conveniente limitarse a
recoger tan sólo aquella información que va a utilizarse.
Los principales puntos que deben considerarse al recoger de la información
son:
a) Los errores que pueden cometerse en la recolección de los datos y la
manera de controlarse
b) Las ventajas y limitaciones de los diversos métodos empleados en la
recolección de la información
16
c) Las condiciones que deben reunir los individuos que se estudian y los
procedimientos más convenientes para su elección.
d) El diseño de los formularios que servirán para registrar la información
que se recoja.
3. Tabulación, análisis e interpretación de los resultados
Tabular es contar y ordenar la información recabada, ello a partir de la
confección de cuadros, gráficos, y toda ayuda posible para poder luego
analizar la información disponible.
En el Análisis mediante formulas estadísticas y el uso de tablas
específicamente diseñadas, se efectúa la comparación de las medidas de
resumen previamente calculadas; por ejemplo, si antes se han calculado los
promedios de peso de dos grupos de personas sometidas a diferentes
dietas, el análisis estadístico de los datos consiste en la comparación de
ambos promedios con el propósito de decidir si parece haber diferencias
significativas entre tales promedio.
En Interpretación se explica el sentido de todos los datos obtenidos.
4. Conclusiones y recomendaciones
Ejecutado el estudio, se considera si fue realizado conforme se había
planificado y con los resultados a la vista se concluirá si la hipótesis a
sido verificada o no, emitiéndose las conclusiones y recomendaciones
pertinentes.
5. Presentación de resultados
Es la última actividad del proceso de investigación en la cual se dan a
conocer los resultados y con ello se estará contribuyendo a incrementar los
conocimientos existentes sobre el tema en estudio y se permitirá la
aplicación de las soluciones encontradas a los problemas que motivaron la
investigación.
1.9 Población y Muestra
Población o Universo
La totalidad de individuos o
elementos en los cuales puede
presentarse determinada
característica susceptible de ser
estudiada
17
Ejemplos:
a) Población de ventas anuales de los supermercados de La Paz.
b) Población de todos los posibles resultados cara y sello que se obtiene al
arrojar una moneda un número indefinido de veces.
c) Población de puntajes de rendimiento en la lectura de todos los alumnos del
nivel primario es un sistema escolar.
La población puede ser finita o infinita, dependiendo del número de elementos que
la conforman.
Población finita, es aquella que tiene un número determinado de elementos.
Población infinita, es aquella que tiene un número infinito de elementos.
Muestra
Al número de electos de la muestra se denomina “tamaño de la muestra”.
Se llama unidad estadística o individuo a
cada uno de los elementos que
componen la población estadística. El
individuo es un ente observable que no
tiene por qué ser una persona, puede
ser un objeto, un ser vivo, o incluso algo
abstracto.
La investigación a partir de una muestra
tiene muchas ventajas, entre las que se
destacan las siguientes:
 Permite que el estudio se realice en menos tiempo.
 Se incurre en menos gastos.
 Posibilita profundizar en las variables.
 Permite tener mayor control de las variables a estudiar.
Parte o subconjunto de la población al cual se
tiene acceso y sobre el que se realizan las
observaciones (mediciones).
 Debe ser “representativa”
 Estar formada por miembros
“seleccionados” de la población (individuos,
unidades experimentales).
18
Dato estadístico
Son números o medidas que han sido recopiladas como resultado de
observaciones, que pueden ser comparadas, analizados e interpretados. Un
número aislado que no puede compararse o que no muestre relación significativa
con otros números no es un dato estadístico.
Tipos de Muestreo
Son técnicas o procedimientos que aseguran la representatividad muestral para
que las unidades sean seleccionadas al azar; según la ley de probabilidades, al
escoger la muestra al azar se puede tener casi la certeza de que esa muestra
será representativa.
Según Pardinas, el muestreo consiste en:
Seguir un método, un procedimiento tal que al escoger un grupo pequeño de una
población podamos tener un grado de probabilidad de que ese pequeño grupo
efectivamente posee las características del universo y de la población que
estamos estudiando.
TIPOS DE
MUESTREO
No ProbabilísticoProbabilístico
Aleatorio
simple
Estratificado
Sistemático
Conglomerado
Por conveniencia
Por cuotas
Accidental
19
Muestreo probabilístico
Aleatorio simple.-
Para que un muestreo sea aleatorio es requisito
que todos y cada uno de los elementos de la
población tengan la misma probabilidad de ser
seleccionados. Existen varias modalidades, una de
ellas es el procedimiento de tipo “sorteo” o “rifa”
(por Ejemplo, colocando en un recipiente fichas o
papeles que contengan nombre o números que
correspondan a cada unidad del universo).
Otra técnica utilizada es hacer uso de la tabla de números aleatorios, este
método es más rápido y práctico
Estratificado.-
Este término proviene de la
palabra “estrato” se caracteriza
por la subdivisión de la
población en subgrupos o
estratos, debido a que las
variables principales que deben
someterse a estudio presentan
cierta variabilidad o distribución
conocida que puede afectar los
resultados.
El número de elementos que deberá tomarse de cada estrato se determina
proporcionalmente, según la cantidad de unidades que integra cada estrato
y en base a la totalidad de la población muestral.
Sistemático.-
Es similar al aleatorio simple, en donde cada unidad del universo tiene igual
probabilidad de ser seleccionada, variando en el proceso de selección de la
muestra. Las etapas que deben seguirse son las siguientes:
o Determine el número de unidades que conformará su muestra (n).
o Asegúrese de la cantidad que integra su población y que todas las
unidades estén enumeradas.
o Calcule el ”número de selección sistemática”.
20
𝑁
𝑛
=
500
100
= 5 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑠𝑒𝑙𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
o Determine la unidad muestral por la que se iniciará la selección de la
muestra; se puede hacer al azar o por sorteo, definiendo de esas 5
primeras unidades la cifra por la cual se iniciará la selección.
o Proceda a conformar la muestra; si al realizar el sorteo le resulta el
número 4 y dado que el “número de selección sistemática” es 5, la
primera unidad será 4 y las siguientes 9, 14, 19, y así sucesivamente
hasta completar los 100 elementos.
Conglomerado.-
Se utiliza cuando no se dispone de una lista detallada y enumerada de cada
una de las unidades que conforman el universo y resulta muy compleja
elaborarla.
Se le denomina así debido a que en la selección de la muestra en lugar de
escogerse cada unidad se procede a tomar los subgrupos o conjuntos de
unidades, a los que se llama “conglomerados”.
21
Se tiende a creer que es lo mismo que el estratificado, ambos se
diferencian en que en el primero los subconjuntos se dan en la vida real o
ya están agrupados de esa manera; por Ejemplo: escuelas, tipos de
industrias, bloques de casas y otros. En el de estratos el investigador
decide las agrupaciones que utilizará según la posible variabilidad de los
fenómenos a estudiar. Otra diferencia es que en el de estratos el
investigador conoce la distribución de la variable, no así en el de
conglomerado.
El proceso se inicia definiendo los conglomerados, después se seleccionan
los subconjuntos a estudiar (o sea que se realiza un muestreo de
conglomerado); de estos seleccionados se procede a hacer el listado de las
unidades que componen cada conglomerado, continuando posteriormente
22
con la selección de las unidades que integrarán la muestra, siguiendo
alguno de los métodos aleatorios indicados.
Muestreo no probabilístico
Se caracteriza porque el investigador selecciona su muestra siguiendo algunos
criterios identificados para los fines del estudio que le interesa realizar.
Por conveniencia o intencional.-
En el que el investigador decide, según sus
objetivos, los elementos que integrarán la
muestra, considerando aquellas unidades
supuestamente “típicas” de la población que
desea conocer.
Por cuotas.-
Consiste en que el investigador selecciona la muestra considerando
algunos fenómenos o variables a estudiar, como sexo, raza, religión, etc. El
paso inicial consiste en determinar la cantidad o “cuota” de sujetos de
estudio a incluirse y que poseen las características indicadas; un Ejemplo
de esto son las encuestas de opinión pública, en las que los encuestadores
proceden a buscar las personas hasta cubrir la cuota previamente fijada, sin
preocuparse por áreas geográficas, zonas u otro criterio.
Accidental.-
Consiste en aprovechar o utilizar para el estudio las personas disponibles
en un momento dado según lo que interese estudiar. Éste es el menos
eficiente.
23
2.1 Tabulación
La palabra tabular significa expresar u ordenar unos datos en forma de tablas.
El proceso de tabulación consiste en el recuento de los datos que están
contenidos en los cuestionarios. En este proceso incluimos todas aquellas
operaciones encaminadas a la obtención de resultados numéricos relativos a los
temas de estudio que se tratan en los cuestionarios. Se requiere una previa
codificación de las respuestas obtenidas en los cuestionarios. Realizamos
tabulación, codificación y diseño de gráficos con datos biográficos, de consumo o
de opinión. Los resultados serán presentados en tablas y/o mapas gráficos que
expliquen las relaciones existentes entre las diversas variables analizadas. Esta
presentación se adecuará a la petición de nuestros clientes mediante análisis
estadísticos de datos, grabados por nosotros o por terceros, análisis bivariantes,
análisis multivariantes, tests de contraste de hipótesis
2.2 ¿Qué es una distribución de frecuencia?
Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus
respectivas categorías.
24
2.3 El elemento clase de la distribución de frecuencia.
2.3.1 Frecuencia de clase
Se llama frecuencia de clase a la reunión de grandes cantidades de datos sueltos
distribuidos en clases o categorías, determinando el número de individuos que
pertenecen a cada categoría.
Estatura
(pulg)
Número de
estudiantes
60 - 62
63 - 65
66 - 68
69 - 71
72 - 74
5
18
42
27
8
Total 100
2.3.2 Distribución de frecuencia o tabla de frecuencia
Se conoce como distribución de frecuencias o tablas de frecuencias a una
disposición tabular de los datos por clases con su correspondiente frecuencias de
clase.
2.3.3 Datos agrupados
A los datos así organizados y reunidos, como en la anterior distribución de
frecuencias, se llama datos agrupados. Esto proporciona una visión amplia y clara,
además de que se obtienen relacionados evidentes.
2.3.4 Intervalos de clase y límites de clase
Intervalo de clase Símbolo que define una clase
Ejemplo:
60 - 62 , 72 - 74
25
límite inferior límite superior
Aun intervalo de clase que, por lo menos teóricamente no tiene límite de clase
inferior o superior se le llama intervalos abierto.
Ejemplo:
65 años o más
2.3.5 Fronteras de clase
En el ejemplo anterior el intervalo 60 – 52 incluye todas las medidas desde 59.5
pulg. y 62.5 pulg., a estos números se les llaman frontera de clase o límites
verdaderos de clase.
De aquí:
59.5 es la frontera inferior de clase
62.5 es la frontera superior de clase
2.3.6 Tamaño o amplitud de un intervalo
Es la diferencia entre las fronteras de clase inferior y superior. Si todos los
intervalos de una distribución de frecuencias son de las misma amplitud, a esta
amplitud común se la denota por c.
Ejemplo:
62.5 - 59.5 = 3
65.5 – 62.5 = 3
2.3.7 Marca de clase
La marca de clase, que es el punto medio del intervalo de clase, se obtiene
promediando los límites inferior y superior de la clase. De este modo:
Del ejemplo anterior tenemos el intervalo 60 - 62
Marca de la clase: (60 + 62)/2 = 61
La marca de clase es, en definitiva, el valor que representa a la información
contenida en el intervalo.
2.3.8 Rango
Es la diferencia entre el número mayor y el número menor de os datos sueltos.
26
Ejemplo:
Supongamos que las alturas de plantas, en una clase de botánica son las
siguientes:
64 73 68 68 76 70 62 67 71 69
68 60 65 68 66 68 67 71 66 72
Luego el rango de estos datos es:
R = 76 – 60 = 16
2.4 Reglas generales para construir distribución de frecuencias
1. Determinación del Rango.- Es conveniente primero determinar el rango de
los datos obtenidos.
2. Determinación del número de clase.- Cosiste en dividir el rango en un
número conveniente de intervalos de clase, generalmente del mismo tamaño.
Es conveniente tener entre 5 y 20 intervalos de clase. Entre más datos se
tengan, más intervalos de clase deben considerarse. No hay fórmula exacta
para calcular el número de intervalos de clase. Este número es determinado
por tentativas y aproximaciones. Sin embargo se puede, en principio tomar en
cuenta lo siguiente:
a) Número de clases = K = 5, si n = tamaño de la muestra <= 5
y K = √n , si n > 20
b) Fórmula de Sturges:
K = 1 + 3.22 log(n)
Cuando los resultados para obtener K en a) y b) son números reales
con decimales, entonces se redondearán al entero inmediato mayor.
3. Determinación del tamaño de los intervalos.- Como regla general para
encontrar la longitud de los intervalos (del mismo tamaño), divídase el rango
de las observaciones entre el número de intervalos de clase, esto es, Amplitud
de clase = C = R/K.
4. Determinación de los límites de la clase.- Se debe tomar el resultado
numérico más bajo de los datos originales como el límite inferior del primer
intervalo de clase. Agregar C para obtener el límite superior de dicha clase.
5. Determinación de la frecuencia de clase.- Consiste en determinar el
número de observaciones que caen en cada intervalo de clase.
27
Técnicas de recuento
El proceso manual de recuento se puede hacer por:
2.5 Frecuencia absoluta simple
Frecuencia absoluta de un dato (fi)
Llamaremos frecuencia absoluta de un valor xi de la variable estadística x, al
número de veces que aparece repetido dicho valor en el conjunto de las
observaciones realizadas.
Ejemplo
Se quiere saber el número de hijos por matrimonio de un pequeño poblado. Para
este propósito, se elige una muestra representativa de 50 matrimonios de ella se
obtienen los siguientes datos:
2 , 2 , 4 , 1 , 3 , 5 , 3 , 2 , 1 , 6 , 3 , 4 , 1 , 2 , 0 , 2 , 3 , 1 , 7 , 4 , 2 , 3 , 0 , 5 , 1 , 4 , 3
, 2 , 4 , 1 , 5, 2 , 1 , 2 , 4 , 0 , 3 , 3 , 2 , 6 , 1 , 5 , 4 , 2 , 0 , 3 , 2 , 4 , 3 , 1
x i f i
0 4
1 9
2 12
3 10
4 8
5 4
6 2
7 1
Frecuencia absoluta acumulada de un dato (Fi)
La frecuencia absoluta acumulada indica cuantos elementos de la lista de datos
son menores o iguales a un valor dado. Es la suma de las frecuencias absolutas
desde la primera fila hasta la fila elegida.
28
Por ejemplo anterior, sabemos que hay 25 matrimonios de la muestra que tienen
2 o más hijos.
x i f i F i
0 4 4
1 9 13
2 12 25
3 10 35
4 8 43
5 4 47
6 2 49
7 1 50
2.6 Frecuencia relativa
Frecuencia relativa de un dato ( hi )
La frecuencia relativa es el cociente entre la frecuencia absoluta ( fi ) y el número
total de datos ( n ).
hi = fi /n
En nuestro ejemplo:
x i f i F i h i
0 4 4 0,08
1 9 13 0,18
2 12 25 0,24
3 10 35 0,20
4 8 43 0,16
5 4 47 0,08
6 2 49 0,04
7 1 50 0,02
Frecuencia relativa acumulada de un dato ( Hi )
La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta
acumulada ( F i ) y el número total de datos ( n ).
En nuestro ejemplo:
x i f i F i h i H i
0 4 4 0,08 0,08
1 9 13 0,18 0,26
2 12 25 0,24 0,50
29
3 10 35 0,20 0,70
4 8 43 0,16 0,86
5 4 47 0,08 0,94
6 2 49 0,04 0,98
7 1 50 0,02 1,00
2.7 Representación grafica de variables cuantitativas
Las más usadas son:
1. Diagrama de barras.
Esta forma de representación gráfica es propia de las distribuciones que
tienen muchas observaciones pero pocos valores distintos de la variables.
Dicho diagrama se elabora colocando en el eje de las abscisas los distintos
valores de la variable y sobre cada una de ellas se levanta una línea
perpendicular, cuya altura es la frecuencia (absoluta o relativa) de dicho
valor.
30
2. Histogramas.
Es una representación gráfica de una distribución de frecuencia
agrupaciones en intervalos de clase, mediante una serie de rectángulos
contiguos que tienen:
a) Sus bases sobre un eje horizontal (eje de las X) con centros en las
marcas de clase y longitud igual al tamaño de los intervalos de clase.
b) Las alturas proporcionales a la frecuencia (absoluta o relativa)
tomados sobre el eje de las Y.
A veces conviene más graficar en el histograma las frecuencias relativas en
lugar de las frecuencias absolutas. En este caso, la altura correspondiente
a cada rectángulo que habrá que levantar sobre el eje de ordenadas será el
cociente entre la frecuencia relativa del mismo y la amplitud del intervalo. El
único cuidado que debe tenerse es que el área total del histograma sea
igual a 1, correspondiente a la suma total de áreas de cada rectángulo.
Se utiliza cuando se estudia una variable continua, como franjas de edades
o altura de la muestra, y, por comodidad, sus valores se agrupan en clases,
es decir, valores continuos. En los casos en los que los datos son
cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de
estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y
económicas que en ciencias naturales y exactas. Y permite la comparación
de los resultados de un proceso.
Puntajes
X
frecuencia absoluta Marca de Clase
11 – 17 6 14
17 – 23 4 20
23 – 29 15 26
29 – 35 13 32
35 – 41 1 38
41 – 47 1 44
Total 40
31
3. Polígono de frecuencia
a) Si la variable es discreta, el polígono de frecuencia se obtienen
uniendo los extremos superiores de las barra en el diagrama de
barras
32
b) Si la variable está agrupada en intervalos de clase, el polígono de
frecuencia se obtiene uniendo los puntos medios de las bases
superiores de cada rectángulo en el histograma.
4. Polígono de frecuencia acumuladas u ojiva
Esta representación es válida para variables estadísticas agrupadas en
intervalo clase.
En el eje de las abscisas representamos los distintos intervalos de clase que
han de estar naturalmente traslapados. En el extremo superior de cada
33
intervalo se levanta una vertical con altura igual a la frecuencia (absoluta y
relativa) acumulada, luego se unen los extremos superiores de las verticales
con segmentos rectilíneos. Así por ejemplo el polígono de frecuencia
acumuladas absolutas alcanzará su máxima altura en el último intervalo.
2.8 Representación de variables cualitativas
a) Diagrama de rectángulos o de Barras
Se representa en el eje de las abscisas los distintos caracteres cualitativos
y se levantan sobre ellos rectángulos de bases iguales que no tiene porque
estar traslapados y cuya altura será igual a la frecuencia absoluta
correspondiente.
Ejemplo:
FACULTAD NUMERO DE ALUMNOS
Ingeniería Metalúrgica 200
Economía 1500
Ingeniería Industrial 3000
Contabilidad 800
Derecho 700
Ciencias de la Comunicación 900
Ingeniería de Sistemas 400
Ciencias Administrativas 600
34
Ejemplo:
Causa del Accidente
Sexo
Total
Masculino Femenino
Accidentesde
transporte 1145 232 1377
Sumersión
accidental
346 92 438
Caída 242 101 343
Envenenamientos 58 43 101
Otros accidentes 653 311 964
TOTAL 2444 779 3223
35
b) Diagramas de sectores o Gráfico Sectorial
Es una representación de un conjunto de datos estadísticos, en un círculo,
por medio de sectores circulares. Es utilizado principalmente cuando se
pretende comparar cada valor de la variable con el total.
Causa del Accidente
Sexo
Total
Masculino Femenino
Accidentesde
transporte 1145 232 1377
Sumersión
accidental
346 92 438
Caída 242 101 343
Envenenamientos 58 43 101
Otros accidentes 653 311 964
TOTAL 2444 779 3223
36
c) Pictogramas
Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo
tamaño es proporcional a la frecuencia que representan; dicha frecuencia
se suele indicar.
¿En qué mes se plantaron menos árboles?, ¿y en cuál se hicieron más
plantaciones?
37
Una variable estadística es una característica de la población que interesa al
investigador y que puede tomar diferentes valores.
La variables estadísticas generalmente se denotan con las letras x, y, z, etc.
Ejemplo
Peso, Coeficiente Intelectual (CI), Sexo, Edad, etc. y toman distintos valores
cuando se observan diferentes individuos.
Importante: Si los valores numéricos que toma una variable, provienen de
factores fortuitos (accidental) y si un determinado valor no se puede
predecir exactamente con anticipación, esa variable se denomina “variable
aleatoria”.
3.1 Concepto de Variable Cualitativa
Sus valores consisten en categorías de clasificación, o sea se refiere a las
cualidades que presenta la población, no lleva clasificación numérica.
Se refieren a propiedades de los objetos en estudio, sean éstos animados o
inanimados. Lo que determina que una variable sea cualitativa es el hecho de que
no puede ser medida en términos de la cantidad de la propiedad presente, sino
que sólo se determina la presencia o ausencia de ella.
Por ejemplo: las variables sexo, ocupación , religión, procedencia, estado civil, se
consideran cualitativas en vista de que no se les puede asignar mayor o menor
peso a las diferentes categorías; lo único que se puede hacer es clasificarlas.
38
A su vez estas variables puede clasificarse en:
 Variable Cualitativa Nominal.- Surge cuando se definen categorías y se
cuenta el número de observaciones pertinentes a cada categoría y no lleva
ninguna ordenación en las posibles modalidades.
Ejemplo:
 Variable Cualitativa Ordinal.-Cuando el investigador busca ordenar sus
casos en términos del grado que poseen una determinada característica. Es
decir se clasifican los objetos, hechos o fenómenos en forma jerárquica
según el grado que posea una característica determinada, sin proporcionar
información sobre la magnitud de las diferencias entre los casos así
clasificados.
Ejemplo
Variable Categorías
Estado marital Soltero
Casado
Divorciado
Viudo
Unión libre
Orientación en el tiempo Presente
Pasado
Futuro
Color de ojos Castaños
Azules
Negros, etc.
Partidos políticos UN
MAS
MSM, etc.
Variable Categorías
Clase social Alta, media, baja.
Nota de un examen Excelente, bueno, malo, pésimo
Puesto en una prueba deportiva 1o, 2o, 3º,...
Medallas en una prueba deportiva Oro, Plata, Bronce
39
3.2 Razón
La Razón es el cociente de dos cantidades entre sí, que representan dos variables
sujetas a comparación de unidad vs. Unidad.
Ejemplo:
Se debe determinar que variable será la unidad, es decir el denominador.
a) En el caso de que la unidad corresponda a Mujeres, el denominador de las
dos variables será el número de las 15 Mujeres, realizándose las
operaciones de la siguiente manera:
15/15 = 1 10/15 = 0,67 1 : 0,67
Mujeres : Hombres
La interpretación de estas cifras no refiere que por cada mujer atendida se
atendió un poco más de la mitad de un hombre, sino que hay menos
hombres en la consulta que mujeres.
b) Si se decide que la unidad serán los hombres, el planteamiento es:
10/10 = 1 15/10 = 1,5 1 : 1,5
Hombres : Mujeres
Se aprecia que hay más mujeres atendidas que hombres.
Los resultados nos pueden dar las siguientes variaciones:
1 : 0,67 0,67 : 1
Mujeres : Hombres Hombres : Mujeres
1 : 1,5 1,5 : 1
Hombres : Mujeres Mujeres : Hombres
En todos los casos podemos inferir que hay más mujeres, aunque no
sabremos cuántas mujeres u hombres hay en el universo estudiado. La
razón es aplicada para valorar el crecimiento o la disminución de la
población.
Atención hospitalaria
Mujeres Hombres
15 10 25
40
Ejemplo:
En el año 2002, según el Centro Nacional de Epidemiología se declararon los
siguientes casos de legionelosis (enfermedad bacteriana ambiental):
Comunitario
(adquirida en la comunidad)
Nosocomial
(adquirida en centros de salud)
Total
Casos Defunciones Casos Defunciones Casos Defunciones
372 9 29 5 401 14
Casos de Legionelosis adquirida en la comunidad / casos de legionelosis
nosocomiales
372 / 29 = 12,8
Por cada caso de legionelosis nosocomial hay 12,8 casos comunitarios
Defunciones por legionelosis comunitario / defunciones por legionelosis
nosocomiales
9 / 5 = 1,8
Por cada defunción por legionelosis nosocomial hay 1,8 defunciones por
legionelosis comunitario.
3.3 Proporción
Se utiliza como estimación de la probabilidad de un evento. Es la relación de dos
cifras, cuando una de ellas es una parte que se divide por el total, lo que se puede
explicar mejor, si tomamos las cifras del primer ejemplo
Total = 25 pacientes
Parte = 15 mujeres
Parte = 10 hombres
La proporción de las mujeres se obtiene dividiendo el número 15 entre el total de
los pacientes atendidos.
Proporción de mujeres: 15/25 = 0,6
Para el caso de los varones tendremos:
Proporción de hombres: 10/25 = 0,4
41
Si observamos en la siguiente tabla las proporciones serán:
Mediante estas medidas tenemos idea de la proporción, pero al igual que en las
razones, ignoramos cuantas mujeres o varones existen en éste universo. En las
proporciones la suma de todas las partes siempre alcanzará la Unidad, por tanto
una proporción no excede la unidad.
Con el segundo ejemplo tendríamos:
3.4 Porcentajes
El porciento es el resultado de multiplicar la proporción por 100, así siguiendo con
el primer Ejemplo si tenemos las proporciones para mujeres y hombres.
Mujeres 0,6 le corresponde 60%
Hombres 0,4 le corresponde 40%
Nótese que observando los porcentajes, tampoco se sabe “CUANTAS” personas
existen, sólo sabemos que hay más mujeres que hombres. La suma de todos los
porcentajes hacen mucho mas “manejables” las cifras de las proporciones, por
qué se puede apreciar mejor un 40% que un 0,4%.
Atención
hospitalaria
Sexo
Proporción
Mujeres 0,6
Hombres 0,4
Total 1,0
Legionelosis Casos Proporción Defunciones Proporción
Comunitario 372 0,93 9 0,64
Nosocomial 29 0,07 5 0,36
Total 401 1,00 14 1,00
Atención
hospitalaria
Sexo
Proporción Porcentaje
Mujeres 0,6 60%
Hombres 0,4 40%
Total 1,0 100%
42
3.5 Tasas
Esta medida, indicador o número índice es una proporción en la que se relaciona
como “parte” un hecho vital que frecuentemente tiene que ver con los nacimientos,
muertes, migraciones, estado civil, enfermedades con un “total” que suele ser la
población y cuyo cociente se multiplica por 100,1000, 10.000 o 100.000 de
acuerdo a la magnitud de denominador para hacer comprables las tasas.
Las tasas tienen dos características importantes: Tiempo y lugar.
 Tiempo.-
Es el hecho vital que se estudia durante un año determinado, un mes,
semana o día, ejemplos: 1991, Diciembre, 2da semana de Octubre, el 3 de
Febrero.
 Lugar.-
Puede ser un país, una provincia, un Departamento, una ciudad o un barrio.
Los dos componentes permiten que las tasas puedan ser utilizadas para comparar
los hechos vitales entre dos zonas geográficas distintas o similares, así como
también entre dos épocas distintas.
El resultado de una tasa tampoco indica que cantidad del hecho vital se dio, el
numeral de la tasa lo mismo que las proporciones y las razones, nos ayudan a
comparar eventos, casuística, comportamiento entre distintas poblaciones sin
importar su totalidad. Así, si dos países, uno de 40 millones de habitantes y otro
de 5 millones, tienen una tasa de natalidad del orden de 23 por 100.000, haciendo
abstracción de la cantidad de habitantes, podemos concluir de que en ambos
países, el comportamiento de los nacimientos es similar.
Ejemplo:
Según el Instituto Nacional de Estadística, en el año 2002 se encontraba censada
en España una población de 41.837.894 personas.
a) Tasa de legionelosis en el año 2002 en España
𝐶𝑎𝑠𝑜𝑠 𝑑𝑒 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠
𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜)
𝑥 100.000
401
41.837.894
𝑥 100.000
= 0,96
43
Es decir que 0,96 personas padecieron legionelosis en el año 2002 en España por
cada 100.000 habitantes.
b) Tasa de mortalidad por legionelosis en España en 2002
𝐷𝑒𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠 𝑝𝑜𝑟 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠
𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜)
𝑥 100.000
14
41.837.894
𝑥 100.000
= 0,033
Es decir que 0,033 personas fallecieron por legionelosis en España en 2002 por
cada 100.000 habitantes.
44
4.1 Concepto de Variables Cuantitativas
Son aquellas cuya magnitud puede ser medida en términos numéricos, esto es,
que los valores de los fenómenos se encuentran distribuidos a lo largo de una
escala.
Por ejemplo, las variables edad, peso, talla, escolaridad, son cuantitativas debido
a que se les puede asignar mayor o menor peso a cada una de ellas; tomando por
ejemplo la edad, se puede afirmar que una persona que tiene 50 años representa
en doble en edad de una que tiene 25 años.
Las variables cuantitativas se clasifican en:
 Variables Continuas.- Son aquellas cuya unidad de medición utilizada en
la escala puede ser subdividida en forma infinita.
Ejemplo:
- Estatura de los estudiantes de la U.S.B.
Si la unidad de medición es el metro éste puede ser subdividido en
centímetros y milímetros.
- Nivel de colesterol de ciertos pacientes del hospital Obrero
45
 Variables Discontinuas o Discretas.- Son aquellas que pueden tomar
solamente un número finito de valores, debido a que la unidad de medición
no puede ser fraccionada.
Ejemplo:
- Número de hijos (los hijos no pueden fraccionarse).
- Número de monedas que una persona lleva en su bolsillo.
- Número de admisiones en un hospital durante un día determinado.
- Número de accidentes automovilísticos que se producen en una
ciudad.
Sumatorias
La suma de los valores de la variable x: nxxx ,...,, 21 , se define mediante la notación
 e indica que han de sumarse los elementos de la sucesión desde el subíndice
i = 1 hasta el subíndice n, esto es:


n
i
ni xxxx
1
21 ...
Ejemplo:
         

4
1
6141312111
i
i
¡Hazlo tú!


5
1
6
i
i
Nótese que el elemento típico de la sumatoria es una función únicamente
del índice de la sumatoria. Si algún otro símbolo aparece en la fórmula del
elemento típico, debe considerarse constante.
46
Suponga que se seleccionan n = 5 compañías cerveceras del total en el país.
Sus tasas de ganancia, como porcentaje de precio de venta, son
respectivamente 12.2, 10.8, 12.1 y 11.3. Represente simbólicamente estas
cantidades como
2.121 x 8.102 x 4.103 x 1.124 x 3.115 x
a) Hallar 
5
1i
ix
b) Hallar
5
5
1
i
ix
c) Hallar 
5
1
2
i
ix
Propiedades de la Sumatoria
1. 

n
i
nCCCCCC
1
... , donde C es una constante
2.   

n
i
n
i
ii xCCx
1 1
3.
 
  
 

 


n
i
i
n
i
i
n
i
iiii
n
i
i
n
i
n
i
iii
zyxzyxb
yxyxa
111
11 1
)
)
4.      

n
i
n
i
iii
n
i
i
n
i
ii yCyxCxCyx
1 1
22
1
2
1
2
4.2 Medidas de tendencia central
 Clasificados los datos originales se debe
 Calcular un conjunto de indicadores
Caracterizan en forma algo mas precisa la distribución que se estudia.
 Para esto se dispone de estadígrafos
- Representan valores centrales en torno de los cuales se agrupen las
observaciones, llamadas usualmente promedios.
- Utilidad: análisis y comparación de una distribución.
47
Medida de tendencia central
Es un índice de localización central empleado en la descripción de
las distribuciones de frecuencias.
…también sirve como una base para medir y evaluar valores anormalmente altos
o anormalmente bajos (o valores extremos),
Características del valor central
1. Debe estar definido en forma objetiva.
2. debe depender de toda la información obtenida en lo posible.
3. debe ser fácil de comprender (no debe tener un carácter abstracto) y de
interpretar.
4. Debe ser fácil de calcular.
5. Debe ser estable (no debe se sensible a fluctuaciones).
6. Debe ser adecuado a cálculos algebraicos posteriores.
4.2.1 Tipos de Promedio
Los promedios más usuales son:
a) La media aritmética o media
b) La mediana
c) La moda
d) La media geométrica
e) La media cuadrática
f) La media armónica
4.2.2 Media Aritmética – Datos no agrupados
Sea nxxx ,...,, 21 , valores de la variable X. La media aritmética simple de X
representada por X es dada por:
donde n es el tamaño de la muestra o número de elementos del conjunto de
observaciones.
Ejemplo:
n
x
X
n
i
i
 1
48
Consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60,
71, y 80.
La media de edad de estos sujetos será de:
Encuentre la medida aritmética de las observaciones: 3, 4, 7, 8, 2
4.2.3 Media Aritmética – Datos agrupados
Sean kxxx ,...,, 21 valores de la variable X ponderados por sus respectivas
frecuencias absolutas: kfff ,...,, 21 . La media de la variable X es dado por:
n
xf
X
k
i
ii
 1
o
n
xh
X
k
i
ii
 1
donde 

k
i
ifn
1
y khhh ,...,, 21 son las frecuencias relativas respectivas.
Ejemplo
Si tenemos la siguiente distribución, se pide hallar la media aritmética, de
los siguientes datos expresados en kg.
xi fi xi fi
54
59
63
64
2
3
4
1
108
177
252
64
Total 10 601
49
kg
n
xf
X
k
i
ii
1.60
10
6011


Ejemplo
Clases fi Marca de
clase
Xi
fixi
[30,40] 3 35 105
(40,50] 2 45 90
(50,60] 5 55 275
Total 10 470
47
10
4701


n
xf
X
k
i
ii
4.2.4 Propiedades de la media Aritmética
1. La suma de las desviaciones (diferencias) entre los valores de la variable X
y su media aritmética X es ceros, esto es:
   0xxf ii
2. Para un conjunto dado de observaciones, la media es única.
3. La media es sensible ( o afectada) por los valores del conjunto. Así, si un
valore se modifica, la media aritmética X también se modifica.
4. La suma de los cuadrados de las desviaciones entre los valores de la
variable X y de su mediad aritmética X es mínima, esto es:
    

2
1
2
Bxfxxf ii
k
i
ii , para cualquier constante B
5. Si a los valores de una valores de una variable X se resuma o se le resta
una constante C, entonces la media aritmética X quedará aumentada o
disminuida en la constante C, esto es:
50
CXYCXY 
6. Si fueran multiplicados o divididos los valores de una variable X por una
constante C, entonces la media de X, X , quedará multiplicada o dividida
por esta constante, esto es:
XCYCXY 
7. En general, si CXbYCbXY 
Ventajas e inconvenientes:
- La media aritmética viene expresada en las mismas unidades que la
variable.
- En su cálculo intervienen todos los valores de la distribución.
- Es el centro de gravedad de toda la distribución, representando a
todos los valores observados.
- Es única.
- Su principal inconveniente es que se ve afectada por los valores
extremadamente grandes o pequeños de la distribución.
Ejemplo
En una empresa donde los salarios tienen una media de 100000 el
sindicato solicita que cada salario X, se transforma en Y, mediante la
siguiente.
1005.2  XY
El directorio acoge parcialmente la petición rebajando los salarios
propuestos por el sindicato en un 10%, lo que es aceptado. Se pide calcular
la media aritmética de la nueva distribución de salarios.
Solución
Tenemos: 100000X
Si   2501001001000005.21005.21005.2  XYXY
El salario propuesto por el directorio es:
   2250902501009.09.09.0%10  YZYYYZ
Luego, la media de la nueva distribución de salarios es: 225090
51
A) Primer proceso abreviado para el calculo de la media
Sea tO (el origen de trabajo) el valore más frecuente de la variable de X o que
está hacia el centro de la distribución de frecuencias, y sea tii Oxd 
 ki ,...,2,1 las desviaciones de ix respecto a tO entonces
tii Odx 
Luego
   

 
itiiiii
k
i
ii
fOdf
n
Odf
nn
xf
X
111
B) Segundo proceso abreviado para el de la media
Este procedimiento es particularmente útil para ser aplicado cuando los valores de
X son grandes y la amplitud de clase constante. Como veremos, el uso de éste
proceso nos ofrece rapidez y facilidad en los cálculos.
Primer Paso: Se efectúa el cambio de variable de X a  , utilizando la siguiente
fórmula:
C
Ox ti 
 1)
donde: ix =valores de la variable tO = origen de trabajo
i =Valores transformados C = amplitud del intervalo de clase
Segundo Paso: Cálculo de la mediana X
Tenemos: de 1): iti COx 
n
df
OX
k
i
ii
t

 |
52
Entonces       iitiitiii fCOf
n
COf
n
xf
n
X 
111
Por tanto:
4.2.5 Medida Ponderada
Hay ocasiones en que se requiere expresar en una sola cifra los resultados de
varios grupos de datos, cada uno de los cuales ha sido resumido previamente
mediante un promedio. Tal es el caso de las muestras estratificadas, en las cuales
se calcula un promedio para cada estrato. En dichas ocasiones, el promedio
general para los diferentes grupos no se obtiene promediando los promedios
parciales, sino que es necesario tener en cuenta el numero de observaciones en
que se basa cada promedio. Tal promedio recibe el nombre de medida ponderada
y es definida como sigue:
Sean rXXX ,...,, 21 , las medias aritméticas de r subconjuntos menores, cada uno
con rnnn ,...,, 21 observaciones respectivamente. La media aritmética del conjunto
formado por los términos de los r subconjuntos es dado por la fórmula:
n
Xn
nnn
XnXnXn
X
r
j
jj
rr
p





1
321
2211
...
...
donde: 

r
i
jnn
1
En general, si rppp ,...,, 21 son los pesos asociados a los valores de la variable
rxxxX ,...,,: 21 respectivamente, entonces la media ponderada será:










n
f
COX
ii
t
 









n
f
COX
ii
t





 r
i
i
r
i
ii
p
p
xp
X
1
1
53
Ejemplo:
Supongamos que en una ciudad en particular hay dos precios de pan, 0.80
centavos en los supermercados que vende 10000 unidades, y un centavo
en las panaderías que venden 1000 unidades. Hallar el promedio
ponderado del precio del pan:
Solución
Tenemos:
      8182.0
11000
9000
100010000
100000.11000080.0



pX
Por tanto, el precio promedio del pan es de 0.8182.
4.2.6 Mediana
La mediana es un valor que divide a un conjunto de observaciones ordenadas en
forma ascendente o descendente en dos grupos de igual número de
observaciones. La notación que vamos a emplear será:
En el cálculo de la mediana, podemos considerar los 3 casos siguientes:
La variable en estudio es discreta y n (numero de observaciones)
es impar.
2
1

n
Me
Ejemplo:
En un estudio que se realizó en un asilo de ancianos, se tomó las edades
de los envejecí entes que pueden caminar sin dificultades. Buscar la
mediana de las siguientes edades.
69 73 65 70 71 74 60 62 78
Solución
Ordenando estos valores de acuerdo a la magnitud que tenemos:
60 62 65 69 70 71 73 74 78
Unidad
seleccio
nada
54
donde n = 9
entonces 5
2
19
2
1





n
Me to,  Me = 70
La edad de 70, que es la mediana, ocupa el lugar central de la distribución,
que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha.
La variable en estudio es discreta y n (numero de observaciones)
es par.
En este caso no, no existe e la ordenación un valor de la variable que ocupe la
posición central, esto es, la mediana es indeterminada, pues cualquier valor
comprendido entre los valores que ocupan la posición 1
22

n
y
n
Por tanto por convención la mediana es:
2
1
22



nn xx
Me
Ejemplo
Buscar la mediana de los siguientes números:
25 15 28 29 25 26 21 26
Solución
Arreglando estos valores en orden creciente tenemos:
15 21 25 25 26 26 28 29
Calculamos los valores que ocupan las posiciones: 1
22

n
y
n
, esto es:
to
n
to
n
51
2
8
1
2
4
2
8
2


Luego:
5.25
2
2625
2
1
22






nn xx
Me
55
E valor 25.5, que es la mediana, ocupa el lugar central de la distribución,
que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha.
La variable es continua.
En este caso el problema consiste en determinar un punto dentro del intervalo en
que está comprendido la mediana.
Procedimiento
1er Paso. Calcular la posición de orden
2
n
. Como la variable es continua,
no se debe preocuparse si n es par o impar
2do paso. Por las frecuencias acumuladas se identifica la clase que
contiene a la mediana, esto es, la clase para el cual se cumple:
kk F
n
F 
2
1
Con lo cual la mediana estará en la clase que tiene como frecuencia
acumulada kF .
3er Paso. Utilizar la fórmula:
med
kk
k
med C
FF
F
n
lMe *2
1
1

















donde:
medl Límite inferior de la clase que contiene a la mediana.
n = Tamaño de la muestra.
meC Amplitud de la clase que contiene a la mediana.
kF Frecuencia acumulada de la clase que contiene la mediana.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene a la mediana
Ejemplo:
Clases  45,35  55,45  65,55  75,65  85,75  95,85
if 5 12 18 14 6 3
Ciuda
d
56
Hallar la mediana.
Solución
Clases if iF
 45,35 5 5
 55,45 12 17
 65,55 18 35
 75,65 14 49
 85,75 6 55
 95,85 3 58
Total 58
Paso 1: von
29
2
58
2
 posición
Paso 2: kk F
n
F 
2
1  352917 32  FF vo
Paso 3:
67.6110*
1735
1729
55*2
1
1


























med
kk
k
med C
FF
F
n
lMe
4.2.7 Cuartiles
Los cuartiles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en cuatro partes iguales.
Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a él y el 75%
superiores a él.
Q2 = 2do cuartil, coincide con la mediana
Q3 = 3er cuatil, deja 75% de las observaciones inferiores o iguales a él y el 25% de
éstas superiores a él.
Calle
57
Utilizaremos los cuartiles solamente para datos agrupados en intervalos de clase.
Determinación de Q1:
1er Paso: Se calcula
4
n
2do Paso: Se identifica la clase que contiene a Q1 por medio de las
frecuencias acumuladas, esto es, por la desigualdad.
kk F
n
F 
4
1
3er Paso: Se aplica la fórmula
11
*4
1
1
1 Q
kk
k
Q C
FF
F
n
lQ

















o
11
*4
1
1
1
1 Q
kk
k
Q C
HH
H
lQ

















(Cuando se usa frecuencias acumuladas relativas)
donde:
1Ql Límite inferior de la clase que contiene a Q1.
n = Tamaño de la muestra.
1QC Amplitud de la clase que contiene al primer cuartil.
kF Frecuencia acumulada de la clase que contiene al primer cuartil.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene al primer cuartil.
Determinación de Q3:
1er Paso: Se calcula
4
3n
2do Paso: Se identifica la clase que contiene a Q3 por medio de las
frecuencias acumuladas, esto es, por la desigualdad.
58
jj F
n
F 
4
3
1
3er Paso: Se aplica la fórmula
33
*4
3
1
1
3 Q
jj
j
Q C
FF
F
n
lQ

















o
33
*4
3
1
1
3 Q
jj
j
Q C
HH
H
lQ

















(Cuando se usa frecuencias acumuladas relativas)
donde:
3Ql Límite inferior de la clase que contiene a Q3.
n = Tamaño de la muestra.
3QC Amplitud de la clase que contiene a Q3.
jF Frecuencia acumulada de la clase que contiene a Q3.
1jF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene Q3.
4.2.8 Deciles
Los deciles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en 10 partes iguales.
D1 = 1er decil, deja 10% de las observaciones menores o iguales a él.
D2 = 2do decil, deja 20% de las observaciones menores o iguales a él .
.
.
.
D9 = 9no decil, deja el 90% de las observaciones menores o iguales a él.
Edificio
Barrios
59
Para determinar los deciles seguimos los siguientes pasos:
1er Paso: Se calcula
4
*ni
, donde i = 1,2,…,9
2do Paso: Se identifica la clase que contiene los deciles por medio de las
frecuencias acumuladas, esto es, por la desigualdad.
kk F
ni
F 
4
*
1
3er Paso: Se aplica la fórmula
ii D
kk
k
Di C
FF
F
ni
lD *10
*
1
1

















donde:
iDl Límite inferior de la clase que contiene a Di, i = 1,2,…,9
n = Tamaño de la muestra.
iDC Amplitud de la clase que contiene a Di.
kF Frecuencia acumulada de la clase que contiene a Di.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene Di.
4.2.9 Percentiles
Son valores que dividen la muestra ordenada en forma ascendente o descendente
en 100 partes iguales.
P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él
y el 99% superiores a él
.
.
.
VARIABLE: CONDUCTOR REFERIDO
CATEGORÍAS CÓDIGOS FRECUENCIAS
AMT 1 50
LEM 2 88
FGI 3 12
MML 4 3
TOTAL 153
Total
60
P99 = 99avo percentil, deja el 99% de las observaciones menores o iguales a
él y el 1% superiores a él
Para calcular los percentiles se siguen los siguientes pasos:
1er Paso: Se calcula
100
*ni
, donde i = 1,2,…,98,99.
2do Paso: Se identifica la clase que contiene los Pi por la frecuencia
acumulada, esto es, por la desigualdad.
kk F
ni
F 
100
*
1
3er Paso: Se aplica la fórmula
ii P
kk
k
Pi C
FF
F
ni
lP *100
*
1
1

















donde:
iPl Límite inferior de la clase que contiene a Pi, i = 1,2,…,99
n = Tamaño de la muestra.
iPC Amplitud de la clase que contiene a Pi.
kF Frecuencia acumulada de la clase que contiene a Pi.
1kF Frecuencia acumulada de la clase inmediatamente anterior a la
clase que contiene Pi.
4.2.10 La Moda
Es un valor de la variable que tiene la más alta frecuencia, esto es, es el valor más
frecuente de la distribución.
Nota.- La moda no siempre existe y no siempre es única
Ejemplo
Considere los pesos (en kilos) de 9 adultos
82, 65, 59, 74, 60, 67, 71, 73 y 70
61
Estas nueve medidas no definen una moda.
Ejemplo
Considere la distribución de los pesos de 15 adultos
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83
El valor 63 y 71 ocurren 3 veces, y el resto ocurre una vez cada uno. Luego
la moda de estas observaciones es:
Mo = 63 Kilos y Mo = 71 Kilos
En este caso la distribución se llamará bimodal.
En general, se tiene lo siguiente:
i) La distribución que tiene una sola moda se llama unimodal
ii) La distribución que tiene dos modas se llama bimodal
iii) La distribución que tiene más de dos modas se llama multimodal
Propiedades del moda
1) El valor de la moda es totalmente independiente de los valores extremos.
2) La moda es una medida inestable porque varía si se cambia el intervalo de
clase.
3) Su significado es imitado cuando no se dispone de un gran número de
valores.
4) Es el valor típico y por ello el promedio más descriptivo.
5) La moda no se presta a manipulaciones algebraicas posteriores.
Cálculo de la Moda: caso de datos agrupados en intervalos de clase
Para datos agrupados en intervalos de clase, tenemos diversas fórmulas para el
cálculo de la moda. Aquí presentamos dos procesos:
1er Proceso: Fórmula Czuber
1er Paso: Se identifica la clase modal (la clase con mayor frecuencia)
2do Paso: se aplica la fórmula:
MoMo ClMo *
21
1









donde:
62
Mol = límite inferior de la clase modal
1 = 1ffMo  ( 1f = frecuencia de la clase inmediatamente anterior a
la clase
modal)
Mof = frecuencia de la clase modal
2 = 2ffMo  ( 2f = frecuencia de la clase inmediatamente posterior
a la clase
modal)
MoC = amplitud de la clase modal
Ejemplo
Intervalo de
clase
fi
 1,0 3
 2,1 10
 3,2 17
 4,3 8
 5,4 5
TOTAL 43
Solución
1er Paso.- El intervalo de clase de mayor frecuencia absoluta es 17 es el
tercer  3,2
2do Paso.- Aplicando la fórmula:
MoMo ClMo *
21
1








 1 = 710171  ffMo
1*
97
7
2 






Mo 2 = 98172  ffMo
44.2Mo 1MoC
2do Proceso: Determinación gráfica de la moda. En este caso, es
necesario construir el histograma de la distribución, identificar la clase
modal (aquella clase con mayor altura) y hacer la construcción que a
continuación se indica.
63
4.2.11 Relación entre la Media, Mediana y Moda
1. Distribución Simétrica. Se dice que una distribución de frecuencias
es simétrica cuando valores de la variable equidistantes de una valor
central tienen las mismas frecuencias. Es importante destacar es
este caso que.
MoMeX 
2. Para un distribución sesgada hacia la derecha (si la cola mayor se
presenta a la derecha de la curva)
MoMeX 
Para una distribución sesgada hacia la izquierda tenemos:
MoMeX 
TareaTar
ea
64
4.2.12 Encogimiento entre la Media, Mediana y la Moda.
De las tres medidas de posición central, la media aritmética suele ser más
frecuentemente utilizado, quizá por la facilidad de su cálculo a pesar de que en
muchas ocasiones la mediana o la moda resultan de mayor interés.
a. La media aritmética como medida de resumen tiene la ventaja de tomar en
cuenta la totalidad de los valores de la serie, aumentando o disminuyendo
de acuerdo con ellos, pero a causa de esta propiedad, puede ser
desventajosamente afectado por la existencia de valores anormalmente
altos o anormalmente bajos. Por regla general, sin embargo, puede decirse
que cuando la serie es más o menos simétrica, el promedio debe ser
preferido a cualquier otra medida de resumen.
b. La mediana por su parte debe ser utilizada cuando entre los valores que se
estudian, hay alguno muy diferente de los otros. Si por ejemplo, el tiempo
de hospitalización, de 5 niños con gastroenteritis fuera respectivamente
2,3,4,6, y 30 días; el valor último, debido tal vez a alguna complicación de
la enfermedad, hace aparecer la permanencia en el hospital mucho más
larga de lo que generalmente es. El promedio:
9
5
45
5
306432


X días, es engañoso, pero en cambio la mediana, que
es x = 4 días, tiene la ventaja de no tomar en cuenta los valores extremos,
dando una impresión más acorde con lo usual.
Hay además ocasiones en que debe usarse la mediana por no ser posible
el cálculo del promedio. Tal sucede en aquellas distribuciones en las cuales
la primera o la última clase no tienen limites precisos. Exceptuando estas
aplicaciones, la mediana no tiene ninguna ventaja sobre la media
aritmética, pues su valor depende solamente del número de términos sin
tomar en cuenta los valores numéricos de estos.
c. La moda no es una medida de tendencia central muy usual, pero se emplea
cuando el interés se centra en conocer el valor que se presenta más
frecuentemente. Por ejemplo en los negocios, sirve para determinar qué
tamaño del producto es el de mayor demanda. Similarmente para
programar la producción de un medicamento el fabricante estará interesado
en ¿cuál es la dosis más comúnmente recetada por los médicos?.
4.2.13 Media Geométrica
Se define como la raíz de índice de la frecuencia total cuyo radicando es el
producto de las potencias de cada valor de la variable elevado a sus respectivas
frecuencias absolutas, se denota por G; suele utilizarse cuando los valores de la
variable siguen una progresión geométrica. También para promediar porcentajes,
65
tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula
mediante la siguiente fórmula:
Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El
logaritmo de la media geométrica es la media aritmética de los logaritmos de los
valores de la variable. El problema se presenta cuando algún valor es 0 ó
negativo y exponente de la raíz par ya que no exista raíz par de un número
negativo, entonces la fórmula anterior se presenta de la siguiente manera.
   
n
xf
n
xfxfxf
GX
k
n
ii
kk
G




10
1021021101
1010
log
log...loglog
loglog
Luego,














n
xf
AntiGX
k
n
ii
G
10log
.log
Ejemplo:
Calcule la media geométrica de las observaciones maestrales:
3, 6, 12, 24, 48
Solución
Propiedades de la media geométrica
 Si se define una variable
y
x
z
i
i
i
G
G
G
y
x
Z 
 Es única
 Utiliza todos los elementos
 Sólo se puede calcular con variables cuantitativas positivas
1224883248*24*12*6*3**** 55
21
21
 n f
k
ff
G
k
xxxX
n f
k
ff
G
k
xxxX **** 21
21
66
 Su logaritmo es la media aritmética de la variable log X
 Es el centro de gravedad de la distribución en términos
multiplicativos
 Es más robusta que la media a valores grandes pero no a los
pequeños y siempre toma valores mas pequeños que la media
aritmética
 No es invariante por cambios de origen y escala
 Es útil para promediar tasas, porcentajes, tipos de interés y, en
general, en todas aquellas situaciones en las que la variable
analizada presente variaciones acumulativas
En demografía, para estimar la población de una determinada localidad
en un año t, cuando se supone crecimiento geométrico entre dos
censos, se usa la fórmula:
Donde P0 es la población en el primer censo, realizado en la fecha t0; P1 es
la población en el segundo censo, realizado en la fecha t1 y Px es la
población que se quiere determinar en la fecha tx.
Si se quiere determinar la población en el centro de período  10 ,tt esto es,
para
222
01
0
01
0
01 tt
t
tt
tt
tt
t xx






Luego,
10
2/1
0
1
0
01
0
2
1
pp
p
p
pp
tt
tt
x
x









esto es, xp es la media geométrica de 0p y 1p
Ejemplo:
Un país tiene en 1970 una población de 6.5 millones lo que sube en 1980 a
8 millones. ¿Cuál es la población media del período?
67
Solución:
Aplicando la última fórmula para Px tenemos
21.78*5.610  pppx
4.2.14 Media Armónica
Sean x1,,x2,..., xk, valores de la variable X, asociadas a las frecuencias absolutas
f1,f2,…,fk respectivamente. La media armónica de X es dado por:



 k
i i
i
k
k
H
x
f
n
x
f
x
f
x
f
n
HX
12
2
1
1
...
Donde:
n = 
k
i
if
1
Esta media, como la media geométrica, solo es aplicable a ciertos tipos de
problemas. Se utiliza para promediar velocidades, tiempos, rendimiento, etc.
(cuando influyen los valores pequeños). Su problema: cuando algún valor de la
variable es ó próximo a cero no se puede calcular
Ejemplo:
Un automóvil recorre los primeros 10 kilómetros a razón de 30 km/h, y los
10 kilómetros siguientes a razón de 60 km/h. Determinar la velocidad media
durante todo el trayecto.
Solución
A primera vista muchos pensarían que la velocidad media sería igual a
45
2
6030


X km/h .
Sin embargo, al recordar que la velocidad definida como la distancia total
recorrida multiplicado por el tiempo gastado en el trayecto, es fácil percibir
que el resultado anterior incorrecto.
A la razón de 30 km/h, el automóvil gastó 20 minutos para primeros 10
kilómetros, y a razón de 60 km/h, gastó 10 minutos. Por lo tanto el carro
recorrió un total de 20 km en 20 + 10 = 30 minutos = 0.5 horas, a una
velocidad media de:
68
40
5.0
2
 km/h
Este resultado puede ser obtenido directamente calculando media armónica
entre las dos velocidades. Así tenemos:
hkmH /40
3
120
30
3
2
60
1
30
1
2



Propiedades de la media armónica
 La media armónica se basa en todas las observaciones por lo que
está afectada por todos los valores de la variable. Da a los valores
extremadamente grandes un peso menor que el que les da la media
geométrica, mientras que a los valores pequeños les da un peso
mayor que el que les da tanto la media aritmética como la media
geométrica.
 La media armónica esta indeterminada si alguno de los valores es
cero, pues hallar el recíproco de cero implica dividir entre cero, lo
cual no es válido. La media armónica está rígidamente definida y
siempre es definitiva, excepto cuando uno de los valores es cero.
 La media armónica es el promedio que se ha de usar, cuando lo que
se va a promediar son proporciones donde los numeradores de las
razones son los mismos para todas las proporciones.
 La media armónica se presta a manipulaciones algebraicas
posteriores
 XGH  , siempre que se trate de lamisca serie y cuando los
términos son iguales.
4.2.15 Media Cuadrática
Cuando se observa una distribución hay veces que no nos interesa tener en
cuenta la influencia del signo de los valores de la variable. Es típico en el caso de
los errores, ya que el error es error tanto en más como en menos. Este problema
se resuelve utilizando la media cuadrática.
















n
xf
n
xfxfxf
X
k
i
ii
kk
c
1
2
22
22
2
11 ...
2
5
69
4.3 Medidas de dispersión o concentración
En las secciones precedentes, se ha centrado la atención en un método básico
para describir un conjunto de datos, el promedio que resume los da tos en un solo
valor.
En este aparado se describiremos otras medidas estadísticas necesarias para
mostrar como varían los datos alrededor del promedio, ya que esta variación es a
veces tan importante como el mismo promedio.
Por ejemplo, si consideramos dos ciudades A y B que tienen el mismo ingreso me-
dio por habitante. ¿Este simple hecho de igualdad de las dos medias permite
concluir que la situación económica de las dos ciudades es la misma?.
Evidentemente que no, pues, esta igualdad podría existir aún cuando los ingresos
en A fuese perfectamente estabilizado en el sentido de que todos sus habitantes
tuviesen prácticamente el mismo ingreso (igual al ingreso medio por habitante) y
en B tuviese unos pocos individuos con ingresos extraordinariamente altos y la
mayoría con ingresos bajos. Así, el conocimiento de los valores de posición central
de una distribución, no es suficiente para su completa caracterización.
El hecho de que en la ciudad A todos los individuos tuvieran el mismo ingreso
puede ser traducido diciendo que en A los ingresos no varían de individuo a
individuo, o sea, la distribución de los ingresos no presentan variabilidad.
Análogamente, el hecho de que en B algunos individuos tuvieran ingresos muy
elevados en detrimento de la gran mayoría, que tiene ingresos muy bajos, puede
ser expresado diciendo que en B los ingresos varían o que la distribución de
ingresos presentan variabilidad. Así tenemos la siguiente definición.
Definición
Las medidas de dispersión son los que cuantifican el grado de concentración o de
dispersión de los valores de la variable en torno de un promedio o valor central de
la distribución. Las medí das de dispersión se necesitan para dos propósitos
básicos:
a) Para verificar la confiabilidad de los promedios y
b) Para que sirva come base para el control de la variación misma.
También podemos decir que los términos concentración y dispersión pueden ser
utilizados indistintamente, pues se da la relación.
alta dispersión  baja concentración
baja dispersión  alta concentración
Las medidas de dispersión que se utilizan con mayor frecuencia son:
70
1) Recorrido o rango
2) Recorrido Intercuartilico
3) Recorrido semi-intercuartilico
4) Desviación media
5) Varianza y desviación estándar
4.3.1 Recorrido de la Variable
El recorrido de una variable estadística es simplemente la diferencia entre su valor
máximo y su valor mínimo y se denota por:
R = máx {X} - mín {X}
Desventaja
La utilización del rango como medida de dispersión es muy limitado, si bien
brinda una primera idea acerca de la heterogeneidad de los datos, tiene el
inconveniente que sólo toma en cuenta los valores extremos descuidando el
conjunto de valores intermedios. Puede suceder que uno de los valores
extremos esté accidentalmente desplazado y no constituye por tanto un
valor representativo; en este caso el recorrido sería exagerado y la
dispersión aparecería distorsionado.
Ejemplo
Serie 1: 1 5 7 7 8 9 9 10 17
Serie 2: 2 4 6 8 10 12 14 16 18
Ambas series tienen rango 16, pero están desigualmente agrupadas, pues
mientras la primera tiene una mayor concentración en el centro, la segunda
se distribuye uniformemente a lo largo de todo el recorrido.
4.3.2 Recorrido Intercuartilico
Como los cuartiles son tres puntos (valores) que dividen un ordenamiento de datos
o una distribución de frecuencias en 4 grupos aproximadamente iguales. Entonces
la medida dada por:
13 QQQI 
llamada recorrido o amplitud intercuartílico, incluye la mitad central de los valores.
71
Desventaja
Si bien es cierto que este indicador representa un adelanto respecto del
rango, sin embargo, también depende de dos valores de la variable,
dejando de lado el resto, y en consecuencia la influencia de valores
extremos puede, aunque en menor medida, originar algún tipo de
deformación en cuanto al grado de dispersión.
4.3.3 Recorrido Semi-Intercuartilico
Esta medida, que se basa en la posición ocupada por los 50% de los valores
centrales de la distribución, es dada por:
2
13 QQ
Q IS


4.3.4 Desviación Media o Promedio
En teoría, la desviación puede referirse a cada una de las medidas de tendencia
central: media, mediana o moda; pero el interés se suele centrar en la medida de
la desviación con respecto a la media, que llamaremos desviación media.
Puede definirse como la media aritmética de las desviaciones de cada uno de los
valores con respecto a la media aritmética de la distribución, y de indica así:
n
xx
DM
i 

Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula
no distingue si la diferencia de cada valor de la variable con la media es en más o
en menos.
Ya se habrá advertido que esta expresión sirve para calcular la desviación media
en el caso de datos sin agrupar.
Ejemplo:
Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de
estos valores.
72
x xx  x
2 -3 3
2 3 3
4 -1 1
4 -1 1
4 -1 1
5 0 0
6 1 1
7 2 2
8 3 3
8 3 3
DM = 1,8
Veamos ahora cómo se calcula la desviación media en el caso de datos
agrupados en intervalos.
n
xf
DM
ii
donde observamos que ahora las desviaciones van multiplicadas por las
frecuencias de los intervalos correspondientes.
Además, las desviaciones son de cada centro, o marca de clase, a la media
aritmética.
Es decir,
n
xxf
DM
mi 

)(
Ejemplo:
Para hallar la desviación media de la siguiente tabla referida a las edades
de los 100 empleados de una cierta empresa:
Clase fi
16-20 2
20-24 8
24-28 8
28-32 18
32-36 20
36-40 18
40-44 15
44-48 8
48-52 3
73
veamos cómo se procede:
Clase fi xm ni * xm xx  fi  xx 
16-20 2 18 36 16,72 33,44
20-24 8 22 176
24-28 8
28-32 18
32-36 20
36-40 18
40-44 18
44-48 8
48-52 3
100
DM = 6,09
Propiedades de la Desviación Media
1. Como medida de dispersión, la desviación media es superior al recorrido y
la desviación cuartílica, pues toma en cuenta cada elemento, y es más
simple y se ve menos afectada por la presencia de valores extremos. Por lo
tanto, se usa a menudo en muestras pequeñas que incluyen valores
extremos.
2. La principal deficiencia de la desviación promedio surge del hecho de que
promedia los valores absolutos de las desviaciones, esto es, que no
reconoce el signo de las desviaciones. Esto hace que sea menos
conveniente que la desviación estándar (que se describirá en la siguiente
apartado) cuando se requiere una medida de dispersión para ser usada en
cálculos posteriores.
4.3.5 Varianza y Desviación Estándar
Sean x1,x2,…,xk valores de la variable X, con frecuencias absolutas f1,f2,…,fk,
respectivamente. La varianza muestral de x es dado por:
 
 
1
1
2
2




n
Xxf
SXVar
k
i
ii
74
Fórmula alternativa
 
 
n
Xxf
SXVar
k
i
ii

 1
2
2
Si S2 = 0, entendemos que todos los xi coinciden con la media X ,
esto es, todas las observaciones están concentradas en un mismo punto,
por lo que la dispersión es mínima (nula).
La desviación estándar o típica de los valores de la variable X se define como la
raíz cuadrada positiva de la varianza.
 
1
1




n
Xxf
k
i
ii

El valor numérico de  cuantifica el grado de dispersión de los
valores de una variable con respecto a su media. Mientras mayor es la
dispersión de las observaciones, mayor es la magnitud de sus desviaciones
respecto a la media y por ende, más alto el valor numérico de la desviación
estándar.
Propiedades de la Varianza y Desviación Estándar
1. Var[X] = S2 ≥ 0; la varianza de una variable X es siempre positiva y es igual
a cero cuando la variable X toma el valor constante C, esto es, Var[C] = 0
2. Var[X ± C] = Var[X]
3. Var[CX] = C2 Var[X] , C constante
4. Var[CX+b] = C2 Var[X] , C constante
5. Sean 1X y 2X las medias de dos submuestras de tamaño n1 y n2
respectivamente y sean 2
1S y 2
2S las varianzas correspondientes. La
varianza de la muestra de tamaño n = n1 + n2 es dada por:
        2
22
2
11
2
22
2
11
2
11
1
1
pp XXnXXnSnSn
n
S 


donde pX es la media ponderada de 1X y 2X
75
6. El hecho de que la desviación estándar es matemáticamente lógica significa
que puede ser satisfactoriamente utilizada en cálculos posteriores. Esta
característica es la que da a la desviación estándar su gran superioridad
sobre las demás medidas de dispersión.
7. La desviación estándar es de la misma naturaleza que la variable X y
depende de su magnitud.
8. Para distribuciones simétricas resulta que:
a) El 68.27% de los casos están comprendidos entre X - S y X + S.
b) El 95.45% de los casos están comprendidos entre X - 2S y X + 2S, esto
es aproximadamente 95% de los casos están situados dentro de dos
unidades de desviación estándar de la media.
c) El 99.73% de los casos están comprendidos entre X - 3S y X + 3S
76
A) Primer método abreviado
Con la finalidad de reducir el volumen de operaciones en el cálculo de la varianza
y desviación típica, podemos usar las fórmulas.








 
222
1
1
Xnxf
n
S ii y








 
22
1
1
Xnxf
n
ii
Ejemplo
Calcular la varianza y la desviación estándar de la siguiente distribución
muestral.
xi 5 7 8 9 11
fi 2 3 5 4 2
Solución
Completando la distribución de frecuencias tenemos.
xi fi fi xi fi xi
2
5 2 10 50
7 3 21 147
8 5 40 320
9 4 36 324
11 2 22 242
TOTAL 16 129 1083
Aplicando las fórmulas respectivas se tiene:
1.8
16
1291


n
xf
X
k
i
ii
    22.224.33
15
1
76.10491083
15
1
1
1 222








  Xnxf
n
S ii
Entonces
49.122.2 
77
b) Segundo método abreviado
Sea tO (origen de trabajo) el valor más frecuente de la variable X o que está hacia
el centro de la distribución de frecuencias, y sea:
tii Oxd   ki ,...,2,1
las desviaciones de xi respecto a tO . Entonces se tiene:
tii Odx 
Luego:
 
    

 

















k
i
k
i
iiiitti
k
i
i
k
i
ii
dndf
n
ddf
n
dOOdf
nn
Xxf
S
1
2
1
222
1
1
2
2
1
1
1
1
1
1
1
Por tanto:








 
k
i
ii dndf
n
S
1
22
1
1
y








 
k
i
ii dndf
n 1
22
1
1

c) Tercer método abreviado
Este procedimiento es particularmente usado cuando los datos agrupados en
distribuciones de frecuencias con intervalos de clase de igual amplitud C. Para
calcular la varianza por este método se siguen los siguientes:
Primer Paso.
Se efectúa el cambio de variable de X a  , utilizando la fórmula:
C
Ox ti 

dO
n
df
OX t
k
i
ii
t 
|
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier
Dosier

Más contenido relacionado

La actualidad más candente

Los procesos psicológicos superiores
Los procesos psicológicos  superioresLos procesos psicológicos  superiores
Los procesos psicológicos superioresHermila A
 
Informe TICs
Informe TICsInforme TICs
Informe TICsglacius
 
mapa conceptual procesamiento de la informacion.pdf
mapa conceptual procesamiento de la informacion.pdfmapa conceptual procesamiento de la informacion.pdf
mapa conceptual procesamiento de la informacion.pdfcocolis
 
Capítulo 3 constancia de la forma
Capítulo 3   constancia de la formaCapítulo 3   constancia de la forma
Capítulo 3 constancia de la formaAnabel Cornago
 
ELEMENTOS DE PSICOLOGIA SOCIAL
ELEMENTOS DE PSICOLOGIA SOCIALELEMENTOS DE PSICOLOGIA SOCIAL
ELEMENTOS DE PSICOLOGIA SOCIALhbussenius
 
La psicología cognitiva: objeto, método y problemas - versión 1 - marzo de 2014
La psicología cognitiva: objeto, método y problemas - versión 1 - marzo de 2014 La psicología cognitiva: objeto, método y problemas - versión 1 - marzo de 2014
La psicología cognitiva: objeto, método y problemas - versión 1 - marzo de 2014 Cátedra Psicología General
 
Ventajas y Desventajas
Ventajas y DesventajasVentajas y Desventajas
Ventajas y Desventajaspipermarchan
 
Teoria humanista de carl rogers
Teoria humanista de carl rogersTeoria humanista de carl rogers
Teoria humanista de carl rogersDalbis Castillo
 
Condicionamiento Clásico
Condicionamiento ClásicoCondicionamiento Clásico
Condicionamiento Clásiconataliavaras22
 
CONCEPTUALIZACIÓN DE LAS TIC
CONCEPTUALIZACIÓN DE LAS TICCONCEPTUALIZACIÓN DE LAS TIC
CONCEPTUALIZACIÓN DE LAS TICAna Trinidad
 
Sociedad de la información y del conocimiento
Sociedad de la información y del conocimientoSociedad de la información y del conocimiento
Sociedad de la información y del conocimientoSabdiel Batista Díaz
 
Mapa Conceptual: La Atención
Mapa Conceptual: La AtenciónMapa Conceptual: La Atención
Mapa Conceptual: La AtenciónYanitza Escalona
 

La actualidad más candente (20)

Lobulos cerebrales
Lobulos cerebralesLobulos cerebrales
Lobulos cerebrales
 
Los procesos psicológicos superiores
Los procesos psicológicos  superioresLos procesos psicológicos  superiores
Los procesos psicológicos superiores
 
Informe TICs
Informe TICsInforme TICs
Informe TICs
 
mapa conceptual procesamiento de la informacion.pdf
mapa conceptual procesamiento de la informacion.pdfmapa conceptual procesamiento de la informacion.pdf
mapa conceptual procesamiento de la informacion.pdf
 
Capítulo 3 constancia de la forma
Capítulo 3   constancia de la formaCapítulo 3   constancia de la forma
Capítulo 3 constancia de la forma
 
ELEMENTOS DE PSICOLOGIA SOCIAL
ELEMENTOS DE PSICOLOGIA SOCIALELEMENTOS DE PSICOLOGIA SOCIAL
ELEMENTOS DE PSICOLOGIA SOCIAL
 
Ensayo teorías del aprendizaje Piaget y Vigotsky
Ensayo teorías del aprendizaje Piaget y VigotskyEnsayo teorías del aprendizaje Piaget y Vigotsky
Ensayo teorías del aprendizaje Piaget y Vigotsky
 
ENSAYO CIBERCULTURA
ENSAYO CIBERCULTURAENSAYO CIBERCULTURA
ENSAYO CIBERCULTURA
 
La psicología cognitiva: objeto, método y problemas - versión 1 - marzo de 2014
La psicología cognitiva: objeto, método y problemas - versión 1 - marzo de 2014 La psicología cognitiva: objeto, método y problemas - versión 1 - marzo de 2014
La psicología cognitiva: objeto, método y problemas - versión 1 - marzo de 2014
 
Ventajas y Desventajas
Ventajas y DesventajasVentajas y Desventajas
Ventajas y Desventajas
 
TELEEDUCACION
TELEEDUCACIONTELEEDUCACION
TELEEDUCACION
 
Extraestriada
ExtraestriadaExtraestriada
Extraestriada
 
Procesos de clasificacion
Procesos de clasificacionProcesos de clasificacion
Procesos de clasificacion
 
Teoria humanista de carl rogers
Teoria humanista de carl rogersTeoria humanista de carl rogers
Teoria humanista de carl rogers
 
Mirada y escucha psicopedag¢gica
Mirada y escucha psicopedag¢gicaMirada y escucha psicopedag¢gica
Mirada y escucha psicopedag¢gica
 
Condicionamiento Clásico
Condicionamiento ClásicoCondicionamiento Clásico
Condicionamiento Clásico
 
CONCEPTUALIZACIÓN DE LAS TIC
CONCEPTUALIZACIÓN DE LAS TICCONCEPTUALIZACIÓN DE LAS TIC
CONCEPTUALIZACIÓN DE LAS TIC
 
Sociedad de la información y del conocimiento
Sociedad de la información y del conocimientoSociedad de la información y del conocimiento
Sociedad de la información y del conocimiento
 
Mapa Conceptual: La Atención
Mapa Conceptual: La AtenciónMapa Conceptual: La Atención
Mapa Conceptual: La Atención
 
Trabajo final tecnología educativa
Trabajo final tecnología educativaTrabajo final tecnología educativa
Trabajo final tecnología educativa
 

Similar a Dosier

Documento estadistica Graficos Estaisticos
Documento estadistica Graficos Estaisticos Documento estadistica Graficos Estaisticos
Documento estadistica Graficos Estaisticos Karen Jurado
 
Activus book 61 - Estadísticas básicas para la Gestión
Activus book 61 - Estadísticas básicas para la GestiónActivus book 61 - Estadísticas básicas para la Gestión
Activus book 61 - Estadísticas básicas para la GestiónSergio Salimbeni
 
ESTADISTICA CALCULOS
ESTADISTICA CALCULOSESTADISTICA CALCULOS
ESTADISTICA CALCULOSxxxpaso
 
Trabajo de tecnologia
Trabajo de tecnologiaTrabajo de tecnologia
Trabajo de tecnologiaAnaMaria2373
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalEmanuelCastro64
 
Trabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticosTrabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticosJuanCamilomurillo2
 
Trabajo investigativo de Excel avanzado: métodos estadísticos
Trabajo investigativo de Excel avanzado: métodos estadísticosTrabajo investigativo de Excel avanzado: métodos estadísticos
Trabajo investigativo de Excel avanzado: métodos estadísticosSergioPerdomo20
 
Probabilidad y estadistica
Probabilidad y estadisticaProbabilidad y estadistica
Probabilidad y estadisticaJaiir Segura
 
Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...
Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...
Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...yjboyx1
 
Trabajo diagrama de pareto (1).pdf
Trabajo diagrama de pareto (1).pdfTrabajo diagrama de pareto (1).pdf
Trabajo diagrama de pareto (1).pdfvaleriavalencia48
 
Capitulo 1. estadistica ciencia y datos
Capitulo 1. estadistica  ciencia y datosCapitulo 1. estadistica  ciencia y datos
Capitulo 1. estadistica ciencia y datosDeysi Lorena Ruiz Cruz
 
Trabajo de tecnologia.docx
Trabajo de tecnologia.docxTrabajo de tecnologia.docx
Trabajo de tecnologia.docxAyleenRivera6
 

Similar a Dosier (20)

Estadistica (1)
Estadistica (1)Estadistica (1)
Estadistica (1)
 
Documento estadistica Graficos Estaisticos
Documento estadistica Graficos Estaisticos Documento estadistica Graficos Estaisticos
Documento estadistica Graficos Estaisticos
 
Activus book 61 - Estadísticas básicas para la Gestión
Activus book 61 - Estadísticas básicas para la GestiónActivus book 61 - Estadísticas básicas para la Gestión
Activus book 61 - Estadísticas básicas para la Gestión
 
TECNOLOGÍA ESTADÍSTICA.pdf
TECNOLOGÍA  ESTADÍSTICA.pdfTECNOLOGÍA  ESTADÍSTICA.pdf
TECNOLOGÍA ESTADÍSTICA.pdf
 
ESTADISTICA CALCULOS
ESTADISTICA CALCULOSESTADISTICA CALCULOS
ESTADISTICA CALCULOS
 
Trabajo de tecnologia
Trabajo de tecnologiaTrabajo de tecnologia
Trabajo de tecnologia
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Trabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamentalTrabajo de tecnología liceo departamental
Trabajo de tecnología liceo departamental
 
Trabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticosTrabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticos
 
Trabajo
TrabajoTrabajo
Trabajo
 
Trabajo investigativo de Excel avanzado: métodos estadísticos
Trabajo investigativo de Excel avanzado: métodos estadísticosTrabajo investigativo de Excel avanzado: métodos estadísticos
Trabajo investigativo de Excel avanzado: métodos estadísticos
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Estadistica
EstadisticaEstadistica
Estadistica
 
212064 91 fase 2
212064 91 fase 2212064 91 fase 2
212064 91 fase 2
 
Probabilidad y estadistica
Probabilidad y estadisticaProbabilidad y estadistica
Probabilidad y estadistica
 
Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...
Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...
Trabajo 1 estadistica.contaduria semestre ii.jesus d 18.711.997 y barbara i 2...
 
Trabajo diagrama de pareto (1).pdf
Trabajo diagrama de pareto (1).pdfTrabajo diagrama de pareto (1).pdf
Trabajo diagrama de pareto (1).pdf
 
Caly prod lic 4a_u04
Caly prod lic 4a_u04Caly prod lic 4a_u04
Caly prod lic 4a_u04
 
Capitulo 1. estadistica ciencia y datos
Capitulo 1. estadistica  ciencia y datosCapitulo 1. estadistica  ciencia y datos
Capitulo 1. estadistica ciencia y datos
 
Trabajo de tecnologia.docx
Trabajo de tecnologia.docxTrabajo de tecnologia.docx
Trabajo de tecnologia.docx
 

Dosier

  • 1. 0 Universidad Salesiana de Bolivia Ingeniería de Sistemas DOSSIER DOSSIER TÉCNICASDE ESTUDIO DOCENTE: Lic. Rita R. Torrico DOSSIER DOSSIER PROBABILIDAD Y ESTADÍSTICA DOCENTE: Lic. Rolando Saúl Flores Lovera II- 2013
  • 2. 1 TÉCNICASDE ESTUDIO ÍNDICE PRESENTACIÓN UNIDAD I FUNDAMENTOS DE LA ESTADÍSTICA 1.1 Introducción…………………………………………………………………………..5 1.2 Historia de la estadística…..…………………………………………......………...6 1.3 Definición de estadística……………………………………………………………7 1.4 Clasificación de la estadística……………………………………………………...7 1.5 Fuentes de datos estadísticos……………………………………………………...8 1.6 Procedimiento para recolectar datos……..……………………...........................9 1.6.1Observación…………………………………………………………………9 1.6.2 La encuesta………………………………………………………………..10 1.6.3 Consideraciones generales para la elaboración del formulario……...11 1.6.4 Requisitos de un instrumento de medición…………………..…………12 1.7 Parámetro y estadígrafo… …………………………………...…………………...12 1.8 Etapas del método científico y estadístico…..………………………………......13 1.8.1 Etapas del método estadístico…………………………………………..13 1.9 Población y muestra ………………………………………………………………..16 UNIDAD II EJECUCIÓN DEL TRABAJO ESTADÍSTICO 2.1Tabulación…………………………………………………………………………….22 2.2 ¿Qué es una distribución de frecuencia?.........................................................22 2.3 El elemento clase de la distribución de frecuencia………………………………23 2.3.1 Frecuencia de clase……………………………………………………….23 2.3.2 Distribución de frecuencia o tabla de frecuencia………………………23 2.3.3 Datos agrupados…………………………………………………………..23 2.3.4 Intervalos de clase y límites de clase…………………………………...23 2.3.5 Fronteras de clase……………………………………………………...…24 2.3.6 Tamaño o amplitud de un intervalo…………………………………..…24 2.3.7 Marca de clase…………………………………………………………….24 2.3.8 Rango………………………………………………………………………25 2.4 Reglas generales para construir distribución de frecuencias………………….25 2.5 Frecuencia absoluta simple………………………………………………………..26. 2.6 Frecuencia relativa…………………………………………………………………..27 2.7 Representación gráfica de variables cuantitativas………………………………28 2.8 Representación gráfica de variables cualitativas………………………………..32 UNIDAD III ANÁLISIS ESTADÍSTICO DE VARIABLES CUALITATIVAS 3.1 Concepto de variable cualitativa…………………………………………………..36 3.2 Razón…………………………………………………………………………………38
  • 3. 2 3.3. Proporción…………………………………………………………………………..39 3.4 Porcentajes………………………………………………………………………….40 3.5 Tasas…………………………………………………………………………………41 UNIDAD IV ANÁLISIS ESTADÍSTICO DE VARIABLES CUANTITATIVAS 4.1 Concepto de variable cuantitativa………………………………………………...43 4.2 Medidas de tendencia central……………………………………………………..45 4.2.1 Tipos de promedio………………………………………………….46 4.2.2 Media aritmética – datos no agrupados…………………………46 4.2.3 Media aritmética – datos agrupados…………………………..…47 4.2.4 Propiedades de la media aritmética………………………………48 4.2.5 Media ponderada……………………………………………………51 4.2.6 Mediana………………………………………………………………52 4.2.7 Cuartiles………………………………………………………………55 4.2.8 Deciles………………………………………………………………..57 4.2.9 Percentiles……………………………………………………………58 4.2.10 La moda………………………………………………………….....59 4.2.11 Relación entre la media, mediana y moda……………………...62 4.2.12 Encogimiento entre la media, mediana y la moda……………..63 4.2.13 Media geométrica………………………………………………….63 4.2.14 Media armónica……………………………………………………66 4.2.15 Media cuadrática…………………………………………………..67 4.3 Medidas de dispersión o concentración………………………………………….67 4.3.1 Recorrido de la variable…………………………………………….69 4.3.2 Recorrido intercuartilitico……………………………………………69 4.3.3 Recorrido semi-cuartilitico…………………………………………..70 4.3.4 Desviación media o promedio……………………………………..70 4.3.5 Varianza y Desviación estándar…………………………………..72 4.4 Medidas de dispersión relativa…………………………………………………….77 4.4.1 Coeficiente de Variación……………………………………………78 4.4.2 Momentos………..…………………………………………………..79 4.5 Medidas de asimetría………………………………..……………………………..81 4.5.1 Coeficientes de asimetría………………………………………….82 4.6 Medidas de curtosis…………………………………………………………………83 UNIDAD V VARIABLE ESTADÍSTICA BIDIMENSIONAL 5.1 Introducción…………………………………………………………………………..85 5.2 Representación de la información mediante tablas bidimensionales…………86 5.2.1 Distribuciones marginales………………………………………….88 5.2.2 Propiedades de la frecuencia……………………………………...91 5.2.3 Medias y Varianzas marginales……………………………………92 5.3 Distribuciones condicionales……………………………………………………….94 5.4 Medidas de dependencia entre variables nominales……………………………95 5.4.1 Independencia de variables………………………………………..96 5.4.2 Diagrama de dispersión o nubes de puntos…………………….100 5.5 Nociones de correlación y regresión lineal……………………………………...101 5.5.1 Cálculo del coeficiente de correlación…………………………..103 5.5.2 Regresión…………………………………………………………..104
  • 4. 3 UNIDAD VI ANÁLISIS COMBINATORIO 6.1 Introducción…………………………………………………………………………108 6.2 Principios básicos del proceso de contar……………………………………….109 6.3 Arreglos……………………………………………………………………………..110 6.3.1 Arreglos simples…………………………………………………..110 6.3.2 Arreglos con repetición…………………………………………...111 6.4 Permutaciones……………………………………………………………………..111 6.4.1Permutaciones simples……………………………………………111 6.4.2 Permutaciones circulares………………………………………...112 6.4.3 Permutaciones con repetición…………………………………...113 6.5 Combinaciones…………………………………………………………………….114 LECTURAS COMPLEMENTARIAS…………………………………………………120 PRÁCTICAS………………………………………………………………………….…120 BIBLIOGRAFÍA………………………………………………………………………..130 GLOSARIO…………………………………………………………………………..…130
  • 5. 4 PRESENTACIÓN El presente Dossier ha sido realizado como un instrumento de apoyo en la asignatura de probabilidad y estadística. Contiene todo lo necesario para llevar a cabo una investigación, desde la recolección, clasificación, análisis e interpretación de los datos. Así mismo este documento se divide en seis unidades. La primera aborda los conceptos fundamentales de estadística y las etapas del método estadístico que consisten en una serie de procedimientos para el manejo de los datos cualitativos y cuantitativos de la investigación. Una vez expuestas las características generales de la estadística, en la unidad dos se desarrolla la ejecución del trabajo estadístico es decir la forma de realizar el recuento de las repeticiones de un mismo valor o modalidad; lo que conduce al concepto fundamental de frecuencia. Luego, en la unidad tres se puede apreciar el análisis estadístico de las variables cualitativas y para ello se considera: razón, proporción, porcentajes y tasas. A continuación, la unidad cuatro procede al análisis descriptivo de las variables cuantitativas a través de las medidas de tendencia central y de dispersión, que sintetizan la información sobre los datos que analizamos, facilitando su manejo. En lugar de trabajar con toda la tabla de frecuencias, las medidas resumen los valores que separan a los datos en grupos significativos. Posterior a ello en la unidad cinco se estudian las distribuciones bidimensionales, es decir, se analizan al mismo tiempo dos variables de cada elemento de la población. Estas variables pueden ser cuantitativas o cualitativas; para ello se desarrollarán un conjunto de técnicas que permitan describir las relaciones que ligan a esas dos variables o atributos, para establecer el grado de dependencia o asociación entre ellos, así como para estimar a una de éstas a partir del comportamiento de la otra. Finalmente la unidad seis desarrolla los principios para determinar el número de combinaciones de elementos de un conjunto finito, que es fundamental para establecer la tradicional conexión entre combinatoria y probabilidad.
  • 6. 5 1.1 Introducción ¿Quién no se ha preguntado por qué hay diferencias entre padres e hijos? Ya sea en rasgos físicos, personalidad, gustos, etc. La respuesta es, a la luz de la ciencia, ¡La Variabilidad! que es la característica más relevante de todos los seres vivos. Se interpreta como las diferencias existentes entre individuos de un mismo grupo aún cuando tengan un estrecho vínculo de parentesco, incluso entre gemelos. La variabilidad es el atributo que caracteriza a la naturaleza así como el azar esta presente en los hechos biológicos. Esta variabilidad puede generarse por alguna o más de una de las siguientes causas. a. El medio ambiente o efecto ecológico. b. La herencia o efecto genético. La Variabilidad es la esencia misma de la estadística, ella estudia, analiza, explica los efectos de la primera a través de los métodos que se fundamentan en la matemática, la experimentación y la observación. Esta no puede estudiarse en un
  • 7. 6 solo individuo, la formulación de un problema estadístico requiere de la presencia de un grupo de ellos, mejor si es un conjunto numeroso. Originalmente estadística derivó del vocablo “estado” ¿Por qué? Porque la función tradicional de los gobiernos centrales es y ha sido llevar la cuenta de la cantidad de:  Habitantes  Nacimientos  Defunciones  Empleo  Desempleo  Empresas  Costo de la vida  Etc. Aunque se tiene muchos años de experiencia en la recolección de este tipo de información, se continúa presentando complicaciones y oportunidades para la contribución científica en lo que respecta a: recolectar procesar interpretar Hoy en día muchas actividades están relacionadas con la estadística y muchas ocupaciones implican el uso del método científico. 1.2 Historia de la Estadística La Estadística, tal como se la definió, se fundamenta en el cálculo de probabilidades y se desarrolló a partir de inicios del siglo pasado. A veces se denomina Estadística Matemática en oposición a la Estadística Estatal, cuya misión es el registro de las estadísticas de los estados: población, empleo, consumo, etc. La estadística estatal se remonta a las primeras civilizaciones conocidas (5000 A.d.C. Sumeria, Mesopotamia, Egipto). En los siglos XVII y XVIII a pedido de jugadores de azar, los matemáticos Bernoulli y De Moivre desarrollaron parte de la teoría de probabilidad, como también Laplace y Gauss en el siglo XIX. Por la misma época, el religioso agustino y botánico austriaco, Gregori Mendel (1822 – 1884) se hizo célebre por sus experimentos acerca de la herencia de los caracteres en los guisantes, llevados a cabo entre 1856 a 1864 al cruzar sepas que diferían por un solo carácter ( grano liso o rugoso, flor blanca o amarilla, etc). Genera muchas clases de datos numéricos Eficientemente tales datos
  • 8. 7 Las leyes de reaparición del carácter en cuestión y su transmisión fueron publicadas en 1965 y redescubiertas recién en 1900 las cuales recibieron el nombre de Leyes de Mendel. A finales del siglo XIX y comienzos del XX Quetelet, aplico la estadística a la investigación de problemas sociales y educativos. Francis Galton fue el que promovió su aplicación en colaboración con Pearson. En el siglo XX, Pearson, Fixher, Gosset introducen nuevas técnicas y métodos en muestras de pequeño tamaño. Hoy en día, es la principal herramienta metodológica en toda investigación de cualquier ciencia. 1.3 Definición de estadística es la que proporciona destinados a los para la 1.4 Clasificación de la estadística De acuerdo a la anterior definición la estadística se clasifica en:  Estadística descriptiva.- ESTADÍSTIC A Recolecta r datos Clasificar datos Prestar datos Tablas Análisis descriptiv o CIENCIA MÉTODOS PROCEDIMIENTO S CLASIFICAR ANALIZARRECOLECTA R INTERPRETA R DATOS TOMA DE DECISIONES
  • 9. 8 Es otras palabras podemos expresar que un estudio estadístico se considera “descriptivo” cuando sólo se pretende analizar y describir los datos.  Estadística Inferencial.- Proporciona la teoría necesaria para inferir o estimar las leyes de una población partiendo de los resultados o conclusiones del análisis de una muestra que atañen a una población y como estas conclusiones nunca pueden ser absolutamente ciertas, ellas estarán ligadas a cierto grado de incertidumbre o probabilidad.  Modelización Estadística.- Tiene por objetivo manejar la información para formar modelos aplicados a la realidad con capacidad para predecir. Trata de establecer relaciones lineales o no entre variables ajustándose a hipótesis probabilísticas. El insumo importante es proporcionado por muestras. 1.5 Fuentes de Datos Estadísticos Son los lugares donde se obtienen informes, resúmenes, hechos, acontecimientos. Fuente Primaria Es la persona o acontecimiento que se estudia y al cual se tiene acceso directo, es decir se puede hablar u observar directamente a ese individuo o presenciar el acontecimiento. Fuente Secundaria Es el documento que recoge en forma exhaustiva las características de la persona y/o del fenómeno que sufre como (una enfermedad, matrimonio, nacimiento) o simplemente sus características como el sexo, color de la piel, ojos, peso, estatura. Son conocidos también como fuentes secundarias los lugares donde estos documentos se encuentran almacenados como ser: Registro Civil, Instituto Nacional de Estadística, oficinas administrativas, hospitales, policlínicos, que guardan los documentos antes citados. También pueden considerarse en esta fuente, los registros como son: tarjetas de ingreso de una institución, partes de asistencia, planillas de sueldos, Balances Gráficas
  • 10. 9 diarios, semestrales y anuales de los bancos, pólizas de importación, registros de la precipitación pluvial, etc. Fuente Terciaria Son documentos que procesan la información de la fuente primaria o de la secundaria, ubicando características similares, organizadas y presentadas al investigador, en un boletín que puede ser de una plana. Con mayor razón serían fuentes de investigación terciarias las revistas, periódicos, libros y cualquier otro tipo de publicación que presenta datos procesados. Diseños Experimentales Generan información como respuesta a estudios en los que el investigador esta en posibilidades de controlar variables independientes, buscando relaciones puras. Por Ejemplo, ¿Cuál es el rendimiento de una variedad de maíz sembrado en parcelas de iguales características de suelo que reciben 4 concentraciones de fertilizante? Se obtienen 4 posibles respuestas. Por otra parte si se quiere medir el rendimiento en 3 tipos de suelo, con 2 profundidades de sembrado y 4 fertilizantes se obtendrán 24 resultados. En estos 2 últimos ejemplos, ya sea por criterio propio o experiencia de otros, elige el terreno, decide las profundidades de sembrado y las dosis o variedades de fertilizante, y lo que llega al azar son los rendimientos (variables respuestas, efecto) sobre la que no tiene ningún tipo de acción. 1.6 Procedimiento para Recolectar Datos Es necesario determinar el método de recolección de datos y tipo de instrumento que se utilizará siendo esto la base para etapas siguientes.  Método.- Es el medio o camino a través del cual se establece la relación entre el investigador y el consultado para la recolección de datos y el logro de los objetivos; se citan la entrevista, la observación y el cuestionario.  Instrumento.- Es el mecanismo que utiliza el investigador para recolectar y registrar la información; entre estos se encuentran los formularios, las pruebas psicológicas, las escalas de opinión y de actitudes, las listas u hojas de control y otros. 1.6.1 Observación
  • 11. 10 Es el registro visual de lo que ocurre en una situación real, clasificando y consignando los acontecimientos pertinentes de acuerdo con algún esquema previsto y según el problema que se estudia. Cuando se decide utilizarla se debe tomar en cuenta ciertas consideraciones. Como método de recolección de datos, debe ser planificado cuidadosamente para que reúna los requisitos de validez y confiabilidad. También Quinteros comenta que “las condiciones de una investigación pueden ser seriamente objetables si en el diseño de la misma no se han tomado en cuenta los posibles errores de la observación”. Estos errores están relacionados con:  Los observadores.  El instrumento utilizado para la observación.  El fenómeno observado. 1.6.2 La Encuesta Este método consiste en obtener información de los sujetos de estudio, proporcionada por ellos mismos, sobre opiniones, actitudes o sugerencias. Hay dos maneras de obtener información con este método: la entrevista y el cuestionario. La Entrevista Es la comunicación interpersonal establecida entre el investigador y el sujeto de estudio a fin de obtener respuestas verbales a las interrogantes planteadas sobre el problema propuesto. Esta técnica de recolección de datos tiene muchas ventajas; es aplicable a toda persona, siendo muy útil en los analfabetos, los niños o con aquellas personas que tienen alguna limitación física u orgánica que les dificulte proporcionar una respuesta escrita. Hay dos tipos de entrevista: la estructurada y la no estructurada. La primera se caracteriza por estar rígidamente estandarizada; se plantean idénticas preguntas y en el mismo orden a cada uno de los participantes, quienes deben escoger la respuesta entre 2, 3 o más alternativas que se les ofrecen. Sin embargo el investigador tiene limitada libertad para formular preguntas independientes generadas por la interacción personal. Algunas ventajas que presenta este tipo de entrevista son:  La información es más fácil de procesar, simplificando el análisis comparativo.  El entrevistador no necesita ser entrenado arduamente en la técnica.  Hay uniformidad en el tipo de información obtenida.
  • 12. 11 Pero también tiene desventajas, tales como:  Es difícil obtener información confidencial.  Se limita la posibilidad de profundizar en un tema que emerja durante la entrevista. La entrevista no estructurada es más flexible y abierta, aunque los objetivos de la investigación rigen a las preguntas; su contenido, orden, profundidad y formulación se encuentran por entero en manos del entrevistador. Es muy útil en los estudios descriptivos y en las fases de exploración para el diseño del instrumento de recolección de datos. Las ventajas de este método son:  Es adaptable y susceptible de aplicarse a toda clase de sujetos en situaciones diversas.  Permite profundizar en los temas de interés.  Orienta a posibles hipótesis y variables cuando se exploran áreas nuevas. Entre sus desventajas se cita:  Se requiere más tiempo.  Es más costoso por la inversión de tiempo de los entrevistadores.  Se dificulta la tabulación de los datos.  Se requiere mucha habilidad técnica para obtener la información y mayor conocimiento del tema. Cuestionario Es el método que utiliza un instrumento o formulario impreso, destinado a obtener respuestas sobre el problema en estudio y que el investigador o consultado llena por sí mismo. Algunas ventajas del cuestionario son: su costo relativamente bajo, su capacidad para proporcionar información sobre un número mayor de personas en un período bastante breve y la facilidad de obtener, cuantificar y analizar e interpretar los datos. Dentro de sus limitaciones figuran las siguientes: es poco flexible, la información no puede variar ni profundizarse; si el cuestionario se envía por correo se corre el riesgo de que no llegue al destinatario o no se obtenga respuesta de los encuestados; además, resulta difícil obtener una alta tasa de compleción del cuestionario. Debido a esta posible pérdida de información se recomienda que se seleccione una muestra más grande de sujetos de estudio. 1.6.3 Consideraciones generales para la elaboración del formulario Si el investigador decide utilizar la observación regulada, la entrevista o el cuestionario u otra fuente de información secundaria como método de recolección de datos, debe elaborar un instrumento para obtener la información que requiere,
  • 13. 12 siendo el formulario el que se emplea con más frecuencia. Para diseñar correctamente un formulario es necesario considerar algunos criterios relacionados con su organización, las preguntas a plantear según los objetivos propuestos en la investigación y las características físicas de los formularios. 1.6.4 Requisitos de un instrumento de medición Las características de relevancia de los instrumentos de medición son:  Confiabilidad  Validez El término confiabilidad se refiere a la capacidad del instrumento para arrojar datos o mediciones que correspondan a la realidad que se pretende conocer, o sea, la exactitud de la medición, así como a la consistencia o estabilidad de la medición en diferentes momentos. Se dice que el instrumento es confiable si se obtienen medidas o datos que representen el valor real de la variable que se está midiendo y si estos datos o medidas son iguales al ser aplicados a los mismos sujetos u objetos en dos ocasiones diferentes, o al ser aplicados por diferentes personas. La validez es entendida como el grado en que un instrumento logra medir lo que se pretende medir. 1.7 Parámetro y estadígrafo Parámetro  Medida que describe alguna característica de una población.  Se necesita utilizar la información de la población completa.  Las decisiones se toman con certidumbre total. Las más usadas son: i) Media poblacional ii) Proporción poblacional iii) Varianza poblacional Estadígrafo  Medida que describe alguna característica de la muestra.  La toma de decisiones contiene un grado de incertidumbre. Las más usadas son: i) Media muestral ii) Proporción muestral iii) Varianza muestral
  • 14. 13 1.8 Etapas del método científico y estadístico La estadística ha tenido su origen paralelamente a la investigación comprendiéndose éste último concepto como el desarrollo sistematizado de la curiosidad. En las actividades cotidianas se utiliza el proceso de inducción es decir se analizan las partes para llegar a un todo, el de deducción que inicia en el todo hasta llegar al detalle; combinándose éstos se puede legitimar lo conocido como cierto y utilizarlo en ocasiones semejantes. El instrumento de validación de conocimientos o método científico tiene los siguientes pasos:  Observación del fenómeno  Formulación de una hipótesis  Verificación de la hipótesis 1.8.1 Etapas del método estadístico De acuerdo con el orden de aplicaciones de la estadística a un problema determinado, los métodos estadísticos se dividen en 4 etapas: 1. Planificación del estudio Tiene por finalidad estudiar los detalles concernientes a la recolección, clasificación y análisis de la información, en base a la cual se describen las características de una determinada población o se confirmará o negará determinada hipótesis de trabajo. Se esquematiza la planificación en los siguientes pasos: Primer Paso: Planteamiento del problema El planteamiento del problema responde a la delimitación y jerarquización del tema, lo que justifica el porqué se lo está investigando. Además debe ser delimitado en base al tiempo y el espacio, es decir en que lapso de tiempo, y en que límites geográficos ha de ser observado. Asimismo debe ser jerarquizado en base a tres criterios de magnitud, trascendencia y vulnerabilidad, es decir: Definir la naturaleza e importancia del problema que se estudia.- Naturaleza explicar ¿qué vamos a estudiar? Importancia cuantificar su extensión ¿por qué se va estudiar? Segundo Paso: Elaboración del Marco Teórico
  • 15. 14 El marco teórico proporciona los conocimientos del tema que se está investigando, en este acápite se detallan las definiciones y explicaciones pre-existentes, asimismo anteriores investigaciones y sobre todo las aclaraciones de los conceptos relativos al tema que se utiliza en el trabajo. Proporciona información a través de una adecuada bibliografía, posibilita familiarizarse con el tema, preparando el terreno de conocimientos para acceder a la comprensión de la hipótesis de trabajo, de los objetivos que se plantearan, el análisis de los datos, de las técnicas de investigación que se utilizarán y el resultado obtenido a partir del cual se emitirán las conclusiones y recomendaciones respectivas. Tercer Paso: Determinación de objetivos a) Objetivo general explicar para que se realiza la investigación b) Objetivos específicos explicar cómo se realizará la investigación Cuarto Paso: Formulación y Verificación de hipótesis Hipótesis es una afirmación que está sujeta a verificación.  Se trata de probar una hipótesis de trabajo.  Su formulación debe hacerse claramente, ya que el diseño, planificación y desarrollo de la investigación dependerán de la hipótesis que se trata de probar. La verificación de la hipótesis constituye la investigación propiamente dicha, en la cual se consideran 2 aspectos: a) Diseños de la Investigación  Estudiar por adelantado cada una se sus diferentes etapas, recolección, organización, y análisis de los datos.  Determinar de antemano todo lo concerniente a las observaciones que se harán  El número de individuos que se estudiará  El procedimiento a utilizar en su selección  Investigar cuidadosamente si existen factores éticos  Época en que hará el estudio  Tiempo que durará  Gastos que determinará  Seleccionar y entrenar el personal que va colaborar
  • 16. 15  Definir la unidad que se observa, con el fin de incluir la totalidad de los individuos que presentan las características que se estudia y excluir aquellos que no las presentan  Definir lo que se va observar, para que todos los individuos sean estudiados uniformemente.  Hacer un balance de los recursos que se dispone y los que se necesitarán para ejecutar la investigación conforme lo planeado. b) Ejecución de la Investigación Es la recolección, clasificación y análisis de la información recogida, etapas que debe realizar de acuerdo a lo planificado. 2. Recolección de la información Está en función a las características del problema abordado y dependiendo de la determinación de la población a ser estudiada, se tienen dos maneras de realizar un estudio de la población:  En forma exhaustiva, global, total, completa, que significa estudiar todos y cada uno de los integrantes de la población, siendo el resultado un reflejo real y exacto de ella.  Mediante una muestra representativa de la población, que tiene las mismas características cuantitativas y cualitativas de la población total o universo, proporcionando los mismos datos que se obtiene al estudiar al total de la población. Por otra parte se debe considerar, la información que se va a recoger y la precisión con la que debe ser obtenida, ello dependiendo del propósito de la investigación y del material estudiado, siendo conveniente limitarse a recoger tan sólo aquella información que va a utilizarse. Los principales puntos que deben considerarse al recoger de la información son: a) Los errores que pueden cometerse en la recolección de los datos y la manera de controlarse b) Las ventajas y limitaciones de los diversos métodos empleados en la recolección de la información
  • 17. 16 c) Las condiciones que deben reunir los individuos que se estudian y los procedimientos más convenientes para su elección. d) El diseño de los formularios que servirán para registrar la información que se recoja. 3. Tabulación, análisis e interpretación de los resultados Tabular es contar y ordenar la información recabada, ello a partir de la confección de cuadros, gráficos, y toda ayuda posible para poder luego analizar la información disponible. En el Análisis mediante formulas estadísticas y el uso de tablas específicamente diseñadas, se efectúa la comparación de las medidas de resumen previamente calculadas; por ejemplo, si antes se han calculado los promedios de peso de dos grupos de personas sometidas a diferentes dietas, el análisis estadístico de los datos consiste en la comparación de ambos promedios con el propósito de decidir si parece haber diferencias significativas entre tales promedio. En Interpretación se explica el sentido de todos los datos obtenidos. 4. Conclusiones y recomendaciones Ejecutado el estudio, se considera si fue realizado conforme se había planificado y con los resultados a la vista se concluirá si la hipótesis a sido verificada o no, emitiéndose las conclusiones y recomendaciones pertinentes. 5. Presentación de resultados Es la última actividad del proceso de investigación en la cual se dan a conocer los resultados y con ello se estará contribuyendo a incrementar los conocimientos existentes sobre el tema en estudio y se permitirá la aplicación de las soluciones encontradas a los problemas que motivaron la investigación. 1.9 Población y Muestra Población o Universo La totalidad de individuos o elementos en los cuales puede presentarse determinada característica susceptible de ser estudiada
  • 18. 17 Ejemplos: a) Población de ventas anuales de los supermercados de La Paz. b) Población de todos los posibles resultados cara y sello que se obtiene al arrojar una moneda un número indefinido de veces. c) Población de puntajes de rendimiento en la lectura de todos los alumnos del nivel primario es un sistema escolar. La población puede ser finita o infinita, dependiendo del número de elementos que la conforman. Población finita, es aquella que tiene un número determinado de elementos. Población infinita, es aquella que tiene un número infinito de elementos. Muestra Al número de electos de la muestra se denomina “tamaño de la muestra”. Se llama unidad estadística o individuo a cada uno de los elementos que componen la población estadística. El individuo es un ente observable que no tiene por qué ser una persona, puede ser un objeto, un ser vivo, o incluso algo abstracto. La investigación a partir de una muestra tiene muchas ventajas, entre las que se destacan las siguientes:  Permite que el estudio se realice en menos tiempo.  Se incurre en menos gastos.  Posibilita profundizar en las variables.  Permite tener mayor control de las variables a estudiar. Parte o subconjunto de la población al cual se tiene acceso y sobre el que se realizan las observaciones (mediciones).  Debe ser “representativa”  Estar formada por miembros “seleccionados” de la población (individuos, unidades experimentales).
  • 19. 18 Dato estadístico Son números o medidas que han sido recopiladas como resultado de observaciones, que pueden ser comparadas, analizados e interpretados. Un número aislado que no puede compararse o que no muestre relación significativa con otros números no es un dato estadístico. Tipos de Muestreo Son técnicas o procedimientos que aseguran la representatividad muestral para que las unidades sean seleccionadas al azar; según la ley de probabilidades, al escoger la muestra al azar se puede tener casi la certeza de que esa muestra será representativa. Según Pardinas, el muestreo consiste en: Seguir un método, un procedimiento tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo efectivamente posee las características del universo y de la población que estamos estudiando. TIPOS DE MUESTREO No ProbabilísticoProbabilístico Aleatorio simple Estratificado Sistemático Conglomerado Por conveniencia Por cuotas Accidental
  • 20. 19 Muestreo probabilístico Aleatorio simple.- Para que un muestreo sea aleatorio es requisito que todos y cada uno de los elementos de la población tengan la misma probabilidad de ser seleccionados. Existen varias modalidades, una de ellas es el procedimiento de tipo “sorteo” o “rifa” (por Ejemplo, colocando en un recipiente fichas o papeles que contengan nombre o números que correspondan a cada unidad del universo). Otra técnica utilizada es hacer uso de la tabla de números aleatorios, este método es más rápido y práctico Estratificado.- Este término proviene de la palabra “estrato” se caracteriza por la subdivisión de la población en subgrupos o estratos, debido a que las variables principales que deben someterse a estudio presentan cierta variabilidad o distribución conocida que puede afectar los resultados. El número de elementos que deberá tomarse de cada estrato se determina proporcionalmente, según la cantidad de unidades que integra cada estrato y en base a la totalidad de la población muestral. Sistemático.- Es similar al aleatorio simple, en donde cada unidad del universo tiene igual probabilidad de ser seleccionada, variando en el proceso de selección de la muestra. Las etapas que deben seguirse son las siguientes: o Determine el número de unidades que conformará su muestra (n). o Asegúrese de la cantidad que integra su población y que todas las unidades estén enumeradas. o Calcule el ”número de selección sistemática”.
  • 21. 20 𝑁 𝑛 = 500 100 = 5 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑠𝑒𝑙𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 o Determine la unidad muestral por la que se iniciará la selección de la muestra; se puede hacer al azar o por sorteo, definiendo de esas 5 primeras unidades la cifra por la cual se iniciará la selección. o Proceda a conformar la muestra; si al realizar el sorteo le resulta el número 4 y dado que el “número de selección sistemática” es 5, la primera unidad será 4 y las siguientes 9, 14, 19, y así sucesivamente hasta completar los 100 elementos. Conglomerado.- Se utiliza cuando no se dispone de una lista detallada y enumerada de cada una de las unidades que conforman el universo y resulta muy compleja elaborarla. Se le denomina así debido a que en la selección de la muestra en lugar de escogerse cada unidad se procede a tomar los subgrupos o conjuntos de unidades, a los que se llama “conglomerados”.
  • 22. 21 Se tiende a creer que es lo mismo que el estratificado, ambos se diferencian en que en el primero los subconjuntos se dan en la vida real o ya están agrupados de esa manera; por Ejemplo: escuelas, tipos de industrias, bloques de casas y otros. En el de estratos el investigador decide las agrupaciones que utilizará según la posible variabilidad de los fenómenos a estudiar. Otra diferencia es que en el de estratos el investigador conoce la distribución de la variable, no así en el de conglomerado. El proceso se inicia definiendo los conglomerados, después se seleccionan los subconjuntos a estudiar (o sea que se realiza un muestreo de conglomerado); de estos seleccionados se procede a hacer el listado de las unidades que componen cada conglomerado, continuando posteriormente
  • 23. 22 con la selección de las unidades que integrarán la muestra, siguiendo alguno de los métodos aleatorios indicados. Muestreo no probabilístico Se caracteriza porque el investigador selecciona su muestra siguiendo algunos criterios identificados para los fines del estudio que le interesa realizar. Por conveniencia o intencional.- En el que el investigador decide, según sus objetivos, los elementos que integrarán la muestra, considerando aquellas unidades supuestamente “típicas” de la población que desea conocer. Por cuotas.- Consiste en que el investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar, como sexo, raza, religión, etc. El paso inicial consiste en determinar la cantidad o “cuota” de sujetos de estudio a incluirse y que poseen las características indicadas; un Ejemplo de esto son las encuestas de opinión pública, en las que los encuestadores proceden a buscar las personas hasta cubrir la cuota previamente fijada, sin preocuparse por áreas geográficas, zonas u otro criterio. Accidental.- Consiste en aprovechar o utilizar para el estudio las personas disponibles en un momento dado según lo que interese estudiar. Éste es el menos eficiente.
  • 24. 23 2.1 Tabulación La palabra tabular significa expresar u ordenar unos datos en forma de tablas. El proceso de tabulación consiste en el recuento de los datos que están contenidos en los cuestionarios. En este proceso incluimos todas aquellas operaciones encaminadas a la obtención de resultados numéricos relativos a los temas de estudio que se tratan en los cuestionarios. Se requiere una previa codificación de las respuestas obtenidas en los cuestionarios. Realizamos tabulación, codificación y diseño de gráficos con datos biográficos, de consumo o de opinión. Los resultados serán presentados en tablas y/o mapas gráficos que expliquen las relaciones existentes entre las diversas variables analizadas. Esta presentación se adecuará a la petición de nuestros clientes mediante análisis estadísticos de datos, grabados por nosotros o por terceros, análisis bivariantes, análisis multivariantes, tests de contraste de hipótesis 2.2 ¿Qué es una distribución de frecuencia? Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas categorías.
  • 25. 24 2.3 El elemento clase de la distribución de frecuencia. 2.3.1 Frecuencia de clase Se llama frecuencia de clase a la reunión de grandes cantidades de datos sueltos distribuidos en clases o categorías, determinando el número de individuos que pertenecen a cada categoría. Estatura (pulg) Número de estudiantes 60 - 62 63 - 65 66 - 68 69 - 71 72 - 74 5 18 42 27 8 Total 100 2.3.2 Distribución de frecuencia o tabla de frecuencia Se conoce como distribución de frecuencias o tablas de frecuencias a una disposición tabular de los datos por clases con su correspondiente frecuencias de clase. 2.3.3 Datos agrupados A los datos así organizados y reunidos, como en la anterior distribución de frecuencias, se llama datos agrupados. Esto proporciona una visión amplia y clara, además de que se obtienen relacionados evidentes. 2.3.4 Intervalos de clase y límites de clase Intervalo de clase Símbolo que define una clase Ejemplo: 60 - 62 , 72 - 74
  • 26. 25 límite inferior límite superior Aun intervalo de clase que, por lo menos teóricamente no tiene límite de clase inferior o superior se le llama intervalos abierto. Ejemplo: 65 años o más 2.3.5 Fronteras de clase En el ejemplo anterior el intervalo 60 – 52 incluye todas las medidas desde 59.5 pulg. y 62.5 pulg., a estos números se les llaman frontera de clase o límites verdaderos de clase. De aquí: 59.5 es la frontera inferior de clase 62.5 es la frontera superior de clase 2.3.6 Tamaño o amplitud de un intervalo Es la diferencia entre las fronteras de clase inferior y superior. Si todos los intervalos de una distribución de frecuencias son de las misma amplitud, a esta amplitud común se la denota por c. Ejemplo: 62.5 - 59.5 = 3 65.5 – 62.5 = 3 2.3.7 Marca de clase La marca de clase, que es el punto medio del intervalo de clase, se obtiene promediando los límites inferior y superior de la clase. De este modo: Del ejemplo anterior tenemos el intervalo 60 - 62 Marca de la clase: (60 + 62)/2 = 61 La marca de clase es, en definitiva, el valor que representa a la información contenida en el intervalo. 2.3.8 Rango Es la diferencia entre el número mayor y el número menor de os datos sueltos.
  • 27. 26 Ejemplo: Supongamos que las alturas de plantas, en una clase de botánica son las siguientes: 64 73 68 68 76 70 62 67 71 69 68 60 65 68 66 68 67 71 66 72 Luego el rango de estos datos es: R = 76 – 60 = 16 2.4 Reglas generales para construir distribución de frecuencias 1. Determinación del Rango.- Es conveniente primero determinar el rango de los datos obtenidos. 2. Determinación del número de clase.- Cosiste en dividir el rango en un número conveniente de intervalos de clase, generalmente del mismo tamaño. Es conveniente tener entre 5 y 20 intervalos de clase. Entre más datos se tengan, más intervalos de clase deben considerarse. No hay fórmula exacta para calcular el número de intervalos de clase. Este número es determinado por tentativas y aproximaciones. Sin embargo se puede, en principio tomar en cuenta lo siguiente: a) Número de clases = K = 5, si n = tamaño de la muestra <= 5 y K = √n , si n > 20 b) Fórmula de Sturges: K = 1 + 3.22 log(n) Cuando los resultados para obtener K en a) y b) son números reales con decimales, entonces se redondearán al entero inmediato mayor. 3. Determinación del tamaño de los intervalos.- Como regla general para encontrar la longitud de los intervalos (del mismo tamaño), divídase el rango de las observaciones entre el número de intervalos de clase, esto es, Amplitud de clase = C = R/K. 4. Determinación de los límites de la clase.- Se debe tomar el resultado numérico más bajo de los datos originales como el límite inferior del primer intervalo de clase. Agregar C para obtener el límite superior de dicha clase. 5. Determinación de la frecuencia de clase.- Consiste en determinar el número de observaciones que caen en cada intervalo de clase.
  • 28. 27 Técnicas de recuento El proceso manual de recuento se puede hacer por: 2.5 Frecuencia absoluta simple Frecuencia absoluta de un dato (fi) Llamaremos frecuencia absoluta de un valor xi de la variable estadística x, al número de veces que aparece repetido dicho valor en el conjunto de las observaciones realizadas. Ejemplo Se quiere saber el número de hijos por matrimonio de un pequeño poblado. Para este propósito, se elige una muestra representativa de 50 matrimonios de ella se obtienen los siguientes datos: 2 , 2 , 4 , 1 , 3 , 5 , 3 , 2 , 1 , 6 , 3 , 4 , 1 , 2 , 0 , 2 , 3 , 1 , 7 , 4 , 2 , 3 , 0 , 5 , 1 , 4 , 3 , 2 , 4 , 1 , 5, 2 , 1 , 2 , 4 , 0 , 3 , 3 , 2 , 6 , 1 , 5 , 4 , 2 , 0 , 3 , 2 , 4 , 3 , 1 x i f i 0 4 1 9 2 12 3 10 4 8 5 4 6 2 7 1 Frecuencia absoluta acumulada de un dato (Fi) La frecuencia absoluta acumulada indica cuantos elementos de la lista de datos son menores o iguales a un valor dado. Es la suma de las frecuencias absolutas desde la primera fila hasta la fila elegida.
  • 29. 28 Por ejemplo anterior, sabemos que hay 25 matrimonios de la muestra que tienen 2 o más hijos. x i f i F i 0 4 4 1 9 13 2 12 25 3 10 35 4 8 43 5 4 47 6 2 49 7 1 50 2.6 Frecuencia relativa Frecuencia relativa de un dato ( hi ) La frecuencia relativa es el cociente entre la frecuencia absoluta ( fi ) y el número total de datos ( n ). hi = fi /n En nuestro ejemplo: x i f i F i h i 0 4 4 0,08 1 9 13 0,18 2 12 25 0,24 3 10 35 0,20 4 8 43 0,16 5 4 47 0,08 6 2 49 0,04 7 1 50 0,02 Frecuencia relativa acumulada de un dato ( Hi ) La frecuencia relativa acumulada es el cociente entre la frecuencia absoluta acumulada ( F i ) y el número total de datos ( n ). En nuestro ejemplo: x i f i F i h i H i 0 4 4 0,08 0,08 1 9 13 0,18 0,26 2 12 25 0,24 0,50
  • 30. 29 3 10 35 0,20 0,70 4 8 43 0,16 0,86 5 4 47 0,08 0,94 6 2 49 0,04 0,98 7 1 50 0,02 1,00 2.7 Representación grafica de variables cuantitativas Las más usadas son: 1. Diagrama de barras. Esta forma de representación gráfica es propia de las distribuciones que tienen muchas observaciones pero pocos valores distintos de la variables. Dicho diagrama se elabora colocando en el eje de las abscisas los distintos valores de la variable y sobre cada una de ellas se levanta una línea perpendicular, cuya altura es la frecuencia (absoluta o relativa) de dicho valor.
  • 31. 30 2. Histogramas. Es una representación gráfica de una distribución de frecuencia agrupaciones en intervalos de clase, mediante una serie de rectángulos contiguos que tienen: a) Sus bases sobre un eje horizontal (eje de las X) con centros en las marcas de clase y longitud igual al tamaño de los intervalos de clase. b) Las alturas proporcionales a la frecuencia (absoluta o relativa) tomados sobre el eje de las Y. A veces conviene más graficar en el histograma las frecuencias relativas en lugar de las frecuencias absolutas. En este caso, la altura correspondiente a cada rectángulo que habrá que levantar sobre el eje de ordenadas será el cociente entre la frecuencia relativa del mismo y la amplitud del intervalo. El único cuidado que debe tenerse es que el área total del histograma sea igual a 1, correspondiente a la suma total de áreas de cada rectángulo. Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores. Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso. Puntajes X frecuencia absoluta Marca de Clase 11 – 17 6 14 17 – 23 4 20 23 – 29 15 26 29 – 35 13 32 35 – 41 1 38 41 – 47 1 44 Total 40
  • 32. 31 3. Polígono de frecuencia a) Si la variable es discreta, el polígono de frecuencia se obtienen uniendo los extremos superiores de las barra en el diagrama de barras
  • 33. 32 b) Si la variable está agrupada en intervalos de clase, el polígono de frecuencia se obtiene uniendo los puntos medios de las bases superiores de cada rectángulo en el histograma. 4. Polígono de frecuencia acumuladas u ojiva Esta representación es válida para variables estadísticas agrupadas en intervalo clase. En el eje de las abscisas representamos los distintos intervalos de clase que han de estar naturalmente traslapados. En el extremo superior de cada
  • 34. 33 intervalo se levanta una vertical con altura igual a la frecuencia (absoluta y relativa) acumulada, luego se unen los extremos superiores de las verticales con segmentos rectilíneos. Así por ejemplo el polígono de frecuencia acumuladas absolutas alcanzará su máxima altura en el último intervalo. 2.8 Representación de variables cualitativas a) Diagrama de rectángulos o de Barras Se representa en el eje de las abscisas los distintos caracteres cualitativos y se levantan sobre ellos rectángulos de bases iguales que no tiene porque estar traslapados y cuya altura será igual a la frecuencia absoluta correspondiente. Ejemplo: FACULTAD NUMERO DE ALUMNOS Ingeniería Metalúrgica 200 Economía 1500 Ingeniería Industrial 3000 Contabilidad 800 Derecho 700 Ciencias de la Comunicación 900 Ingeniería de Sistemas 400 Ciencias Administrativas 600
  • 35. 34 Ejemplo: Causa del Accidente Sexo Total Masculino Femenino Accidentesde transporte 1145 232 1377 Sumersión accidental 346 92 438 Caída 242 101 343 Envenenamientos 58 43 101 Otros accidentes 653 311 964 TOTAL 2444 779 3223
  • 36. 35 b) Diagramas de sectores o Gráfico Sectorial Es una representación de un conjunto de datos estadísticos, en un círculo, por medio de sectores circulares. Es utilizado principalmente cuando se pretende comparar cada valor de la variable con el total. Causa del Accidente Sexo Total Masculino Femenino Accidentesde transporte 1145 232 1377 Sumersión accidental 346 92 438 Caída 242 101 343 Envenenamientos 58 43 101 Otros accidentes 653 311 964 TOTAL 2444 779 3223
  • 37. 36 c) Pictogramas Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele indicar. ¿En qué mes se plantaron menos árboles?, ¿y en cuál se hicieron más plantaciones?
  • 38. 37 Una variable estadística es una característica de la población que interesa al investigador y que puede tomar diferentes valores. La variables estadísticas generalmente se denotan con las letras x, y, z, etc. Ejemplo Peso, Coeficiente Intelectual (CI), Sexo, Edad, etc. y toman distintos valores cuando se observan diferentes individuos. Importante: Si los valores numéricos que toma una variable, provienen de factores fortuitos (accidental) y si un determinado valor no se puede predecir exactamente con anticipación, esa variable se denomina “variable aleatoria”. 3.1 Concepto de Variable Cualitativa Sus valores consisten en categorías de clasificación, o sea se refiere a las cualidades que presenta la población, no lleva clasificación numérica. Se refieren a propiedades de los objetos en estudio, sean éstos animados o inanimados. Lo que determina que una variable sea cualitativa es el hecho de que no puede ser medida en términos de la cantidad de la propiedad presente, sino que sólo se determina la presencia o ausencia de ella. Por ejemplo: las variables sexo, ocupación , religión, procedencia, estado civil, se consideran cualitativas en vista de que no se les puede asignar mayor o menor peso a las diferentes categorías; lo único que se puede hacer es clasificarlas.
  • 39. 38 A su vez estas variables puede clasificarse en:  Variable Cualitativa Nominal.- Surge cuando se definen categorías y se cuenta el número de observaciones pertinentes a cada categoría y no lleva ninguna ordenación en las posibles modalidades. Ejemplo:  Variable Cualitativa Ordinal.-Cuando el investigador busca ordenar sus casos en términos del grado que poseen una determinada característica. Es decir se clasifican los objetos, hechos o fenómenos en forma jerárquica según el grado que posea una característica determinada, sin proporcionar información sobre la magnitud de las diferencias entre los casos así clasificados. Ejemplo Variable Categorías Estado marital Soltero Casado Divorciado Viudo Unión libre Orientación en el tiempo Presente Pasado Futuro Color de ojos Castaños Azules Negros, etc. Partidos políticos UN MAS MSM, etc. Variable Categorías Clase social Alta, media, baja. Nota de un examen Excelente, bueno, malo, pésimo Puesto en una prueba deportiva 1o, 2o, 3º,... Medallas en una prueba deportiva Oro, Plata, Bronce
  • 40. 39 3.2 Razón La Razón es el cociente de dos cantidades entre sí, que representan dos variables sujetas a comparación de unidad vs. Unidad. Ejemplo: Se debe determinar que variable será la unidad, es decir el denominador. a) En el caso de que la unidad corresponda a Mujeres, el denominador de las dos variables será el número de las 15 Mujeres, realizándose las operaciones de la siguiente manera: 15/15 = 1 10/15 = 0,67 1 : 0,67 Mujeres : Hombres La interpretación de estas cifras no refiere que por cada mujer atendida se atendió un poco más de la mitad de un hombre, sino que hay menos hombres en la consulta que mujeres. b) Si se decide que la unidad serán los hombres, el planteamiento es: 10/10 = 1 15/10 = 1,5 1 : 1,5 Hombres : Mujeres Se aprecia que hay más mujeres atendidas que hombres. Los resultados nos pueden dar las siguientes variaciones: 1 : 0,67 0,67 : 1 Mujeres : Hombres Hombres : Mujeres 1 : 1,5 1,5 : 1 Hombres : Mujeres Mujeres : Hombres En todos los casos podemos inferir que hay más mujeres, aunque no sabremos cuántas mujeres u hombres hay en el universo estudiado. La razón es aplicada para valorar el crecimiento o la disminución de la población. Atención hospitalaria Mujeres Hombres 15 10 25
  • 41. 40 Ejemplo: En el año 2002, según el Centro Nacional de Epidemiología se declararon los siguientes casos de legionelosis (enfermedad bacteriana ambiental): Comunitario (adquirida en la comunidad) Nosocomial (adquirida en centros de salud) Total Casos Defunciones Casos Defunciones Casos Defunciones 372 9 29 5 401 14 Casos de Legionelosis adquirida en la comunidad / casos de legionelosis nosocomiales 372 / 29 = 12,8 Por cada caso de legionelosis nosocomial hay 12,8 casos comunitarios Defunciones por legionelosis comunitario / defunciones por legionelosis nosocomiales 9 / 5 = 1,8 Por cada defunción por legionelosis nosocomial hay 1,8 defunciones por legionelosis comunitario. 3.3 Proporción Se utiliza como estimación de la probabilidad de un evento. Es la relación de dos cifras, cuando una de ellas es una parte que se divide por el total, lo que se puede explicar mejor, si tomamos las cifras del primer ejemplo Total = 25 pacientes Parte = 15 mujeres Parte = 10 hombres La proporción de las mujeres se obtiene dividiendo el número 15 entre el total de los pacientes atendidos. Proporción de mujeres: 15/25 = 0,6 Para el caso de los varones tendremos: Proporción de hombres: 10/25 = 0,4
  • 42. 41 Si observamos en la siguiente tabla las proporciones serán: Mediante estas medidas tenemos idea de la proporción, pero al igual que en las razones, ignoramos cuantas mujeres o varones existen en éste universo. En las proporciones la suma de todas las partes siempre alcanzará la Unidad, por tanto una proporción no excede la unidad. Con el segundo ejemplo tendríamos: 3.4 Porcentajes El porciento es el resultado de multiplicar la proporción por 100, así siguiendo con el primer Ejemplo si tenemos las proporciones para mujeres y hombres. Mujeres 0,6 le corresponde 60% Hombres 0,4 le corresponde 40% Nótese que observando los porcentajes, tampoco se sabe “CUANTAS” personas existen, sólo sabemos que hay más mujeres que hombres. La suma de todos los porcentajes hacen mucho mas “manejables” las cifras de las proporciones, por qué se puede apreciar mejor un 40% que un 0,4%. Atención hospitalaria Sexo Proporción Mujeres 0,6 Hombres 0,4 Total 1,0 Legionelosis Casos Proporción Defunciones Proporción Comunitario 372 0,93 9 0,64 Nosocomial 29 0,07 5 0,36 Total 401 1,00 14 1,00 Atención hospitalaria Sexo Proporción Porcentaje Mujeres 0,6 60% Hombres 0,4 40% Total 1,0 100%
  • 43. 42 3.5 Tasas Esta medida, indicador o número índice es una proporción en la que se relaciona como “parte” un hecho vital que frecuentemente tiene que ver con los nacimientos, muertes, migraciones, estado civil, enfermedades con un “total” que suele ser la población y cuyo cociente se multiplica por 100,1000, 10.000 o 100.000 de acuerdo a la magnitud de denominador para hacer comprables las tasas. Las tasas tienen dos características importantes: Tiempo y lugar.  Tiempo.- Es el hecho vital que se estudia durante un año determinado, un mes, semana o día, ejemplos: 1991, Diciembre, 2da semana de Octubre, el 3 de Febrero.  Lugar.- Puede ser un país, una provincia, un Departamento, una ciudad o un barrio. Los dos componentes permiten que las tasas puedan ser utilizadas para comparar los hechos vitales entre dos zonas geográficas distintas o similares, así como también entre dos épocas distintas. El resultado de una tasa tampoco indica que cantidad del hecho vital se dio, el numeral de la tasa lo mismo que las proporciones y las razones, nos ayudan a comparar eventos, casuística, comportamiento entre distintas poblaciones sin importar su totalidad. Así, si dos países, uno de 40 millones de habitantes y otro de 5 millones, tienen una tasa de natalidad del orden de 23 por 100.000, haciendo abstracción de la cantidad de habitantes, podemos concluir de que en ambos países, el comportamiento de los nacimientos es similar. Ejemplo: Según el Instituto Nacional de Estadística, en el año 2002 se encontraba censada en España una población de 41.837.894 personas. a) Tasa de legionelosis en el año 2002 en España 𝐶𝑎𝑠𝑜𝑠 𝑑𝑒 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜) 𝑥 100.000 401 41.837.894 𝑥 100.000 = 0,96
  • 44. 43 Es decir que 0,96 personas padecieron legionelosis en el año 2002 en España por cada 100.000 habitantes. b) Tasa de mortalidad por legionelosis en España en 2002 𝐷𝑒𝑓𝑢𝑛𝑐𝑖𝑜𝑛𝑒𝑠 𝑝𝑜𝑟 𝐿𝑒𝑔𝑖𝑜𝑛𝑒𝑙𝑜𝑠𝑖𝑠 𝑃𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 (𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜) 𝑥 100.000 14 41.837.894 𝑥 100.000 = 0,033 Es decir que 0,033 personas fallecieron por legionelosis en España en 2002 por cada 100.000 habitantes.
  • 45. 44 4.1 Concepto de Variables Cuantitativas Son aquellas cuya magnitud puede ser medida en términos numéricos, esto es, que los valores de los fenómenos se encuentran distribuidos a lo largo de una escala. Por ejemplo, las variables edad, peso, talla, escolaridad, son cuantitativas debido a que se les puede asignar mayor o menor peso a cada una de ellas; tomando por ejemplo la edad, se puede afirmar que una persona que tiene 50 años representa en doble en edad de una que tiene 25 años. Las variables cuantitativas se clasifican en:  Variables Continuas.- Son aquellas cuya unidad de medición utilizada en la escala puede ser subdividida en forma infinita. Ejemplo: - Estatura de los estudiantes de la U.S.B. Si la unidad de medición es el metro éste puede ser subdividido en centímetros y milímetros. - Nivel de colesterol de ciertos pacientes del hospital Obrero
  • 46. 45  Variables Discontinuas o Discretas.- Son aquellas que pueden tomar solamente un número finito de valores, debido a que la unidad de medición no puede ser fraccionada. Ejemplo: - Número de hijos (los hijos no pueden fraccionarse). - Número de monedas que una persona lleva en su bolsillo. - Número de admisiones en un hospital durante un día determinado. - Número de accidentes automovilísticos que se producen en una ciudad. Sumatorias La suma de los valores de la variable x: nxxx ,...,, 21 , se define mediante la notación  e indica que han de sumarse los elementos de la sucesión desde el subíndice i = 1 hasta el subíndice n, esto es:   n i ni xxxx 1 21 ... Ejemplo:            4 1 6141312111 i i ¡Hazlo tú!   5 1 6 i i Nótese que el elemento típico de la sumatoria es una función únicamente del índice de la sumatoria. Si algún otro símbolo aparece en la fórmula del elemento típico, debe considerarse constante.
  • 47. 46 Suponga que se seleccionan n = 5 compañías cerveceras del total en el país. Sus tasas de ganancia, como porcentaje de precio de venta, son respectivamente 12.2, 10.8, 12.1 y 11.3. Represente simbólicamente estas cantidades como 2.121 x 8.102 x 4.103 x 1.124 x 3.115 x a) Hallar  5 1i ix b) Hallar 5 5 1 i ix c) Hallar  5 1 2 i ix Propiedades de la Sumatoria 1.   n i nCCCCCC 1 ... , donde C es una constante 2.     n i n i ii xCCx 1 1 3.             n i i n i i n i iiii n i i n i n i iii zyxzyxb yxyxa 111 11 1 ) ) 4.        n i n i iii n i i n i ii yCyxCxCyx 1 1 22 1 2 1 2 4.2 Medidas de tendencia central  Clasificados los datos originales se debe  Calcular un conjunto de indicadores Caracterizan en forma algo mas precisa la distribución que se estudia.  Para esto se dispone de estadígrafos - Representan valores centrales en torno de los cuales se agrupen las observaciones, llamadas usualmente promedios. - Utilidad: análisis y comparación de una distribución.
  • 48. 47 Medida de tendencia central Es un índice de localización central empleado en la descripción de las distribuciones de frecuencias. …también sirve como una base para medir y evaluar valores anormalmente altos o anormalmente bajos (o valores extremos), Características del valor central 1. Debe estar definido en forma objetiva. 2. debe depender de toda la información obtenida en lo posible. 3. debe ser fácil de comprender (no debe tener un carácter abstracto) y de interpretar. 4. Debe ser fácil de calcular. 5. Debe ser estable (no debe se sensible a fluctuaciones). 6. Debe ser adecuado a cálculos algebraicos posteriores. 4.2.1 Tipos de Promedio Los promedios más usuales son: a) La media aritmética o media b) La mediana c) La moda d) La media geométrica e) La media cuadrática f) La media armónica 4.2.2 Media Aritmética – Datos no agrupados Sea nxxx ,...,, 21 , valores de la variable X. La media aritmética simple de X representada por X es dada por: donde n es el tamaño de la muestra o número de elementos del conjunto de observaciones. Ejemplo: n x X n i i  1
  • 49. 48 Consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos será de: Encuentre la medida aritmética de las observaciones: 3, 4, 7, 8, 2 4.2.3 Media Aritmética – Datos agrupados Sean kxxx ,...,, 21 valores de la variable X ponderados por sus respectivas frecuencias absolutas: kfff ,...,, 21 . La media de la variable X es dado por: n xf X k i ii  1 o n xh X k i ii  1 donde   k i ifn 1 y khhh ,...,, 21 son las frecuencias relativas respectivas. Ejemplo Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg. xi fi xi fi 54 59 63 64 2 3 4 1 108 177 252 64 Total 10 601
  • 50. 49 kg n xf X k i ii 1.60 10 6011   Ejemplo Clases fi Marca de clase Xi fixi [30,40] 3 35 105 (40,50] 2 45 90 (50,60] 5 55 275 Total 10 470 47 10 4701   n xf X k i ii 4.2.4 Propiedades de la media Aritmética 1. La suma de las desviaciones (diferencias) entre los valores de la variable X y su media aritmética X es ceros, esto es:    0xxf ii 2. Para un conjunto dado de observaciones, la media es única. 3. La media es sensible ( o afectada) por los valores del conjunto. Así, si un valore se modifica, la media aritmética X también se modifica. 4. La suma de los cuadrados de las desviaciones entre los valores de la variable X y de su mediad aritmética X es mínima, esto es:       2 1 2 Bxfxxf ii k i ii , para cualquier constante B 5. Si a los valores de una valores de una variable X se resuma o se le resta una constante C, entonces la media aritmética X quedará aumentada o disminuida en la constante C, esto es:
  • 51. 50 CXYCXY  6. Si fueran multiplicados o divididos los valores de una variable X por una constante C, entonces la media de X, X , quedará multiplicada o dividida por esta constante, esto es: XCYCXY  7. En general, si CXbYCbXY  Ventajas e inconvenientes: - La media aritmética viene expresada en las mismas unidades que la variable. - En su cálculo intervienen todos los valores de la distribución. - Es el centro de gravedad de toda la distribución, representando a todos los valores observados. - Es única. - Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o pequeños de la distribución. Ejemplo En una empresa donde los salarios tienen una media de 100000 el sindicato solicita que cada salario X, se transforma en Y, mediante la siguiente. 1005.2  XY El directorio acoge parcialmente la petición rebajando los salarios propuestos por el sindicato en un 10%, lo que es aceptado. Se pide calcular la media aritmética de la nueva distribución de salarios. Solución Tenemos: 100000X Si   2501001001000005.21005.21005.2  XYXY El salario propuesto por el directorio es:    2250902501009.09.09.0%10  YZYYYZ Luego, la media de la nueva distribución de salarios es: 225090
  • 52. 51 A) Primer proceso abreviado para el calculo de la media Sea tO (el origen de trabajo) el valore más frecuente de la variable de X o que está hacia el centro de la distribución de frecuencias, y sea tii Oxd   ki ,...,2,1 las desviaciones de ix respecto a tO entonces tii Odx  Luego        itiiiii k i ii fOdf n Odf nn xf X 111 B) Segundo proceso abreviado para el de la media Este procedimiento es particularmente útil para ser aplicado cuando los valores de X son grandes y la amplitud de clase constante. Como veremos, el uso de éste proceso nos ofrece rapidez y facilidad en los cálculos. Primer Paso: Se efectúa el cambio de variable de X a  , utilizando la siguiente fórmula: C Ox ti   1) donde: ix =valores de la variable tO = origen de trabajo i =Valores transformados C = amplitud del intervalo de clase Segundo Paso: Cálculo de la mediana X Tenemos: de 1): iti COx  n df OX k i ii t   |
  • 53. 52 Entonces       iitiitiii fCOf n COf n xf n X  111 Por tanto: 4.2.5 Medida Ponderada Hay ocasiones en que se requiere expresar en una sola cifra los resultados de varios grupos de datos, cada uno de los cuales ha sido resumido previamente mediante un promedio. Tal es el caso de las muestras estratificadas, en las cuales se calcula un promedio para cada estrato. En dichas ocasiones, el promedio general para los diferentes grupos no se obtiene promediando los promedios parciales, sino que es necesario tener en cuenta el numero de observaciones en que se basa cada promedio. Tal promedio recibe el nombre de medida ponderada y es definida como sigue: Sean rXXX ,...,, 21 , las medias aritméticas de r subconjuntos menores, cada uno con rnnn ,...,, 21 observaciones respectivamente. La media aritmética del conjunto formado por los términos de los r subconjuntos es dado por la fórmula: n Xn nnn XnXnXn X r j jj rr p      1 321 2211 ... ... donde:   r i jnn 1 En general, si rppp ,...,, 21 son los pesos asociados a los valores de la variable rxxxX ,...,,: 21 respectivamente, entonces la media ponderada será:           n f COX ii t            n f COX ii t       r i i r i ii p p xp X 1 1
  • 54. 53 Ejemplo: Supongamos que en una ciudad en particular hay dos precios de pan, 0.80 centavos en los supermercados que vende 10000 unidades, y un centavo en las panaderías que venden 1000 unidades. Hallar el promedio ponderado del precio del pan: Solución Tenemos:       8182.0 11000 9000 100010000 100000.11000080.0    pX Por tanto, el precio promedio del pan es de 0.8182. 4.2.6 Mediana La mediana es un valor que divide a un conjunto de observaciones ordenadas en forma ascendente o descendente en dos grupos de igual número de observaciones. La notación que vamos a emplear será: En el cálculo de la mediana, podemos considerar los 3 casos siguientes: La variable en estudio es discreta y n (numero de observaciones) es impar. 2 1  n Me Ejemplo: En un estudio que se realizó en un asilo de ancianos, se tomó las edades de los envejecí entes que pueden caminar sin dificultades. Buscar la mediana de las siguientes edades. 69 73 65 70 71 74 60 62 78 Solución Ordenando estos valores de acuerdo a la magnitud que tenemos: 60 62 65 69 70 71 73 74 78 Unidad seleccio nada
  • 55. 54 donde n = 9 entonces 5 2 19 2 1      n Me to,  Me = 70 La edad de 70, que es la mediana, ocupa el lugar central de la distribución, que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha. La variable en estudio es discreta y n (numero de observaciones) es par. En este caso no, no existe e la ordenación un valor de la variable que ocupe la posición central, esto es, la mediana es indeterminada, pues cualquier valor comprendido entre los valores que ocupan la posición 1 22  n y n Por tanto por convención la mediana es: 2 1 22    nn xx Me Ejemplo Buscar la mediana de los siguientes números: 25 15 28 29 25 26 21 26 Solución Arreglando estos valores en orden creciente tenemos: 15 21 25 25 26 26 28 29 Calculamos los valores que ocupan las posiciones: 1 22  n y n , esto es: to n to n 51 2 8 1 2 4 2 8 2   Luego: 5.25 2 2625 2 1 22       nn xx Me
  • 56. 55 E valor 25.5, que es la mediana, ocupa el lugar central de la distribución, que deja el 50% de observaciones hacia la izquierda y el 50% a la derecha. La variable es continua. En este caso el problema consiste en determinar un punto dentro del intervalo en que está comprendido la mediana. Procedimiento 1er Paso. Calcular la posición de orden 2 n . Como la variable es continua, no se debe preocuparse si n es par o impar 2do paso. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana, esto es, la clase para el cual se cumple: kk F n F  2 1 Con lo cual la mediana estará en la clase que tiene como frecuencia acumulada kF . 3er Paso. Utilizar la fórmula: med kk k med C FF F n lMe *2 1 1                  donde: medl Límite inferior de la clase que contiene a la mediana. n = Tamaño de la muestra. meC Amplitud de la clase que contiene a la mediana. kF Frecuencia acumulada de la clase que contiene la mediana. 1kF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a la mediana Ejemplo: Clases  45,35  55,45  65,55  75,65  85,75  95,85 if 5 12 18 14 6 3 Ciuda d
  • 57. 56 Hallar la mediana. Solución Clases if iF  45,35 5 5  55,45 12 17  65,55 18 35  75,65 14 49  85,75 6 55  95,85 3 58 Total 58 Paso 1: von 29 2 58 2  posición Paso 2: kk F n F  2 1  352917 32  FF vo Paso 3: 67.6110* 1735 1729 55*2 1 1                           med kk k med C FF F n lMe 4.2.7 Cuartiles Los cuartiles son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en cuatro partes iguales. Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a él y el 75% superiores a él. Q2 = 2do cuartil, coincide con la mediana Q3 = 3er cuatil, deja 75% de las observaciones inferiores o iguales a él y el 25% de éstas superiores a él. Calle
  • 58. 57 Utilizaremos los cuartiles solamente para datos agrupados en intervalos de clase. Determinación de Q1: 1er Paso: Se calcula 4 n 2do Paso: Se identifica la clase que contiene a Q1 por medio de las frecuencias acumuladas, esto es, por la desigualdad. kk F n F  4 1 3er Paso: Se aplica la fórmula 11 *4 1 1 1 Q kk k Q C FF F n lQ                  o 11 *4 1 1 1 1 Q kk k Q C HH H lQ                  (Cuando se usa frecuencias acumuladas relativas) donde: 1Ql Límite inferior de la clase que contiene a Q1. n = Tamaño de la muestra. 1QC Amplitud de la clase que contiene al primer cuartil. kF Frecuencia acumulada de la clase que contiene al primer cuartil. 1kF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene al primer cuartil. Determinación de Q3: 1er Paso: Se calcula 4 3n 2do Paso: Se identifica la clase que contiene a Q3 por medio de las frecuencias acumuladas, esto es, por la desigualdad.
  • 59. 58 jj F n F  4 3 1 3er Paso: Se aplica la fórmula 33 *4 3 1 1 3 Q jj j Q C FF F n lQ                  o 33 *4 3 1 1 3 Q jj j Q C HH H lQ                  (Cuando se usa frecuencias acumuladas relativas) donde: 3Ql Límite inferior de la clase que contiene a Q3. n = Tamaño de la muestra. 3QC Amplitud de la clase que contiene a Q3. jF Frecuencia acumulada de la clase que contiene a Q3. 1jF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene Q3. 4.2.8 Deciles Los deciles son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en 10 partes iguales. D1 = 1er decil, deja 10% de las observaciones menores o iguales a él. D2 = 2do decil, deja 20% de las observaciones menores o iguales a él . . . . D9 = 9no decil, deja el 90% de las observaciones menores o iguales a él. Edificio Barrios
  • 60. 59 Para determinar los deciles seguimos los siguientes pasos: 1er Paso: Se calcula 4 *ni , donde i = 1,2,…,9 2do Paso: Se identifica la clase que contiene los deciles por medio de las frecuencias acumuladas, esto es, por la desigualdad. kk F ni F  4 * 1 3er Paso: Se aplica la fórmula ii D kk k Di C FF F ni lD *10 * 1 1                  donde: iDl Límite inferior de la clase que contiene a Di, i = 1,2,…,9 n = Tamaño de la muestra. iDC Amplitud de la clase que contiene a Di. kF Frecuencia acumulada de la clase que contiene a Di. 1kF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene Di. 4.2.9 Percentiles Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes iguales. P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él y el 99% superiores a él . . . VARIABLE: CONDUCTOR REFERIDO CATEGORÍAS CÓDIGOS FRECUENCIAS AMT 1 50 LEM 2 88 FGI 3 12 MML 4 3 TOTAL 153 Total
  • 61. 60 P99 = 99avo percentil, deja el 99% de las observaciones menores o iguales a él y el 1% superiores a él Para calcular los percentiles se siguen los siguientes pasos: 1er Paso: Se calcula 100 *ni , donde i = 1,2,…,98,99. 2do Paso: Se identifica la clase que contiene los Pi por la frecuencia acumulada, esto es, por la desigualdad. kk F ni F  100 * 1 3er Paso: Se aplica la fórmula ii P kk k Pi C FF F ni lP *100 * 1 1                  donde: iPl Límite inferior de la clase que contiene a Pi, i = 1,2,…,99 n = Tamaño de la muestra. iPC Amplitud de la clase que contiene a Pi. kF Frecuencia acumulada de la clase que contiene a Pi. 1kF Frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene Pi. 4.2.10 La Moda Es un valor de la variable que tiene la más alta frecuencia, esto es, es el valor más frecuente de la distribución. Nota.- La moda no siempre existe y no siempre es única Ejemplo Considere los pesos (en kilos) de 9 adultos 82, 65, 59, 74, 60, 67, 71, 73 y 70
  • 62. 61 Estas nueve medidas no definen una moda. Ejemplo Considere la distribución de los pesos de 15 adultos 63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83 El valor 63 y 71 ocurren 3 veces, y el resto ocurre una vez cada uno. Luego la moda de estas observaciones es: Mo = 63 Kilos y Mo = 71 Kilos En este caso la distribución se llamará bimodal. En general, se tiene lo siguiente: i) La distribución que tiene una sola moda se llama unimodal ii) La distribución que tiene dos modas se llama bimodal iii) La distribución que tiene más de dos modas se llama multimodal Propiedades del moda 1) El valor de la moda es totalmente independiente de los valores extremos. 2) La moda es una medida inestable porque varía si se cambia el intervalo de clase. 3) Su significado es imitado cuando no se dispone de un gran número de valores. 4) Es el valor típico y por ello el promedio más descriptivo. 5) La moda no se presta a manipulaciones algebraicas posteriores. Cálculo de la Moda: caso de datos agrupados en intervalos de clase Para datos agrupados en intervalos de clase, tenemos diversas fórmulas para el cálculo de la moda. Aquí presentamos dos procesos: 1er Proceso: Fórmula Czuber 1er Paso: Se identifica la clase modal (la clase con mayor frecuencia) 2do Paso: se aplica la fórmula: MoMo ClMo * 21 1          donde:
  • 63. 62 Mol = límite inferior de la clase modal 1 = 1ffMo  ( 1f = frecuencia de la clase inmediatamente anterior a la clase modal) Mof = frecuencia de la clase modal 2 = 2ffMo  ( 2f = frecuencia de la clase inmediatamente posterior a la clase modal) MoC = amplitud de la clase modal Ejemplo Intervalo de clase fi  1,0 3  2,1 10  3,2 17  4,3 8  5,4 5 TOTAL 43 Solución 1er Paso.- El intervalo de clase de mayor frecuencia absoluta es 17 es el tercer  3,2 2do Paso.- Aplicando la fórmula: MoMo ClMo * 21 1          1 = 710171  ffMo 1* 97 7 2        Mo 2 = 98172  ffMo 44.2Mo 1MoC 2do Proceso: Determinación gráfica de la moda. En este caso, es necesario construir el histograma de la distribución, identificar la clase modal (aquella clase con mayor altura) y hacer la construcción que a continuación se indica.
  • 64. 63 4.2.11 Relación entre la Media, Mediana y Moda 1. Distribución Simétrica. Se dice que una distribución de frecuencias es simétrica cuando valores de la variable equidistantes de una valor central tienen las mismas frecuencias. Es importante destacar es este caso que. MoMeX  2. Para un distribución sesgada hacia la derecha (si la cola mayor se presenta a la derecha de la curva) MoMeX  Para una distribución sesgada hacia la izquierda tenemos: MoMeX  TareaTar ea
  • 65. 64 4.2.12 Encogimiento entre la Media, Mediana y la Moda. De las tres medidas de posición central, la media aritmética suele ser más frecuentemente utilizado, quizá por la facilidad de su cálculo a pesar de que en muchas ocasiones la mediana o la moda resultan de mayor interés. a. La media aritmética como medida de resumen tiene la ventaja de tomar en cuenta la totalidad de los valores de la serie, aumentando o disminuyendo de acuerdo con ellos, pero a causa de esta propiedad, puede ser desventajosamente afectado por la existencia de valores anormalmente altos o anormalmente bajos. Por regla general, sin embargo, puede decirse que cuando la serie es más o menos simétrica, el promedio debe ser preferido a cualquier otra medida de resumen. b. La mediana por su parte debe ser utilizada cuando entre los valores que se estudian, hay alguno muy diferente de los otros. Si por ejemplo, el tiempo de hospitalización, de 5 niños con gastroenteritis fuera respectivamente 2,3,4,6, y 30 días; el valor último, debido tal vez a alguna complicación de la enfermedad, hace aparecer la permanencia en el hospital mucho más larga de lo que generalmente es. El promedio: 9 5 45 5 306432   X días, es engañoso, pero en cambio la mediana, que es x = 4 días, tiene la ventaja de no tomar en cuenta los valores extremos, dando una impresión más acorde con lo usual. Hay además ocasiones en que debe usarse la mediana por no ser posible el cálculo del promedio. Tal sucede en aquellas distribuciones en las cuales la primera o la última clase no tienen limites precisos. Exceptuando estas aplicaciones, la mediana no tiene ninguna ventaja sobre la media aritmética, pues su valor depende solamente del número de términos sin tomar en cuenta los valores numéricos de estos. c. La moda no es una medida de tendencia central muy usual, pero se emplea cuando el interés se centra en conocer el valor que se presenta más frecuentemente. Por ejemplo en los negocios, sirve para determinar qué tamaño del producto es el de mayor demanda. Similarmente para programar la producción de un medicamento el fabricante estará interesado en ¿cuál es la dosis más comúnmente recetada por los médicos?. 4.2.13 Media Geométrica Se define como la raíz de índice de la frecuencia total cuyo radicando es el producto de las potencias de cada valor de la variable elevado a sus respectivas frecuencias absolutas, se denota por G; suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También para promediar porcentajes,
  • 66. 65 tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula mediante la siguiente fórmula: Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo, entonces la fórmula anterior se presenta de la siguiente manera.     n xf n xfxfxf GX k n ii kk G     10 1021021101 1010 log log...loglog loglog Luego,               n xf AntiGX k n ii G 10log .log Ejemplo: Calcule la media geométrica de las observaciones maestrales: 3, 6, 12, 24, 48 Solución Propiedades de la media geométrica  Si se define una variable y x z i i i G G G y x Z   Es única  Utiliza todos los elementos  Sólo se puede calcular con variables cuantitativas positivas 1224883248*24*12*6*3**** 55 21 21  n f k ff G k xxxX n f k ff G k xxxX **** 21 21
  • 67. 66  Su logaritmo es la media aritmética de la variable log X  Es el centro de gravedad de la distribución en términos multiplicativos  Es más robusta que la media a valores grandes pero no a los pequeños y siempre toma valores mas pequeños que la media aritmética  No es invariante por cambios de origen y escala  Es útil para promediar tasas, porcentajes, tipos de interés y, en general, en todas aquellas situaciones en las que la variable analizada presente variaciones acumulativas En demografía, para estimar la población de una determinada localidad en un año t, cuando se supone crecimiento geométrico entre dos censos, se usa la fórmula: Donde P0 es la población en el primer censo, realizado en la fecha t0; P1 es la población en el segundo censo, realizado en la fecha t1 y Px es la población que se quiere determinar en la fecha tx. Si se quiere determinar la población en el centro de período  10 ,tt esto es, para 222 01 0 01 0 01 tt t tt tt tt t xx       Luego, 10 2/1 0 1 0 01 0 2 1 pp p p pp tt tt x x          esto es, xp es la media geométrica de 0p y 1p Ejemplo: Un país tiene en 1970 una población de 6.5 millones lo que sube en 1980 a 8 millones. ¿Cuál es la población media del período?
  • 68. 67 Solución: Aplicando la última fórmula para Px tenemos 21.78*5.610  pppx 4.2.14 Media Armónica Sean x1,,x2,..., xk, valores de la variable X, asociadas a las frecuencias absolutas f1,f2,…,fk respectivamente. La media armónica de X es dado por:     k i i i k k H x f n x f x f x f n HX 12 2 1 1 ... Donde: n =  k i if 1 Esta media, como la media geométrica, solo es aplicable a ciertos tipos de problemas. Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores pequeños). Su problema: cuando algún valor de la variable es ó próximo a cero no se puede calcular Ejemplo: Un automóvil recorre los primeros 10 kilómetros a razón de 30 km/h, y los 10 kilómetros siguientes a razón de 60 km/h. Determinar la velocidad media durante todo el trayecto. Solución A primera vista muchos pensarían que la velocidad media sería igual a 45 2 6030   X km/h . Sin embargo, al recordar que la velocidad definida como la distancia total recorrida multiplicado por el tiempo gastado en el trayecto, es fácil percibir que el resultado anterior incorrecto. A la razón de 30 km/h, el automóvil gastó 20 minutos para primeros 10 kilómetros, y a razón de 60 km/h, gastó 10 minutos. Por lo tanto el carro recorrió un total de 20 km en 20 + 10 = 30 minutos = 0.5 horas, a una velocidad media de:
  • 69. 68 40 5.0 2  km/h Este resultado puede ser obtenido directamente calculando media armónica entre las dos velocidades. Así tenemos: hkmH /40 3 120 30 3 2 60 1 30 1 2    Propiedades de la media armónica  La media armónica se basa en todas las observaciones por lo que está afectada por todos los valores de la variable. Da a los valores extremadamente grandes un peso menor que el que les da la media geométrica, mientras que a los valores pequeños les da un peso mayor que el que les da tanto la media aritmética como la media geométrica.  La media armónica esta indeterminada si alguno de los valores es cero, pues hallar el recíproco de cero implica dividir entre cero, lo cual no es válido. La media armónica está rígidamente definida y siempre es definitiva, excepto cuando uno de los valores es cero.  La media armónica es el promedio que se ha de usar, cuando lo que se va a promediar son proporciones donde los numeradores de las razones son los mismos para todas las proporciones.  La media armónica se presta a manipulaciones algebraicas posteriores  XGH  , siempre que se trate de lamisca serie y cuando los términos son iguales. 4.2.15 Media Cuadrática Cuando se observa una distribución hay veces que no nos interesa tener en cuenta la influencia del signo de los valores de la variable. Es típico en el caso de los errores, ya que el error es error tanto en más como en menos. Este problema se resuelve utilizando la media cuadrática.                 n xf n xfxfxf X k i ii kk c 1 2 22 22 2 11 ... 2 5
  • 70. 69 4.3 Medidas de dispersión o concentración En las secciones precedentes, se ha centrado la atención en un método básico para describir un conjunto de datos, el promedio que resume los da tos en un solo valor. En este aparado se describiremos otras medidas estadísticas necesarias para mostrar como varían los datos alrededor del promedio, ya que esta variación es a veces tan importante como el mismo promedio. Por ejemplo, si consideramos dos ciudades A y B que tienen el mismo ingreso me- dio por habitante. ¿Este simple hecho de igualdad de las dos medias permite concluir que la situación económica de las dos ciudades es la misma?. Evidentemente que no, pues, esta igualdad podría existir aún cuando los ingresos en A fuese perfectamente estabilizado en el sentido de que todos sus habitantes tuviesen prácticamente el mismo ingreso (igual al ingreso medio por habitante) y en B tuviese unos pocos individuos con ingresos extraordinariamente altos y la mayoría con ingresos bajos. Así, el conocimiento de los valores de posición central de una distribución, no es suficiente para su completa caracterización. El hecho de que en la ciudad A todos los individuos tuvieran el mismo ingreso puede ser traducido diciendo que en A los ingresos no varían de individuo a individuo, o sea, la distribución de los ingresos no presentan variabilidad. Análogamente, el hecho de que en B algunos individuos tuvieran ingresos muy elevados en detrimento de la gran mayoría, que tiene ingresos muy bajos, puede ser expresado diciendo que en B los ingresos varían o que la distribución de ingresos presentan variabilidad. Así tenemos la siguiente definición. Definición Las medidas de dispersión son los que cuantifican el grado de concentración o de dispersión de los valores de la variable en torno de un promedio o valor central de la distribución. Las medí das de dispersión se necesitan para dos propósitos básicos: a) Para verificar la confiabilidad de los promedios y b) Para que sirva come base para el control de la variación misma. También podemos decir que los términos concentración y dispersión pueden ser utilizados indistintamente, pues se da la relación. alta dispersión  baja concentración baja dispersión  alta concentración Las medidas de dispersión que se utilizan con mayor frecuencia son:
  • 71. 70 1) Recorrido o rango 2) Recorrido Intercuartilico 3) Recorrido semi-intercuartilico 4) Desviación media 5) Varianza y desviación estándar 4.3.1 Recorrido de la Variable El recorrido de una variable estadística es simplemente la diferencia entre su valor máximo y su valor mínimo y se denota por: R = máx {X} - mín {X} Desventaja La utilización del rango como medida de dispersión es muy limitado, si bien brinda una primera idea acerca de la heterogeneidad de los datos, tiene el inconveniente que sólo toma en cuenta los valores extremos descuidando el conjunto de valores intermedios. Puede suceder que uno de los valores extremos esté accidentalmente desplazado y no constituye por tanto un valor representativo; en este caso el recorrido sería exagerado y la dispersión aparecería distorsionado. Ejemplo Serie 1: 1 5 7 7 8 9 9 10 17 Serie 2: 2 4 6 8 10 12 14 16 18 Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido. 4.3.2 Recorrido Intercuartilico Como los cuartiles son tres puntos (valores) que dividen un ordenamiento de datos o una distribución de frecuencias en 4 grupos aproximadamente iguales. Entonces la medida dada por: 13 QQQI  llamada recorrido o amplitud intercuartílico, incluye la mitad central de los valores.
  • 72. 71 Desventaja Si bien es cierto que este indicador representa un adelanto respecto del rango, sin embargo, también depende de dos valores de la variable, dejando de lado el resto, y en consecuencia la influencia de valores extremos puede, aunque en menor medida, originar algún tipo de deformación en cuanto al grado de dispersión. 4.3.3 Recorrido Semi-Intercuartilico Esta medida, que se basa en la posición ocupada por los 50% de los valores centrales de la distribución, es dada por: 2 13 QQ Q IS   4.3.4 Desviación Media o Promedio En teoría, la desviación puede referirse a cada una de las medidas de tendencia central: media, mediana o moda; pero el interés se suele centrar en la medida de la desviación con respecto a la media, que llamaremos desviación media. Puede definirse como la media aritmética de las desviaciones de cada uno de los valores con respecto a la media aritmética de la distribución, y de indica así: n xx DM i   Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula no distingue si la diferencia de cada valor de la variable con la media es en más o en menos. Ya se habrá advertido que esta expresión sirve para calcular la desviación media en el caso de datos sin agrupar. Ejemplo: Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de estos valores.
  • 73. 72 x xx  x 2 -3 3 2 3 3 4 -1 1 4 -1 1 4 -1 1 5 0 0 6 1 1 7 2 2 8 3 3 8 3 3 DM = 1,8 Veamos ahora cómo se calcula la desviación media en el caso de datos agrupados en intervalos. n xf DM ii donde observamos que ahora las desviaciones van multiplicadas por las frecuencias de los intervalos correspondientes. Además, las desviaciones son de cada centro, o marca de clase, a la media aritmética. Es decir, n xxf DM mi   )( Ejemplo: Para hallar la desviación media de la siguiente tabla referida a las edades de los 100 empleados de una cierta empresa: Clase fi 16-20 2 20-24 8 24-28 8 28-32 18 32-36 20 36-40 18 40-44 15 44-48 8 48-52 3
  • 74. 73 veamos cómo se procede: Clase fi xm ni * xm xx  fi  xx  16-20 2 18 36 16,72 33,44 20-24 8 22 176 24-28 8 28-32 18 32-36 20 36-40 18 40-44 18 44-48 8 48-52 3 100 DM = 6,09 Propiedades de la Desviación Media 1. Como medida de dispersión, la desviación media es superior al recorrido y la desviación cuartílica, pues toma en cuenta cada elemento, y es más simple y se ve menos afectada por la presencia de valores extremos. Por lo tanto, se usa a menudo en muestras pequeñas que incluyen valores extremos. 2. La principal deficiencia de la desviación promedio surge del hecho de que promedia los valores absolutos de las desviaciones, esto es, que no reconoce el signo de las desviaciones. Esto hace que sea menos conveniente que la desviación estándar (que se describirá en la siguiente apartado) cuando se requiere una medida de dispersión para ser usada en cálculos posteriores. 4.3.5 Varianza y Desviación Estándar Sean x1,x2,…,xk valores de la variable X, con frecuencias absolutas f1,f2,…,fk, respectivamente. La varianza muestral de x es dado por:     1 1 2 2     n Xxf SXVar k i ii
  • 75. 74 Fórmula alternativa     n Xxf SXVar k i ii   1 2 2 Si S2 = 0, entendemos que todos los xi coinciden con la media X , esto es, todas las observaciones están concentradas en un mismo punto, por lo que la dispersión es mínima (nula). La desviación estándar o típica de los valores de la variable X se define como la raíz cuadrada positiva de la varianza.   1 1     n Xxf k i ii  El valor numérico de  cuantifica el grado de dispersión de los valores de una variable con respecto a su media. Mientras mayor es la dispersión de las observaciones, mayor es la magnitud de sus desviaciones respecto a la media y por ende, más alto el valor numérico de la desviación estándar. Propiedades de la Varianza y Desviación Estándar 1. Var[X] = S2 ≥ 0; la varianza de una variable X es siempre positiva y es igual a cero cuando la variable X toma el valor constante C, esto es, Var[C] = 0 2. Var[X ± C] = Var[X] 3. Var[CX] = C2 Var[X] , C constante 4. Var[CX+b] = C2 Var[X] , C constante 5. Sean 1X y 2X las medias de dos submuestras de tamaño n1 y n2 respectivamente y sean 2 1S y 2 2S las varianzas correspondientes. La varianza de la muestra de tamaño n = n1 + n2 es dada por:         2 22 2 11 2 22 2 11 2 11 1 1 pp XXnXXnSnSn n S    donde pX es la media ponderada de 1X y 2X
  • 76. 75 6. El hecho de que la desviación estándar es matemáticamente lógica significa que puede ser satisfactoriamente utilizada en cálculos posteriores. Esta característica es la que da a la desviación estándar su gran superioridad sobre las demás medidas de dispersión. 7. La desviación estándar es de la misma naturaleza que la variable X y depende de su magnitud. 8. Para distribuciones simétricas resulta que: a) El 68.27% de los casos están comprendidos entre X - S y X + S. b) El 95.45% de los casos están comprendidos entre X - 2S y X + 2S, esto es aproximadamente 95% de los casos están situados dentro de dos unidades de desviación estándar de la media. c) El 99.73% de los casos están comprendidos entre X - 3S y X + 3S
  • 77. 76 A) Primer método abreviado Con la finalidad de reducir el volumen de operaciones en el cálculo de la varianza y desviación típica, podemos usar las fórmulas.           222 1 1 Xnxf n S ii y           22 1 1 Xnxf n ii Ejemplo Calcular la varianza y la desviación estándar de la siguiente distribución muestral. xi 5 7 8 9 11 fi 2 3 5 4 2 Solución Completando la distribución de frecuencias tenemos. xi fi fi xi fi xi 2 5 2 10 50 7 3 21 147 8 5 40 320 9 4 36 324 11 2 22 242 TOTAL 16 129 1083 Aplicando las fórmulas respectivas se tiene: 1.8 16 1291   n xf X k i ii     22.224.33 15 1 76.10491083 15 1 1 1 222           Xnxf n S ii Entonces 49.122.2 
  • 78. 77 b) Segundo método abreviado Sea tO (origen de trabajo) el valor más frecuente de la variable X o que está hacia el centro de la distribución de frecuencias, y sea: tii Oxd   ki ,...,2,1 las desviaciones de xi respecto a tO . Entonces se tiene: tii Odx  Luego:                            k i k i iiiitti k i i k i ii dndf n ddf n dOOdf nn Xxf S 1 2 1 222 1 1 2 2 1 1 1 1 1 1 1 Por tanto:           k i ii dndf n S 1 22 1 1 y           k i ii dndf n 1 22 1 1  c) Tercer método abreviado Este procedimiento es particularmente usado cuando los datos agrupados en distribuciones de frecuencias con intervalos de clase de igual amplitud C. Para calcular la varianza por este método se siguen los siguientes: Primer Paso. Se efectúa el cambio de variable de X a  , utilizando la fórmula: C Ox ti   dO n df OX t k i ii t  |