Estadística y medidas de tendencia central internet
1. Estadística – Bioestadística: Concepto, Aplicaciones,
Relación con otras Ciencias
La estadística es comúnmente considerada como una colección de hechos numéricos
expresados en términos de una relación sumisa, y que han sido recopilados a partir de
otros datos numéricos. "La estadística es una técnica especial apta para el estudio
cuantitativo de los fenómenos de masa o colectivo, cuya mediación requiere una masa
de observaciones de otros fenómenos más simples llamados individuales o particulares".
Aplicaciones de la estadística
La estadística es un potente auxiliar de muchas ciencias y actividades humanas:
sociología, sicología, geografía humana, economía, etc.
Es una herramienta indispensable para la toma de decisiones.
También es ampliamente empleada para mostrar los aspectos cuantitativos de una
situación.
La estadística está relacionada con el estudio de proceso cuyo resultado es más o menos
imprescindible y con la finalidad de obtener conclusiones para tomar decisiones
razonables de acuerdo con tales observaciones.
El resultado de estudio de dichos procesos, denominados procesos aleatorios, puede ser
de naturaleza cualitativa o cuantitativa y, en este último caso, discreta o continua.
Son muchas las predicciones de tipo sociólogo, o económico, que pueden hacerse a
partir de la aplicación exclusiva de razonamientos probabilísticos a conjuntos de datos
objetivos como son, por ejemplo, los de naturaleza demográfica.
Las predicciones estadísticas, difícilmente hacen referencia a sucesos concretos, pero
describen con considerable precisión en el comportamiento global de grandes conjuntos
de sucesos particulares. Son predicciones que, en general, no acostumbran resultar
útiles.
Para saber quien, de entre los miembros de una población importante, va a encontrar
trabajo o a quedarse sin él; o en cuales miembros va a verse aumentada o disminuida
una familia concreta en los próximos meses. Pero que, en cambio puede proporcionar
estimaciones fiables del próximo aumento o disminución de la tasa de desempleo
referido al conjunto de la población; o de la posible variación de los índices de natalidad
o mortalidad.
Su Relación con otras Ciencias:
La estadística es una rama de la matemática que se refiere a la recolección, estudio e
interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad
de disciplinas, desde la física hasta las ciencias sociales, ciencias de la salud como la
Psicología y la Medicina, y usada en la toma de decisiones en áreas de negocios e
instituciones gubernamentales.
2. La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras
ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos
indispensables para llegar a conclusiones aceptables por el resto de la comunidad
científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los
casos si no es a través de perspectivas complejas de relación entre variables, la atención
de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la
llamada Estadística Multivariante. Los diseños complejos de investigación y análisis,
las aportaciones más recientes de la informática para la aplicación de técnicas avanzadas
de manipulación de datos y la discusión de estos aspectos desde perspectivas teóricas y
aplicadas, preocupan y concentran a multitud de profesionales cuyo quehacer cotidiano
es el estudio de cómo se investiga, haciendo de ello su especialidad. Paralelamente,
otras especialidades dentro de estas ciencias utilizan el conocimiento ya elaborado y
retransmitido, preocupada más por los resultados y posibilidades que por las
condiciones de aplicación y los fundamentos de uso, de tal forma que se ha propiciado
la utilización de las técnicas estadísticas, sin considerar la adecuación de éstas a las
condiciones en las que se aplican.
La bioestadística: se ocupa de los problemas planteados dentro de las ciencias de la
vida, como la biología, la medicina, etc. y es una de las ramas de la estadística.
La aplicación y su relación con otras ciencias resultan hoy en día necesarias, en los
campos:
Salud pública, que incluye: epidemiología, nutrición, salud ambiental y en
investigación de servicios sanitarios.
Genómica y poblaciones genéticas
Medicina
Ecología
Bioensayos
La colaboración de la bioestadística ha sido clave en el desarrollo de nuevos fármacos,
en el entendimiento de enfermedades crónicas como el cáncer y el sida, y estos son
algunos de los miles de ejemplos posibles.
La estrecha relación de la Estadística con el método científico hace de la Bioestadística
una disciplina imprescindible en la mayoría de los proyectos en el área tecnológica.
El pensamiento estadístico no sólo resuelve y entiende compleja metodología para dar
respuesta a hipótesis, sino que es capaz de organizar el "sistema" que involucra la
investigación desde el diseño general, diseño de muestreo, control de calidad de la
información, análisis y presentación de resultados.
Métodos Estadísticos: Clasificación, Estadística Médica,
Estadística de Salud
La materia prima de la estadística consiste en conjuntos de números obtenidos al contar
o medir elementos. Al recopilar datos estadísticos se ha de tener especial cuidado para
garantizar que la información sea completa y correcta.
3. El primer problema para los estadísticos reside en determinar qué información y en que
cantidad se ha de reunir. En realidad, la dificultad al compilar un censo está en obtener
el número de habitantes de forma completa y exacta; de la misma manera que un físico
que quiere contar el número de colisiones por segundo entre las moléculas de un gas
debe empezar determinando con precisión la naturaleza de los objetos a contar. Los
estadísticos se enfrentan a un complejo problema cuando, por ejemplo, toman una
muestra para un sondeo de opinión o una encuesta electoral. El seleccionar una muestra
capaz de representar con exactitud las preferencias del total de la población no es tarea
fácil.
Para establecer una ley física, biológica o social, el estadístico debe comenzar con un
conjunto de datos y modificarlo basándose en la experiencia. Por ejemplo, en los
primeros estudios sobre crecimiento de la población, los cambios en el número de
habitantes se predecían calculando la diferencia entre el número de nacimientos y el de
fallecimientos en un determinado lapso. Los expertos en estudios de población
comprobaron que la tasa de crecimiento depende sólo del número de nacimientos, sin
que el número de defunciones tenga importancia. Por tanto, el futuro crecimiento de la
población se empezó a calcular basándose en el número anual de nacimientos por cada
1.000 habitantes. Sin embargo, pronto se dieron cuenta que las predicciones obtenidas
utilizando este método no daban resultados correctos. Los estadísticos comprobaron que
hay otros factores que limitan el crecimiento de la población. Dado que el número de
posibles nacimientos depende del número de mujeres, y no del total de la población, y
dado que las mujeres sólo tienen hijos durante parte de su vida, el dato más importante
que se ha de utilizar para predecir la población es el número de niños nacidos vivos por
cada 1.000 mujeres en edad de procrear. El valor obtenido utilizando este dato mejora al
combinarlo con el dato del porcentaje de mujeres sin descendencia. Por tanto, la
diferencia entre nacimientos y fallecimientos sólo es útil para indicar el crecimiento de
población en un determinado periodo de tiempo del pasado, el número de nacimientos
por cada 1.000 habitantes sólo expresa la tasa de crecimiento en el mismo periodo, y
sólo el número de nacimientos por cada 1.000 mujeres en edad de procrear sirve para
predecir el número de habitantes en el futuro.
La estadística se puede clasificar en dos grandes ramas:
* Estadística descriptiva o deductiva.
* Estadística inferencial o inductiva.
La primera se emplea simplemente para resumir de forma numérica o gráfica un
conjunto de datos. Se restringe a describir los datos que se analizan. Si aplicamos las
herramientas ofrecidas por la estadística descriptiva a una muestra, solo nos limitaremos
a describir los datos encontrados en dicha muestra, no se podrá generalizar la
información hacia la población. La estadística inferencial permite realizar conclusiones
o inferencias, basándose en los datos simplificados y analizados de una muestra hacia la
población o universo. Por ejemplo, a partir de una muestra representativa tomada a los
habitantes de una ciudad, se podrá inferir la votación de todos los ciudadanos que
cumplan los requisitos con un error de aproximación. un orden de magnitud natural
(cuantitativas), o simplemente un atributo no sometido a cuantificación (cualitativa).
Una variable es medida utilizando una escala de medición. La elección de la(s) escala(s)
de medición a utilizar depende, en primer lugar, del tipo de variable en estudio, y,
4. además, del manejo estadístico a la que se someterá la información. En términos
prácticos, existe una correspondencia directa entre el concepto de variable y escala de
medición.
Estadísticas de Salud:
Dada la necesidad de bibliografía para la asignatura Informática Medica II se concibió
este Material de Apoyo a la Docencia cuyo contenido forma parte del programa
analítico de la asignatura. En el mismo se expone el sumario siguiente: Estadísticas
utilizadas en el campo de la salud: Estadísticas vitales (natalidad y mortalidad),
Estadísticas de morbilidad, Estadísticas de recursos y servicios y Estadísticas de higiene
y saneamiento. Medidas de fecundidad. Principales conceptos: Fecundidad, Fertilidad y
Natalidad. Medidas de mortalidad: Principales conceptos: Mortalidad infantil y sus
componentes, Mortalidad materna, Mortalidad perinatal y neonatal. Mortalidad General.
Medidas de morbilidad. Principales conceptos: Incidencia, Prevalencia, Letalidad,
Morbilidad conocida y desconocida.
Fuentes de Información de estadísticas Vitales: Primaria
y Secundaria
Fertilidad: Es el aspecto potencial del desarrollo de una población, expresa la capacidad
física de procreación.
Fecundidad: Es el aspecto real del desarrollo de una población, expresa la capacidad
real de reproducirse de una población.
Nacido Vivo: Es el producto de la concepción que cualquiera que sea la duración del
embarazo, sea expulsado o extraído completamente del seno materno, siempre que
después de esa expulsión o extracción manifieste cualquier signo de vida.
Tasas relacionadas con la natalidad
El estudio de la natalidad está relacionado con el número de nacimientos ocurridos en
una población y tiempo determinados, así como la distribución que siguen de acuerdo
con ciertas características. Como ves, todo gira en torno a la medición de la misma, y
una de las formas de conseguirlo es utilizando las tasas.
El concepto de población en estadística va más allá de lo que comúnmente se conoce
como tal. Una población se precisa como un conjunto finito o infinito de personas u
objetos que presentan características comunes.
"Una población es un conjunto de todos los elementos que estamos estudiando, acerca
de los cuales intentamos sacar conclusiones". Levin&Rubin (1996).
"Una población es un conjunto de elementos que presentan una característica común".
Cadenas (1974).
El tamaño que tiene una población es un factor de suma importancia en el proceso de
investigación estadística, y este tamaño vienen dado por el número de elementos que
5. constituyen la población, según el número de elementos la población puede ser finita o
infinita. Cuando el número de elementos que integra la población es muy grande, se
puede considerar a esta como una población infinita, por ejemplo; el conjunto de todos
los números positivos. Una población finita es aquella que está formada por un limitado
número de elementos, por ejemplo; el número de estudiante del Núcleo San Carlos de la
Universidad Nacional Experimental Simón Rodríguez.
Cuando la población es muy grande, es obvio que la observación de todos los elementos
se dificulte en cuanto al trabajo, tiempo y costo necesario para hacerlo. Para solucionar
este inconveniente se utiliza una muestra estadística.
Es a menudo imposible o poco práctico observar la totalidad de los individuos, sobre
todos si estos son muchos. En lugar de examinar el grupo entero llamado población o
universo, se examina una pequeña parte del grupo llamada muestra.
Muestra:
"Se llama muestra a una parte de la población a estudiar que sirve para representarla".
Murria R. Spiegel (1991).
"Una muestra es una colección de algunos elementos de la población, pero no de todos".
Levin&Rubin (1996).
"Una muestra debe ser definida en base de la población determinada, y las conclusiones
que se obtengan de dicha muestra solo podrán referirse a la población en referencia",
Cadenas (1974).
El estudio de muestras es más sencillo que el estudio de la población completa; cuesta
menos y lleva menos tiempo. Por último se aprobado que el examen de una población
entera todavía permite la aceptación de elementos defectuosos, por tanto, en algunos
casos, el muestreo puede elevar el nivel de calidad.
Una muestra representativa contiene las características relevantes de la población en las
mismas proporciones que están incluidas en tal población.
Los expertos en estadística recogen datos de una muestra. Utilizan esta información
para hacer referencias sobre la población que está representada por la muestra. En
consecuencia muestra y población son conceptos relativos. Una población es un todo y
una muestra es una fracción o segmento de ese todo.
Muestreo:
Esto no es más que el procedimiento empleado para obtener una o más muestras de una
población; el muestreo es una técnica que sirve para obtener una o más muestras de
población.
Este se realiza una vez que se ha establecido un marco muestral representativo de la
población, se procede a la selección de los elementos de la muestra aunque hay muchos
diseños de la muestra.
6. Al tomar varias muestras de una población, las estadísticas que calculamos para cada
muestra no necesariamente serían iguales, y lo más probable es que variaran de una
muestra a otra.
Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales
encargadas de tal fin.
En la práctica, es aconsejable utilizar fuentes de datos primarias y en última instancia
cuando estas no existan, usar estadísticas de fuentes secundarias. Con este último tipo
no debemos pasar por alto que la calidad de las conclusiones estadísticas depende en
grado sumo de la exactitud de los datos que se recaben. De Nanda serviría usar técnicas
estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas no
son aplicadas a datos adecuados o confiables.
Cuando un investigador quiere obtener datos estadísticos relativo a un estudio que desea
efectuar, puede elegir entre una fuente primaria o en su defecto, una secundaria. O
recopilar los datos por sí mismo. La posibilidad mencionada en último término podrá
deberse bien a la inexistencia de los datos o bien a que esto no se encuentra
discriminado en la forma requerida.
Instrumento y Métodos de Recolección de Datos:
Elaboración e interpretación de la Información
Método para la recolección de datos:
En estadística se emplean una variedad de métodos distintos para obtener información
de los que se desea investigar. Discutiremos aquí los métodos más importantes,
incluyendo las ventajas y limitaciones de estos.
La entrevistapersonal: los datos estadísticos necesarios para una investigación, se
reúnen frecuentemente mediante un proceso que consiste en enviar un entrevistador o
agente, directamente a la persona investigada. El investigador efectuará a esta persona
una serie de preguntas previamente escritas en un cuestionario o boleta, donde anotará
las respuestas correspondientes. Este procedimiento que se conoce con el nombre de
entrevista personal, permite obtener una información más veraz y completa que la que
proporcionan otros métodos, debido a que al tener contacto directo con la persona
entrevistada, el entrevistador podrá aclarar cualquier duda que se presente sobre el
cuestionario o investigación.
Otra ventaja es la posibilidad que tienen los entrevistadores de adaptar el lenguaje de las
preguntas al nivel intelectual de las personas entrevistadas.
Una de las desventajas de este método se debe a que si el entrevistador no obra de buena
fe o no tiene un entrenamiento adecuado, puede alterar las respuestas por las personas
entrevistadas.
Otra desventaja es su alto costo, ya que resulta bastante oneroso el entrenamiento de los
agentes o entrenadores y los supervisores de estos, sobre todo si se trata de una
investigación extensa.
7. Cuestionarios por correo: consiste en enviar por correo el cuestionario acompañado por
el instructivo necesario, dando en este no solo las instrucciones pertinentes para cada
una de las preguntas, sino también una breve explicación del objeto de la encuesta con
el fin de evitar interpretaciones erróneas.
Una de las ventajas es que tienen un costo muy inferior al anterior procedimiento,
puesto que no hay que incluir gastos de entrenamiento de personal, el único gasto sería
el de franqueo postal.
Dentro de las desventajas de este procedimiento podemos señalar que solo un porcentaje
bastante bajo de estos es devuelto, en algunos casos no estamos seguros de que los
formularios hayan sido recibidos por sus destinatarios y que hayan sido respondido por
ellos mismos. Lo que trae como consecuencia que la información se obtenga con una
serie de errores difíciles de precisar por el investigador.
Entrevista por teléfono: como lo indica su nombre, este método consiste en telefonear a
la persona a entrevistar y hacerle una serie de preguntas. Este método es bastante simple
y económico, ya que el entrenamiento y supervisión de las personas encargadas de
efectuar las preguntas es siempre fácil.
Entre las limitaciones que presenta este método podemos señalar el número de
preguntas que pueden formularse es relativamente limitado; además las investigaciones
efectuadas por este método tienen un carácter selectivo, debido a que muchas de las
personas que potencialmente podrían ser investigadas no posee servicio telefónico, por
lo que quedan sin la posibilidad de ser entrevistados.
Instrumentos para la recolección de datos:
Cuestionarios:
Cualquiera que sea el método por el que se decida el investigador para recabar
información, es necesario elaborar un estudio de preguntas.
Los cuestionarios en general, constan de las siguientes partes:
La identificación del cuestionario: nombre del patrocinante de la encuesta, (oficial o
privada), nombre de la encuesta, número del cuestionario, nombre del encuestador,
lugar y fecha de la entrevista.
Datos de identificación y de carácter social del encuestado: apellidos, nombres, cédula
de identidad, nacionalidad, sexo, edad o fecha de nacimiento, estado civil, grado de
instrucción, ocupación actual, ingresos, etc.
Datos propios de la investigación, son los datos que interesa conocer para construir el
propósito de la investigación.
Como es natural, estas partes, así como las preguntas, varían de acuerdo a la finalidad
de la encuesta. En algunos tipos de investigación, la parte referente a los datos
personales es eliminada por no tener ningún tipo de interés para el estudio.
8. Consideraciones que debemos tomar en cuenta:
El cuestionario debe ser conciso; tratar en lo posible de que con el menor número de
preguntas, se obtenga la mejor información.
Claridad de la redacción; evitar preguntas ambiguas o que sugieran respuestas
incorrectas, por lo que deben estar formuladas las preguntas de la forma más sencilla.
Discreción: un cuestionario hecho a conciencia, no debe tener preguntas indiscretas o
curiosas, sobre datos personales que puedan ofender al entrevistado.
Facilidad de contestación: se deben evitar, en lo posible, las preguntas de respuestas
libres o abiertas y también la formulación de preguntas que requieran cálculos
numéricos por parte del entrevistado.
Orden de las preguntas: estas deben tener una secuencia y un orden lógico, agruparlas
procurando que se relacionen unas con otras.
Series o distribuciones estadísticas:
Anteriormente hemos señalado que la estadística, no se encarga del estudio de un hecho
aislado, sino que tienen por objeto de los colectivos. Pues bien cuando se realiza una
investigación se obtiene una masa de datos que deben ser organizados para disponerlos
en un orden, arreglo o secuencia lógica, con el fin de facilitar el análisis de los mismos
esta colección de datos numéricos obtenidos de la observación, que se clasifican y
ordenan según un determinado criterio, se denominan "series estadísticas", también
conocidas como "distribución estadística".
Clasificación de las series estadísticas:
Series temporales o cronológicas; estas se definen como una masa o conjunto de datos
producto de la observación de un fenómeno individual o colectivo, cuantificable en
sucesivos instantes o periodos de tiempo.
ESTADISTICA DESCRIPTIVA
Resumen Capítulo 1 del Libro
Estadística Descriptiva: Puede definirse como aquellos métodos que incluyen la
recolección, presentación y caraterización de un conjunto de datos con el fin de
describir apropiadamente las diversas características de ese conjunto.
Estadística Inferencial: Puede definirse como aquellos métodos que hacen
posible la estimación de una característica de una población o la toma de una
decisión referente a una población basándose sólo en los resultados de una
muestra.
9. Para aclara este concepto se necesitan de las siguientes definiciones:
Población: es la totalidad de elementos o cosas bajo consideración.
Muestra: Es la porción de la población que se selecciona para su análisis.
Parámetro: Es una medida de resumen que se calcula para describir una
característica de toda una población.
Estadística: Es una medida que se calcula para describir una característica de una
sola muestra de la población.
Podemos encontrar dos tipos de estudios estadísticos que se emprenden: los estudios
enumerativos y los estudios analíticos.
Los estudios enumerativos involucran la toma de decisiones respecto a una población
y/o sus características.
Los estudios analíticos involucran realizar alguna actividad sobre un proceso para
mejorar el desempeño en el futuro. La atención de un estudio analítico está puesta sobre
la predicción del comportamiento futuro de un proceso y sobre la comprensión y
perfeccionamiento de ese proceso. En un estudio analítico no existe un universo
identificable, como sucede en un estudio enumerativo y en consecuencia tampoco hay
un marco.
2. Resumen Capítulo 2 del Libro
Recolección de Datos
La necesidad de datos: los datos se necesitan para:
1. Proporcionar la introducción imprescindible para un estudio de investigación.
2. Medir el desempeño en un servicio o proceso de producción en curso.
3. Ayudar en la formulación de cursos alternativos de acción en un proceso de
toma de decisiones.
4. Satisfacer nuestra curiosidad.
¿Que es un dato?
Los datos pueden concebirse como información numérica necesaria para ayudarnos a
tomar una decisión con más bases en una situación particular.
¿Cómo obtenemos los datos?
Existen muchos métodos mediante los cuales podemos obtener los datos necesarios.
Primero, podemos buscar datos ya publicados por fuentes gubernamentales, industriales
o individuales. Segundo, podemos diseñar un experimento. En tercer lugar, podemos
conducir un estudio. Cuarto, podemos hacer observaciones del comportamiento,
actitudes u opiniones de los individuos en los que estamos interesados.
Utilización de fuentes de datos publicadas
Sin importar la fuente utilizada, se hace una distinción entre el recolector original de los
datos y la organización o individuos que compilan éstos en tablas y diagramas. El
recolector de datos es la fuente primaria; el compilador de los datos es la fuente
secundaria.
10. Diseño de un experimento
En un experimento se ejerce control sobre el tratamiento de los dado a los participantes.
Conducción de una encuesta
Aquí no se ejerce ningún control sobre el comportamiento de la gente encuestada.
Simplemente se formulan preguntas respecto a sus opiniones, actitudes,
comportamiento y otras características.
Realización de un estudio observacional
El investigador observa el comportamiento de interés directamente, por lo común en su
entorno natural.
La importancia de obtener buenos datos: GIGO
GIGO: Entra Basura, sale basura. No importa el método utilizado para obtener los
datos, si un estudio ha de ser útil, si el desempeño debe controlarse apropiadamente o si
el proceso de la toma de decisiones debe ampliarse, los datos recabados deben ser
válidos: es decir, las respuestas correctas deben valorarse de manera que se obtengan
mediciones significativas.
Obtención de datos mediante investigación de encuesta
Tipos de datos
Existen básicamente dos tipos de variables aleatorias que producen dos tipos de datos:
categóricas y numéricas. Las variables aleatorias categóricas producen respuestas
categóricas, mientras que las variables numéricas producen respuestas numéricas. Las
variables numéricas pueden considerarse como discretas o continuas. Los datos
discretos son respuestas numéricas que surgen de un proceso de conteo, mientras que
los datos continuos son respuestas numéricas que surgen de un proceso de medición.
La necesidad de definiciones operacionales. Una definición operacional proporciona un
significado a un concepto o variable que puede comunicarse a otros individuos. Es algo
que tiene el mismo significado ayer, hoy y mañana para todos los individuos.
Diseño del cuestionario
El objetivo de un cuestionario es permitirnos recabar información significativa que nos
ayude en el proceso de toma de decisiones.
Selección de temas amplios - Longitud del cuestionario
Los amplios temas de los cuestionarios deben enumerarse. Mientras más largo sea el
cuestionario, menor será el cociente de respuesta. Por tanto, se deben evaluar
cuidadosamente las preguntas. Las preguntas deben ser lo más cortos posibles.
Modo de Respuesta
Existen tres modos mediante los cuales se realiza el trabajo de encuesta: la entrevista
persona, telefónica y por medio del correo. La personal es la que tiene una tasa de
respuesta mayor, pero es más costosa.
Formulación de preguntas
11. Cada pregunta debe presentarse claramente en el menor número de palabras y cada
pregunta debe considerarse esencial para la encuesta. Además, deben ser libres de
ambigüedades.
Prueba del cuestionario
Una vez analizadas los pros y contras de cada pregunta se debe realizar una prueba
piloto de manera que puedan examinarse en cuanto a claridad y longitud.
Elección del tamaño de muestra para la encuesta
Existen tres razones para extraer una muestra. Antes que todo, por lo general lleva
demasiado tiempo realizar un censo completo. En segundo lugar, es demasiado costoso
hacer un censo completo. Tercero, es demasiado molesto e ineficiente obtener un conteo
completo de la población objeto
Selección de los sujetos respondientes: tipos de muestras
Existen básicamente dos tipos de muestras: las muestra no probabilística y la muestra de
probabilidad.
Una muestra de probabilidad es aquella en la que los sujetos de la muestra se eligen
sobre la base de probabilidades conocidas.
En una muestra aleatoria simple cada individuo o elemento tiene la misma oportunidad
de selección que cualquier otro, y la selección de un individuo o elemento particular no
afecta la probabilidad de que se elija cualquier otro.
Extracción de la muestra aleatoria simple
La clave de la selección de muestras apropiada es obtener y mantener una lista
actualizada de todos los individuos o elementos de los cuales se extraerá la muestra. Tal
lista se conoce como el marco de la población. Este listado de población servirá como la
población objetivo, de tal manera que si se extrajeran muchas muestrasde
probabilidades diferentes de tal lista, en el mejor de los casos cada muestra sería una
representación de la población.
- Muestreo con o sin reemplazo de poblaciones finitas
Para seleccionar la muestra pueden usarse dos métodos básicos: con reemplazo o sin
reemplazo. Digamos que N representa la población y n la muestra. Al extraer con
reemplazo la probabilidad de cualquier miembro de la población de ser seleccionado en
la primera extracción es 1/N. La probabilidad de ser seleccionado en otra extracción
sigue siendo 1/N debido a que una vez registrado el dato, el individuo seguirá formando
parte de la población.
Sin embargo, al muestrear poblaciones humanas generalmente se considera más
apropiado tener una muestra de persona diferentes que permitir mediciones repetidas de
la misma persona. La probabilidad en este caso es 1/N en la primera extracción. La
probabilidad de que cualquier individuo no seleccionado previamente sea seleccionado
en la segunda extracción es 1/N-1.
La encuesta de la muestra
El primer pasa para evaluar una encuesta es determinar si se basó en una muestra de
probabilidad o en una no probabilístico.
Aun cuando las encuestas emplean métodos de muestreo de probabilidad aleatorios,
están sujetas a errores potenciales. Existen cuatro tipo de errores de encuesta:
12. 1 - Error de cobertura o sesgo de selección. Este error resulta de la exclusión de ciertos
sujetos del listado de población, de tal manera que no tienen oportunidad de ser
seleccionados en la muestra. El error de cobertura provoca el sesgo de selección.
2- Error de no-respuesta o sesgo de no-respuesta. El error de no-respuesta resulta del
fracaso de recolectar datos sobre todos los sujetos de la muestra. Y el error de no-
respuesta da como resultado el sesgo de no-respuesta.
3- Error de Muestreo. Este error refleja la heterogeneidad o las diferencias de
oportunidad de muestra a muestra basándose en la probabilidad de los sujetos que están
siendo seleccionados en las muestras particulares. El error de muestreo puede reducirse
tomando tamaños de muestra mayores, aunque esto incrementará el costo de aplicación
de la encuesta.
4- Error de Medición. Este error se refiere a inexactitudes en las respuestas registradas
que ocurren debido a una mala formulación de las preguntas, el efecto de un
entrevistados sobre el encuestado o el esfuerzo hecho por el encuestado.
Organización y Resumen de Datos
Organizacion, Resumen Y Presentacion De Datos Estadisticos
Conceptos que deben reforzarse
POBLACION: es el conjunto formado por todas las unidades elementales que
proporcionarán las mediciones de interés. Pueden ser personas, cosas, objetos
abstractos.
CENSO: Cuando se estudia la totalidad de las unidades elementales que componen la
población.
Desventaja: errores de observación. Ej.: omisiones, duplicaciones, no-ubicación (no
medibles) del encuestado, volumen de información
MUESTRA: se estudia una parte representativa de la población
Desventaja: errores de observación (no medibles) errores de estimación (medible,
cuantificable)
LOS DATOS ESTADISTICOS SON VARIABLES, SU RESULTADO VARIA DE
UNA MEDICION A OTRA.
Debido a ello a los datos estadísticos los denominamos VARIABLES.
Según se vio, las Variables se clasifican en:
Categóricas Ordinales o Nominales Y Numéricas Discretas o Contínuas.
Caso Sr. Juárez
Problema: " Aumento en el índice de rotación de cobranzas".
Población: Todos los clientes que compran a crédito al señor Juárez en el local
A o B.
Supuestos: - Dos Locales A y B.
Datos del último mes.
Muestra Local A: 60 clientes; Local B: 78 clientes.
Hipótesis de Trabajo:
Deudores del local A necesitan menos tiempo para pagar.
Situación económica de los clientes peor þ nosotros > plazo de financiación.
Locales poseen precios > competencia.
Mal sistema de cobros en cuenta corriente.
Para Cada hipótesis se debe tomar una variable a analizar.
13. Variable a Utilizar en nuestro Caso: " Cantidad de días transcurridos entre la
confección de la factura y el efectivo cobro de la misma.
Definiciones operacionales:
N= Tamaño de la población.
n= Tamaño de la muestra.
Yi = Variable a analizar
El tamaño de muestra es independiente del tamaño de la población.
Distribución de frecuencia:
fi: frecuencia absoluta.
Fi: frecuencia absoluta acumulada.
hi: frecuencia relativa ( cociente entre frecuencia absoluta y la muestra/población ).
Hi: frecuencia relativa acumulada.
El 21,7 % de los clientes del local A pagan el día 20. En el local minorista hay pocos
que pagan los primeros días y pocos los que pagan el último día.
Para comparar se trabaja con frecuencias relativas (cuando los tamaños de muestra son
distintos).
23/03/01
Práctico
Ejercicio 2.35 - Página 49
n = 1425
Objetivo: " Medir el grado de satisfacción de los clientes que compraron una
videograbadora en los últimos 12 meses.
a. Población: Todos los clientes que compraron una videograbadora en los últimos
12 meses.
b. Preguntas cualitativas:
1. ¿Qué le pareció el producto?
2. - Excelente.
- Muy Bueno.
- Bueno.
- Malo.
- Si.
- No.
3. Recomendaría el Producto.
4. Compraría nuestra marca o producto.
Si.
No.
14. Preguntas Cuantitativas.
1. ¿ Cuantas veces usó el servicio técnico?
Ninguna.
Una.
Dos.
Más de dos.
1. Diseño y funcionamiento. Califique de uno a diez
2. ¿ Cuántas marcas analizó antes de decidir por Xenith?
3. ¿Cuántos productos Xenith posee Ud.?
Ejercicio 3.8 - Pagina 61
b) Diagrama de Tallo y Hoja SPSS lo hace en forma automática.
Yi= Segundos que tarda un automóvil de llegar de 0 a 60 Mph.
Autos Alemanes
Tallo Hoja
4 9
5 5 4 1
6 4 9 4 7 0 9
7 9 1 5
8 6 7 3 5 5 8 9
9
10 0 9
27/03/01
Construcción de Gráficos
Nombrar los ejes.
Título del gráfico.
Fuente de datos.
Ejercicio 3.70 - Pagina 95
Yi fi hi Fi Hi
1,00 1 0,03 1 0,03
1,50 2 0,07 3 0,10
2,00 3 0,10 6 0,20
15. 2,50 2 0,07 8 0,27
3,00 6 0,20 14 0,47
3,50 5 0,17 19 0,63
4,00 2 0,07 21 0,70
4,50 2 0,07 23 0,77
5,00 3 0,10 26 0,87
5,50 1 0,03 27 0,90
6,00 1 0,03 28 0,93
6,50 1 0,03 29 0,97
7,00 1 0,03 30 1,00
30 1,00
Yi = $ de cada manómetro.
fi = cantidad de veces que se repite la variable.
En este caso se supone que la variable es discreta.
Construcción de Intervalos
Intervalos sirve en especial para variables continuas
Ry = Y max - Y min = Recorrido = Amplitud = Rango
Ry = 7.5 - 1 = 6.5
Cantidad de intervalos 4
C= Amplitud del intervalo = Ry / Cantidad de intervalos = 6.5/4 = 1.625
C = Valor entero = 2
Ry* = c x cantidad de intervalos = 2 x 4 = 8
Yi-1 - Yi Yi fi hi
1 - 3 2 8 0.27
3 - 5 4 15 0.50
5 - 7 6 6 0.20
7 -9 8 1 0.03
30 1
Construcción del intervalo del Caso Juárez.
R = 38 - 14 = 24
Cantidad de Intervalos = 7
Amplitud = Ry / c = 3.43 = 4
3. Resumen Capítulo 3 del Libro
Presentación de datos numéricos en tablas y diagramas
Una distribución de frecuencia es una tabla de resumen en la que los datos se disponen
16. en agrupamientos o categorías convenientemente establecidas de clases ordenadas
numéricamente.
En esta forma las características más importantes de los datos se aproximan muy
fácilmente, compensando así el hecho de que cuando los datos se agrupan de ese modo,
la información inicial referente a las observaciones individuales de que antes se disponía
se pierde a través del proceso de agrupamiento o condensación.
Al construir la tabla de frecuencia-distribución, debe ponerse atención a:
1. Seleccionar el número apropiado de agrupamientos de clase para la tabla.
2. Obtener un intervalo o ancho de clase de cada agrupamiento de clase.
3. Establecer los límites de cada agrupamiento de clase para evitar los traslapes.
Selección del Número de Clases
La distribución de frecuencia debe tener al menos cinco agrupamiento de clase, pero no
más de 15. Si no hay suficientes agrupamientos de clase o si hay demasiados, se
obtendrá poca información.
Obtención de los intervalos de clase
Ancho del intervalo Rango
número de agrupamientos de clase deseado
La principal ventaja de usar una de estas tablas de resumen es que las principales
características de los datos se hacen evidentes inmediatamente para el lector.
La principal desventaja de tal tabla de resumen es que no podemos saber como se
distribuyen los valores individuales dentro de un intervalo de clase particular sin tener
acceso a los datos originales. El punto medio de la clase, sin embargo, es el valor usado
para representar todos los datos resumidos en un intervalo particular.
El punto medio de una clase (o marca de clase) es el punto a la mitad de los límites de
cada clase y es representativo de los datos de esa clase.
Tabulación de datos numéricos: la distribución de frecuencia relativa y distribución de
porcentaje
La distribución relativa de frecuencia se forma dividiendo las frecuencias de cada clase
de distribución de frecuencia entre el número total de observaciones. Entonces puede
formarse una distribución de porcentaje multiplicando cada frecuencia relativa o
proporción entre 100.
La distribución de frecuencia relativa o la distribución de porcentaje se vuelve esencial
siempre que una serie de datos se compara con otra seria de datos, especialmente si
difiere el número de observaciones en cada serie de datos.
Graficación de datos numéricos: el histograma y el polígono
Histogramas
Los histogramas son diagramas de barras verticales en los que se construyen barras
rectangulares en los límites de cada clase. La variable aleatoria o fenómeno de interés se
despliega a lo largo del eje horizontal; el eje vertical representa el número, proporción o
porcentaje de observaciones por intervalo de clase, dependiendo de si el histograma
particular, es un histograma de frecuencia, un histograma de frecuencia relativa o
histograma de porcentaje
17. Al comparar dos o más series de datos, ni los diagramas de tallo y hoja ni los
histogramas pueden construirse en la misma gráfica. Con respecto a estos últimos, la
sobreposición de barras verticales de uno en el otro ocasionaría dificultades de
interpretación; en estos casos se usan los polígonos.
Polígonos
El polígono de porcentaje se forma permitiendo que el punto medio de cada clase
represente los datos de esa clase y luego conectando la sucesión de puntos medios con
sus respectivos porcentajes de clase.
Distribuciones acumulativas y polígonos acumulativos
Una tabla de distribución de porcentaje acumulativo se construye registrando primero
los límites inferiores de cada clase a partir de la distribución de porcentaje y luego
insertando un límite extra al final.
Polígono de porcentaje acumulativo
Para construir un polígono de porcentaje acumulativo (también llamado ojiva), el
fenómeno se grafica en el eje horizontal, mientras que los porcentajes acumulativos se
grafican en el eje vertical.
4. Resumen Capítulo 4 del Libro
Resumen y descripción de los datos numéricos
Propiedades de los datos numéricos.
Las tres mejores propiedades que describe una serie numérica de datos son:
1. Tendencia central
2. Variación
3. Forma
Si estas mediciones se calculan a partir de una muestra, se denominan estadísticas, si se
calculan a partir de los datos de una población se denominan parámetros.
Mediciones de tendencia Central
La media aritmética, es el promedio. Se calcula sumando todas las
observaciones y luego dividiendo el total entre el número de elementos
involucrados.
La media actúa como punto de equilibrio de tal forma que las observaciones menores
compensan a las observaciones que son mayores.
La media aritmética se ve afectada en gran medida por valores extremos.
La mediana. Es el valor medio de una secuencia ordenada de datos. Si no hay
empates, la mitad de las observaciones serán menores y la otra mitad serán
mayores. La mediana no se ve afectada por valores extremos. Para calcular la
mediana, primero se deben poner los datos en orden. Después usamos la fórmula
del punto de posicionamiento.
18. El cálculo del valor de la media se ve afectado por el número de observaciones, no por
la magnitud de cualquier extremo.
La moda. Es el valor de una serie de datos que aparece con más frecuencia. La
moda no se ve afectada por la ocurrencia de cualquier valor extremo.
Cuartiles. Los cuartiles sonmediciones descriptivas que dividen los datos
ordenados en cuatro cuartos.
Mediciones de la Variación
La variación es la cantidad de dispersión o propagación en los datos.
El rango: es la diferencia entre la mayor y la menor observación en una serie de
datos. El rango mide la propagación total en la serie de datos. La debilidad del
rango es que no logra tomar en cuenta la forma en que los datos se distribuyen
realmente entre el mayor y el menor valor. Sería impropio usar el rango como
una medición cuando uno de o ambos componentes son observaciones extremas.
El rango intercuartil: es la diferencia entre el tercer y primer cuartil. No se ve
influida por valores extremos.
La varianza y la desviación estándar: a diferencia de las mediciones anteriores la
varianza y la desviación estándar toman en cuenta como se distribuyen las
observaciones. La Varianza de muestra es el promedio de las diferencias
cuadradas entre cada una de las observaciones de una serie de datos y la media.
La desviación estándar es simplemente la raíz cuadrada de la varianza. La
varianza y la desviación miden la dispersión promedio alrededor de la media, es
decir, como las observaciones mayores fluctúan por encima de ésta y como las
observaciones menores se distribuyen por debajo de ésta.
El Coeficiente de Variación: es una medida relativa de variación. Se expresa
como porcentaje antes que en términos de las unidades de los datos particulares.
Mide la dispersión en los datos relativa a la media.
El coeficiente de variación es útil al comparar la variabilidad de dos o más series de
datos que se expresan en distintas unidades de medición.
Forma
Para describir la forma sólo necesitamos comparar la media y la mediana. Si estas dos
mediciones son iguales, por lo general podemos considerar que los datos son simétricos.
Si la media excede a la mediana, los datos pueden describirse de sesgo positivo o
sesgadas a la derecha. Si la media es excedida por la mediana, estos datos pueden
llamarse de sesgo negativo o sesgadas a la izquierda. El sesgo positivo surge cuando la
media se incrementa en algunos valores inusualmente altos, el sesgo negativo ocurre
cuando la media se reduce en algunos valores extremadamente bajos.
Cálculo de mediciones descriptivas de resumen de una población
Las mediciones de tendencia central para una población se calculan igual que en la
muestra simplemente reemplazamos n por N.
El rango y el rango intercuartil para una población de tamaño N se obtienen como si
fuera una muestra reemplazando n por N. La varianza se calcula reemplazando el ( n - 1
) del denominador por N.
19. Uso de la Desviación Estándar: La regla Empírica
En series de datos simétricos, donde la mediana y la media son iguales, las
observaciones tienden a distribuirse igualmente alrededor de estas mediciones de
tendencia central. Cuando el sesgado extremo no se presenta y tal agrupamiento se
observa en una serie de datos, podemos usar la denominada regla empírica para
examinar la propiedad de variabilidad de datos y obtener una mejor idea de lo que la
desviación estándar está midiendo.
La regla empírica establece que en la mayoría de las series de datos encontraremos que
aproximadamente dos de cada tres observaciones (es decir, el 67%), están contenidas en
una distancia de una desviación estándar alrededor de la media y aproximadamente 90%
a 95% de las observaciones están contenidas a una distancia de 2 desviaciones estándar
alrededor de la media.
Uso de la desviación estándar: La regla de BienayméChebyshev
No importa como se distribuyen los datos. el porcentaje de las distribuciones están
contenidas dentro de las dsitancias de k desviaciones estándar alrededor de la media
debe ser al menos
1 - 1 / k2
Al menos 75% de las observaciones deben estar contenidas dentro de distancias de +/-2
desviaciones estándar alrededor de la media. Al menos 88,89% de las observaciones
deben estar contenidas dentro de una distancia de +/-3 desviaciones estándar alrededor
de la media. Al menos 93.75% de las observaciones deben estar contenidas dentro de
distancias de +/-4 desviaciones estándar alrededor de la media.
5. Resumen Capítulo 5 del Libro
Presentación de datos categóricos en tablas y diagramas
Graficación de datos categóricos: de barras, de pastel y de punto
Gráfica de barras
En la gráfica de barras, cada categoría se describe mediante una barra, cuya longitud
representa la frecuencia o porcentaje de observaciones que caen en una categoría. Para
construir una gráfica de barras se hacen las siguientes sugerencias:
1. Las barras deben construirse horizontalmente.
2. Todas las barras deben tener el mismo ancho.
3. Los espacios entre las barras deben variar entre la mitad
4. del ancho de una barra hasta el ancho de una barra.
5. Las escalas y guías son auxiliares útiles en la lectura
6. de una gráfica y deben incluirse. El punto cero u origen debe indicarse.
7. Los ejes deben etiquetarse.
Gráfica de Pastel
Gráfica de Puntos
20. Graficación de datos categóricos: el Diagrama de Pareto.
El diagrama de Pareto es un tipo especial de gráfica de barras verticales en la que las
respuestas categórizadas se grafican en el orden de rango descendiente de sus
frecuencias y se combinan con un polígono acumulativo en la misma escala. El
principio básico detrás de este dispositivo gráfico es su capacidad de distinguir los
"pocos vitales" de los "muchos triviales".
Tabulación de datos categóricos: Tabla de contingencias y supertablas.
Las tablas de contingencia se usan para examinar las respuestas a dos variables
categóricas simultáneamente.
Supertablas. Una supertabla es esencialmente una colección de tablas de contingencia,
cada una con las mismas variables y categorías de columna. Sin embargo, se incluyen
tantas variables de fila como se deseen para comparaciones frente a la variable de
columna.
Tipos de Gráficos
Medidas Estadísticas.
Medidas Estadísticas descriptivas.
Variables Numéricas:
Medidas de posición.
Media.
Mediana.
Moda.
Cuartiles.
Medidas de Variación.
Rango.
Rango Medio.
Varianza.
Desvío Estándar.
Coeficiente de variación.
DEFINICION DE ESTADISTICA
Definición de estadística
La Estadística es una disciplina que utiliza recursosmatemáticos para organizar y
resumir una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones
respecto de ellos.
Por ejemplo, la estadística interviene cuando se quiere conocer el estado sanitario de un
país, a través de ciertos parámetros como la tasa de morbilidad o mortalidad de la
población.
En este caso la estadística describe la muestra en términos de datos organizados y
resumidos, y luego infiere conclusiones respecto de la población.
Aplicada a la investigación científica, también infiere cuando provee los medios
matemáticos para establecer si una hipótesis debe o no ser rechazada.
21. La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada
en física, química, biología, medicina, astronomía, psicología, sociología, lingüística,
demografía, etc.
2. Población y muestra
Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente
definir de cuáles datos se va a ocupar. El conjunto de datos de los cuales se ocupa un
determinado estudio estadístico se llama población.
No debe confundirse la población en sentido demográfico y la población en sentido
estadístico.
La población en sentido demográfico es un conjunto de individuos (todos los habitantes
de un país, todas las ratas de una ciudad), mientras que una población en sentido
estadístico es un conjunto de datos referidos a determinada característica o atributo de
los individuos (las edades de todos los individuos de un país, el color de todas las ratas
de una ciudad).
Incluso una población en sentido estadístico no tiene porqué referirse a muchos
individuos. Una población estadística puede ser también el conjunto de calificaciones
obtenidas por un individuo a lo largo de sus estudios universitarios.
Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin
embargo, en la mayoría de los casos no es posible obtenerlos por razones de esfuerzo,
tiempo y dinero, razón por la cual se extrae, de la población, una muestra, mediante un
procedimiento llamado muestreo.
Se llama muestra a un subconjunto de la población, preferiblemente representativo de
la misma.
Por ejemplo, si la población es el conjunto de todas las edades de los estudiantes de la
provincia de Buenos Aires, una muestra será conjunto de edades de 2000 estudiantes de
la provincia de Buenos Aires tomados al azar.
3. Datos individuales y datos estadísticos
Un dato individual es un dato de un solo individuo, mientras que un dato estadístico
es un dato de una muestra o de una población en su conjunto. Por ejemplo, la edad de
Juan es un dato individual, mientras que el promedio de edades de una muestra o
población de personas es un dato estadístico.
Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede ser 37 años, y
el promedio de edades de la muestra donde está incluído Juan es 23 años.
Por esta razón un dato estadístico nada dice respecto de los individuos, porque
solamente describe la muestra o población.
22. Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por
ejemplo, el promedio de ingresos mensuales de las personas de una muestra), mientras
que los datos estadísticos descriptores de una población suelen llamarse parámetros
(por ejemplo, el promedio de ingresos mensuales de las personas de una población).
4. Estructura del dato
Los datos son la materia prima con que trabaja la estadística, del mismo modo que la
madera es la materia prima con que trabaja el carpintero. Así como este procesa o
transforma la madera para obtener un producto útil, así también el estadístico procesa o
transforma los datos para obtener información útil. Tanto los datos como la madera no
se inventan: se extraen de la realidad; en todo caso el secreto está en recoger la madera
o los datos más adecuados a los objetivos del trabajo a realizar.
De una manera general, puede definirse técnicamente dato como una categoría asignada
a una variable de una unidad de análisis.
Por ejemplo, "Luis tiene 1.70 metros de estatura" es un dato, donde ‘Luis’ es la unidad
de análisis, ‘estatura’ es la variable, y ‘1.70 metros’ es la categoría asignada.
Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de
análisis, una variable y una categoría.
La unidad de análisis es el elemento del cual se predica una propiedad y característica.
Puede ser una persona, una familia, un animal, una sustancia química, o un objeto como
una dentadura o una mesa.
La variable es la característica, propiedad o atributo que se predica de la unidad de
análisis.
Por ejemplo puede ser la edad para una persona, el grado de cohesión para una familia,
el nivel de aprendizaje alcanzado para un animal, el peso específico para una sustancia
química, el nivel de ‘salud’ para una dentadura, y el tamaño para una mesa.
Pueden entonces también definirse población estadística (o simplemente población)
como el conjunto de datos acerca de unidades de análisis (individuos, objetos) en
relación a una misma característica, propiedad o atributo (variable).
Sobre una misma población demográfica pueden definirse varias poblaciones de datos,
una para cada variable. Por ejemplo, en el conjunto de habitantes de un país (población
demográfica), puede definirse una población referida a la variable edad (el conjunto de
edades de los habitantes), a la variable ocupación (el conjunto de ocupaciones de los
habitantes), a la variable sexo (el conjunto de condiciones de sexo de los habitantes).
La categoría es cada una de las posibles variaciones de una variable. Categorías de la
variable sexo son masculino y femenino, de la variable ocupación pueden ser arquitecto,
médico, etc, y de la variable edad pueden ser 10 años, 11 años, etc.
Cuando la variable se mide cuantitativamente, es decir cuando se expresa
numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye
23. también una unidad de medida, como por ejemplo años, cantidad de hijos, grados de
temperatura, cantidad de piezas dentarias, centímetros, etc. El valor es, entonces, cada
una de las posibles variaciones de una variable cuantitativa.
5. La medición
Los datos se obtienen a través un proceso llamado medición. Desde este punto de vista,
puede definirse medición como el proceso por el cual asignamos una categoría (o un
valor) a una variable, para determinada unidad de análisis.
Ejemplo: cuando decimos que Martín es varón, estamos haciendo una medición, porque
estamos asignando una categoría (varón) a una variable (sexo) para una unidad de
análisis (Martín).
Se pueden hacer mediciones con mayor o menor grado de precisión.
Cuanto más precisa sea la medición, más información nos suministra sobre la variable
y, por tanto, sobre la unidad de análisis. No es lo mismo decir que una persona es alta, a
decir que mide 1,83 metros.
Los diferentes grados de precisión o de contenido informativo de una medición se
suelen caracterizar como niveles de medición. Típicamente se definen cuatro niveles de
medición, y en cada uno de ellos la obtención del dato o resultado de la medición será
diferente:
Ejemplos de datos en diferentes niveles de medición
Nivel de
medición
Nivel nominal Nivel ordinal Nivel
cuantitativo
discreto
Nivel
cuantitativo
continuo
DATO Martín es
electricista
Elena terminó la
secundaria
Juan tiene 32
dientes
María tiene 70
pulsaciones por
minuto
Unidad de
análisis
Martín Elena Juan María
Variable Oficio Nivel de
instrucción
Cantidad de
piezas dentarias
Frecuencia
cardíaca
Categoría o
valor
Electricista Secundaria
completa
32 70
Unidad de
medida
------------- ------------ Diente Pulsaciones por
minuto
En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de
análisis (Martín es electricista).
En el nivel ordinal, medir significa asignar un atributo a una unidad de análisis cuyas
categorías pueden ser ordenadas en una serie creciente o decreciente (la categoría
24. ‘secundaria completa’ puede ordenarse en una serie, pues está entre ‘secundaria
incompleta’ y ‘universitaria incompleta’).
En el nivel cuantitativo, medir significa además asignar un atributo a una unidad de
análisis de modo tal que la categoría asignada permita saber ‘cuánto’ mayor o menor es
respecto de otra categoría, es decir, especifica la distancia o intervalo entre categorías
(la categoría 70 es el doble de la categoría 35).
Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas.
Una variable discreta es aquella en la cual, dados dos valores consecutivos, no puede
adoptar ningún valor intermedio (por ejemplo entre 32 y 33 dientes, no puede hablarse
de 32.5 dientes).
En cambio, una variable es continua cuando, dados dos valores consecutivos, la variable
puede adoptar muchos valores intermedios (por ejemplo entre 1 y 2 metros, puede haber
muchas longitudes posibles).
6. Clasificaciones de la estadística
Existen varias formas de clasificar los estudios estadísticos.
1) Según la etapa.- Hay una estadística descriptiva y una estadística inferencial. La
primera etapa se ocupa de describir la muestra, y la segunda etapa infiere conclusiones a
partir de los datos que describen la muestra (por ejemplo con respecto a la población).
2) Según el tiempo considerado.- Dentro de la estadística descriptiva se distingue la
estadística estática o estructural, que describe la población en un momento dado (por
ejemplo la tasa de nacimientos en determinado censo), y la estadística dinámica o
evolutiva, que describe como va cambiando la población en el tiempo (por ejemplo el
aumento anual en la tasa de nacimientos).
3) Según la cantidad de variables estudiada.- Desde este punto de vista hay una
estadística univariada (estudia una sola variable, como por ejemplo la inteligencia, en
una muestra), una estadística bivariada (estudia como están relacionadas dos variables,
como por ejemplo inteligencia y alimentación), y una estadística multivariada (que
estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad
y la alimentación con la inteligencia).
MEDIDAS DE TENDENCIA CENTRAL
25. Medidas de tendencia central: Media, Mediana,
Moda
Supóngase que un determinado alumno obtiene 35
puntos en una prueba de matemática. Este puntaje,
por sí mismo tiene muy poco significado a menos
que podamos conocer el total de puntos que obtiene
una persona promedio al participar en esa prueba,
saber cuál es la calificación menor y mayor que se
obtiene, y cuán variadas son esas calificaciones.
En otras palabras, para que una calificación tenga
significado hay que contar con elementos de
referencia generalmente relacionados con ciertos
criterios estadísticos.
Las medidas de tendencia central (media, mediana y moda) sirven como puntos de
referencia para interpretar las calificaciones que se obtienen en una prueba.
Volviendo a nuestro ejemplo, digamos que la calificación promedio en la prueba que
hizo el alumno fue de 20 puntos. Con este dato podemos decir que la calificación del
alumno se ubica notablemente sobre el promedio. Pero si la calificación promedio fue
de 65 puntos, entonces la conclusión sería muy diferente, debido a que se ubicaría muy
por debajo del promedio de la clase.
En resumen, el propósito de las medidas de tendencia central es:
Mostrar en qué lugar se ubica la persona promedio o típica del grupo.
Sirve como un método para comparar o interpretar cualquier puntaje en relación con el
puntaje central o típico.
Sirve como un método para comparar el puntaje obtenido por una misma persona en dos
diferentes ocasiones.
Sirve como un método para comparar los resultados medios obtenidos por dos o más
grupos.
Las medidas de tendencia central más comunes son:
La media aritmética: comúnmente conocida como media o promedio. Se representa
por medio de una letra M o por una X con una línea en la parte superior.
La mediana: la cual es el puntaje que se ubica en el centro de una distribución. Se
representa como Md.
La moda: que es el puntaje que se presenta con mayor frecuencia en una distribución.
Se representa Mo.
El promedio de notas es muy
importante.
26. De estas tres medidas de tendencia central, la
media es reconocida como la mejor y más útil. Sin
embargo, cuando en una distribución se presentan
casos cuyos puntajes son muy bajos o muy altos
respecto al resto del grupo, es recomendable
utilizar la mediana o la moda. (Porque dadas las
características de la media, esta es afectada por los
valores extremos).
La media es considerada como la mejor medida de
tendencia central, por las siguientes razones:
Los puntajes contribuyen de manera proporcional al hacer el cómputo de la media.
Es la medida de tendencia central más conocida y utilizada.
Las medias de dos o más distribuciones pueden ser fácilmente promediadas mientras
que las medianas y las modas de las distribuciones no se promedian.
La media se utiliza en procesos y técnicas estadísticas más complejas mientras que la
mediana y la moda en muy pocos casos.
Cómo calcular, la media, la moda y la mediana
Media aritmética o promedio
Es aquella medida que se obtiene al dividir la suma de todos los valores de una
variable por la frecuencia total. En palabras más simples, corresponde a la suma de un
conjunto de datos dividida por el número total de dichos datos.
Ejemplo 1:
En matemáticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3
n = 6 (número total de datos)
La media aritmética de las notas de esa asignatura es 4,8. Este número representa el
promedio.
Ejemplo 2:
La media, el mejor dato.
27. Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de
frecuencias y luego calcular la media aritmética. El siguiente cuadro con las medidas de
63 varas de pino lo ilustra.
Largo (en m)Frecuencia absoluta Largo por Frecuencia absoluta
5 10 5 . 10 = 50
6 15 6 . 15 = 90
7 20 7 . 20 = 140
8 12 8 . 12 = 96
9 6 9 . 6 = 54
Frecuencia total = 63 430
Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor,
por lo tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia
absoluta es 10, significa que el valor a que corresponde se repite 10 veces).
Moda (Mo)
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o
sea, cual se repite más.
Ejemplo 1:
Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de
niñas de un Jardín Infantil.
5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3
La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3)
Ejemplo 2:
20, 12, 14, 23, 78, 56, 96
En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este
conjunto de valores no tiene moda.
Mediana (Med)
Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a
menor o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante
corresponde al número del caso que representa la mediana de la distribución.
28. Es el valor central de un conjunto de valores ordenados en forma creciente o
decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual
número de valores antes y después de él en un conjunto de datos agrupados.
Según el número de valores que se tengan se pueden presentar dos casos:
Si el número de valores es impar, la Mediana corresponderá al valor central de dicho
conjunto de datos.
Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores
centrales (los valores centrales se suman y se dividen por 2).
Ejemplo 1:
Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2
Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5, 8, 9,
10
El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares.
Ejemplo 2:
El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a menor, y
corresponde a un conjunto de valores pares, por lo tanto, la Med será el promedio de los
valores centrales.
21, 19, 18, 15, 13, 11, 10, 9, 5, 3
Ejemplo 3:
MEDIDAS DE TENDENCIA CENTRAL
La medidas de centralización nos indican en torno a qué valor (centro) se distribuyen
los datos.
Lamedidas de centralización son:
Moda
La moda es el valor que tiene mayor frecuencia absoluta.
29. Se representa por Mo.
Se puede hallar la moda para variables cualitativas y cuantitativas.
Hallar la moda de la distribución:
2, 3, 3, 4, 4, 4, 5, 5 Mo= 4
Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa
frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene
varias modas.
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9
Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.
2, 2, 3, 3, 6, 6, 9, 9
Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el
promedio de las dos puntuaciones adyacentes.
0, 1, 3, 3, 5, 5, 7, 8Mo = 4
Cálculo de la moda para datos agrupados
1º Todos los intervalos tienen la misma amplitud.
Li es el límite inferior de la clase modal.
fi es la frecuencia absoluta de la clase modal.
fi--1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.
fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.
También se utiliza otra fórmula de la moda que da un valor aproximado de ésta:
30. Ejemplo
Calcular la moda de una distribución estadística que viene dada por la siguiente tabla:
fi
[60, 63) 5
[63, 66) 18
[66, 69) 42
[69, 72) 27
[72, 75) 8
100
2º Los intervalos tienen amplitudes distintas.
En primer lugar tenemos que hallar las alturas.
La clase modal es la que tiene mayor altura.
La fórmula de la moda aproximada cuando existen distintas amplitudes es:
31. Ejemplo
En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y
sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda.
fi hi
[0, 5) 15 3
[5, 7) 20 10
[7, 9) 12 6
[9, 10) 3 3
50
Mediana
Es el valor que ocupa el lugar central de todos los datos cuando éstos están
ordenados de menor a mayor.
La mediana se representa por Me.
La mediana se puede hallar sólo para variables cuantitativas.
Cálculo de la mediana
1 Ordenamos los datos de menor a mayor.
2 Si la serie tiene un número impar de medidas la mediana es la puntuación central
de la misma.
32. 2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5
3 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos
puntuaciones centrales.
7, 8, 9, 10, 11, 12Me= 9.5
Cálculo de la mediana para datos agrupados
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la
mitad de la suma de las frecuencias absolutas.
Es decir tenemos que buscar el intervalo en el que se encuentre .
Li es el límite inferior de la clase donde se encuentra la mediana.
es la semisuma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
La mediana es independiente de las amplitudes de los intervalos.
Ejemplo
Calcular la mediana de una distribución estadística que viene dada por la siguiente
tabla:
fi Fi
[60, 63) 5 5
[63, 66) 18 23
[66, 69) 42 65
[69, 72) 27 92
33. [72, 75) 8 100
100
100 / 2 = 50
Clase modal: [66, 69)
Media aritmética
La media aritmética es el valor obtenido al sumar todos los datos y dividir el
resultado entre el número total de datos.
es el símbolo de la media aritmética.
Ejemplo
Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.
Media aritmética para datos agrupados
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la media es:
34. Ejercicio de media aritmética
En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que
muestra la tabla. Calcula la puntuación media.
xi fi xi · fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[30,40) 35 10 350
[40, 50) 45 9 405
[50, 60 55 8 440
[60,70) 65 4 260
[70, 80) 75 2 150
42 1 820
Propiedades de la media aritmética
1 La suma de las desviaciones de todas las puntuaciones de una distribución respecto a
la media de la misma igual a cero.
Las suma de las desviaciones de los números 8, 3, 5, 12, 10 de su media aritmética 7.6
es igual a 0:
35. 8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 =
= 0. 4 − 4.6 − 2.6 + 4. 4 + 2. 4 = 0
2 La media aritmética de los cuadrados de las desviaciones de los valores de la
variable con respecto a un número cualquiera se hace mínima cuando dicho número
coincide con la media aritmética.
3 Si a todos los valores de la variable se les suma un mismo número, la media
aritmética queda aumentada en dicho número.
4 Si todos los valores de la variable se multiplican por un mismo número la media
aritmética queda multiplicada por dicho número.
Observaciones sobre la media aritmética
1 La media se puede hallar sólo para variables cuantitativas.
2 La media es independiente de las amplitudes de los intervalos.
3 La media es muy sensible a las puntuaciones extremas. Si tenemos una distribución
con los siguientes pesos:
65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.
La media es igual a 74 kg, que es una medida de centralización poco representativa de
la distribución.
4 La media no se puede calcular si hay un intervalo con una amplitud indeterminada.
xi fi
[60, 63) 61.5 5
[63, 66) 64.5 18
[66, 69) 67.5 42
[69, 72) 70.5 27
[72, ∞ ) 8
36. 100
En este caso no es posible hallar la media porque no podemos calcular la marca de
clase de último intervalo.
Interpretando el gráfico de barras podemos deducir que:
5 alumnos obtienen puntaje de 62
5 alumnos obtienen puntaje de 67
8 alumnos obtienen puntaje de 72
12 alumnos obtienen puntaje de 77
16 alumnos obtienen puntaje de 82
4 alumnos obtienen puntaje de 87
lo que hace un total de 50 alumnos
Sabemos que la mediana se obtiene haciendo
37. lo cual significa que la mediana se ubica en la posición intermedia entre los alumnos 25
y 26 (cuyo promedio es 25,5), lo cual vemos en el siguiente cuadro:
puntajealumnos
62 1
62 2
62 3
62 4
62 5
67 6
67 7
67 8
67 9
67 10
72 11
72 12
72 13
72 14
72 15
72 16
72 17
72 18
77 19
77 20
77 21
77 22
77 23
77 24
77 25
77 26
77 27
77 28
77 29
77 30
82 31
82 32
82 33
82 34
82 35
82 36
82 37
82 38
82 39
82 40
38. 82 41
82 42
82 43
82 44
82 45
82 46
87 47
87 48
87 49
87 50
El alumno 25 obtuvo puntaje de 77
El alumno 26 obtuvo puntaje de 77
Entonces, como el total de alumnos es par debemos promediar esos puntajes:
La mediana es 77, lo cual significa que 25 alumnos obtuvieron puntaje desde 77 hacia
abajo (alumnos 25 hasta el 1 en el cuadro) y 25 alumnos obtuvieron puntaje de 77 hacia
arriba (alumnos 26 hasta el 50 en el cuadro).