SlideShare una empresa de Scribd logo
1 de 38
Estadística – Bioestadística: Concepto, Aplicaciones,
Relación con otras Ciencias
La estadística es comúnmente considerada como una colección de hechos numéricos
expresados en términos de una relación sumisa, y que han sido recopilados a partir de
otros datos numéricos. "La estadística es una técnica especial apta para el estudio
cuantitativo de los fenómenos de masa o colectivo, cuya mediación requiere una masa
de observaciones de otros fenómenos más simples llamados individuales o particulares".
Aplicaciones de la estadística
La estadística es un potente auxiliar de muchas ciencias y actividades humanas:
sociología, sicología, geografía humana, economía, etc.
Es una herramienta indispensable para la toma de decisiones.
También es ampliamente empleada para mostrar los aspectos cuantitativos de una
situación.
La estadística está relacionada con el estudio de proceso cuyo resultado es más o menos
imprescindible y con la finalidad de obtener conclusiones para tomar decisiones
razonables de acuerdo con tales observaciones.
El resultado de estudio de dichos procesos, denominados procesos aleatorios, puede ser
de naturaleza cualitativa o cuantitativa y, en este último caso, discreta o continua.
Son muchas las predicciones de tipo sociólogo, o económico, que pueden hacerse a
partir de la aplicación exclusiva de razonamientos probabilísticos a conjuntos de datos
objetivos como son, por ejemplo, los de naturaleza demográfica.
Las predicciones estadísticas, difícilmente hacen referencia a sucesos concretos, pero
describen con considerable precisión en el comportamiento global de grandes conjuntos
de sucesos particulares. Son predicciones que, en general, no acostumbran resultar
útiles.
Para saber quien, de entre los miembros de una población importante, va a encontrar
trabajo o a quedarse sin él; o en cuales miembros va a verse aumentada o disminuida
una familia concreta en los próximos meses. Pero que, en cambio puede proporcionar
estimaciones fiables del próximo aumento o disminución de la tasa de desempleo
referido al conjunto de la población; o de la posible variación de los índices de natalidad
o mortalidad.
Su Relación con otras Ciencias:
La estadística es una rama de la matemática que se refiere a la recolección, estudio e
interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad
de disciplinas, desde la física hasta las ciencias sociales, ciencias de la salud como la
Psicología y la Medicina, y usada en la toma de decisiones en áreas de negocios e
instituciones gubernamentales.
La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras
ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos
indispensables para llegar a conclusiones aceptables por el resto de la comunidad
científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los
casos si no es a través de perspectivas complejas de relación entre variables, la atención
de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la
llamada Estadística Multivariante. Los diseños complejos de investigación y análisis,
las aportaciones más recientes de la informática para la aplicación de técnicas avanzadas
de manipulación de datos y la discusión de estos aspectos desde perspectivas teóricas y
aplicadas, preocupan y concentran a multitud de profesionales cuyo quehacer cotidiano
es el estudio de cómo se investiga, haciendo de ello su especialidad. Paralelamente,
otras especialidades dentro de estas ciencias utilizan el conocimiento ya elaborado y
retransmitido, preocupada más por los resultados y posibilidades que por las
condiciones de aplicación y los fundamentos de uso, de tal forma que se ha propiciado
la utilización de las técnicas estadísticas, sin considerar la adecuación de éstas a las
condiciones en las que se aplican.
La bioestadística: se ocupa de los problemas planteados dentro de las ciencias de la
vida, como la biología, la medicina, etc. y es una de las ramas de la estadística.
La aplicación y su relación con otras ciencias resultan hoy en día necesarias, en los
campos:
Salud pública, que incluye: epidemiología, nutrición, salud ambiental y en
investigación de servicios sanitarios.
Genómica y poblaciones genéticas
Medicina
Ecología
Bioensayos
La colaboración de la bioestadística ha sido clave en el desarrollo de nuevos fármacos,
en el entendimiento de enfermedades crónicas como el cáncer y el sida, y estos son
algunos de los miles de ejemplos posibles.
La estrecha relación de la Estadística con el método científico hace de la Bioestadística
una disciplina imprescindible en la mayoría de los proyectos en el área tecnológica.
El pensamiento estadístico no sólo resuelve y entiende compleja metodología para dar
respuesta a hipótesis, sino que es capaz de organizar el "sistema" que involucra la
investigación desde el diseño general, diseño de muestreo, control de calidad de la
información, análisis y presentación de resultados.
Métodos Estadísticos: Clasificación, Estadística Médica,
Estadística de Salud
La materia prima de la estadística consiste en conjuntos de números obtenidos al contar
o medir elementos. Al recopilar datos estadísticos se ha de tener especial cuidado para
garantizar que la información sea completa y correcta.
El primer problema para los estadísticos reside en determinar qué información y en que
cantidad se ha de reunir. En realidad, la dificultad al compilar un censo está en obtener
el número de habitantes de forma completa y exacta; de la misma manera que un físico
que quiere contar el número de colisiones por segundo entre las moléculas de un gas
debe empezar determinando con precisión la naturaleza de los objetos a contar. Los
estadísticos se enfrentan a un complejo problema cuando, por ejemplo, toman una
muestra para un sondeo de opinión o una encuesta electoral. El seleccionar una muestra
capaz de representar con exactitud las preferencias del total de la población no es tarea
fácil.
Para establecer una ley física, biológica o social, el estadístico debe comenzar con un
conjunto de datos y modificarlo basándose en la experiencia. Por ejemplo, en los
primeros estudios sobre crecimiento de la población, los cambios en el número de
habitantes se predecían calculando la diferencia entre el número de nacimientos y el de
fallecimientos en un determinado lapso. Los expertos en estudios de población
comprobaron que la tasa de crecimiento depende sólo del número de nacimientos, sin
que el número de defunciones tenga importancia. Por tanto, el futuro crecimiento de la
población se empezó a calcular basándose en el número anual de nacimientos por cada
1.000 habitantes. Sin embargo, pronto se dieron cuenta que las predicciones obtenidas
utilizando este método no daban resultados correctos. Los estadísticos comprobaron que
hay otros factores que limitan el crecimiento de la población. Dado que el número de
posibles nacimientos depende del número de mujeres, y no del total de la población, y
dado que las mujeres sólo tienen hijos durante parte de su vida, el dato más importante
que se ha de utilizar para predecir la población es el número de niños nacidos vivos por
cada 1.000 mujeres en edad de procrear. El valor obtenido utilizando este dato mejora al
combinarlo con el dato del porcentaje de mujeres sin descendencia. Por tanto, la
diferencia entre nacimientos y fallecimientos sólo es útil para indicar el crecimiento de
población en un determinado periodo de tiempo del pasado, el número de nacimientos
por cada 1.000 habitantes sólo expresa la tasa de crecimiento en el mismo periodo, y
sólo el número de nacimientos por cada 1.000 mujeres en edad de procrear sirve para
predecir el número de habitantes en el futuro.
La estadística se puede clasificar en dos grandes ramas:
* Estadística descriptiva o deductiva.
* Estadística inferencial o inductiva.
La primera se emplea simplemente para resumir de forma numérica o gráfica un
conjunto de datos. Se restringe a describir los datos que se analizan. Si aplicamos las
herramientas ofrecidas por la estadística descriptiva a una muestra, solo nos limitaremos
a describir los datos encontrados en dicha muestra, no se podrá generalizar la
información hacia la población. La estadística inferencial permite realizar conclusiones
o inferencias, basándose en los datos simplificados y analizados de una muestra hacia la
población o universo. Por ejemplo, a partir de una muestra representativa tomada a los
habitantes de una ciudad, se podrá inferir la votación de todos los ciudadanos que
cumplan los requisitos con un error de aproximación. un orden de magnitud natural
(cuantitativas), o simplemente un atributo no sometido a cuantificación (cualitativa).
Una variable es medida utilizando una escala de medición. La elección de la(s) escala(s)
de medición a utilizar depende, en primer lugar, del tipo de variable en estudio, y,
además, del manejo estadístico a la que se someterá la información. En términos
prácticos, existe una correspondencia directa entre el concepto de variable y escala de
medición.
Estadísticas de Salud:
Dada la necesidad de bibliografía para la asignatura Informática Medica II se concibió
este Material de Apoyo a la Docencia cuyo contenido forma parte del programa
analítico de la asignatura. En el mismo se expone el sumario siguiente: Estadísticas
utilizadas en el campo de la salud: Estadísticas vitales (natalidad y mortalidad),
Estadísticas de morbilidad, Estadísticas de recursos y servicios y Estadísticas de higiene
y saneamiento. Medidas de fecundidad. Principales conceptos: Fecundidad, Fertilidad y
Natalidad. Medidas de mortalidad: Principales conceptos: Mortalidad infantil y sus
componentes, Mortalidad materna, Mortalidad perinatal y neonatal. Mortalidad General.
Medidas de morbilidad. Principales conceptos: Incidencia, Prevalencia, Letalidad,
Morbilidad conocida y desconocida.
Fuentes de Información de estadísticas Vitales: Primaria
y Secundaria
Fertilidad: Es el aspecto potencial del desarrollo de una población, expresa la capacidad
física de procreación.
Fecundidad: Es el aspecto real del desarrollo de una población, expresa la capacidad
real de reproducirse de una población.
Nacido Vivo: Es el producto de la concepción que cualquiera que sea la duración del
embarazo, sea expulsado o extraído completamente del seno materno, siempre que
después de esa expulsión o extracción manifieste cualquier signo de vida.
Tasas relacionadas con la natalidad
El estudio de la natalidad está relacionado con el número de nacimientos ocurridos en
una población y tiempo determinados, así como la distribución que siguen de acuerdo
con ciertas características. Como ves, todo gira en torno a la medición de la misma, y
una de las formas de conseguirlo es utilizando las tasas.
El concepto de población en estadística va más allá de lo que comúnmente se conoce
como tal. Una población se precisa como un conjunto finito o infinito de personas u
objetos que presentan características comunes.
"Una población es un conjunto de todos los elementos que estamos estudiando, acerca
de los cuales intentamos sacar conclusiones". Levin&Rubin (1996).
"Una población es un conjunto de elementos que presentan una característica común".
Cadenas (1974).
El tamaño que tiene una población es un factor de suma importancia en el proceso de
investigación estadística, y este tamaño vienen dado por el número de elementos que
constituyen la población, según el número de elementos la población puede ser finita o
infinita. Cuando el número de elementos que integra la población es muy grande, se
puede considerar a esta como una población infinita, por ejemplo; el conjunto de todos
los números positivos. Una población finita es aquella que está formada por un limitado
número de elementos, por ejemplo; el número de estudiante del Núcleo San Carlos de la
Universidad Nacional Experimental Simón Rodríguez.
Cuando la población es muy grande, es obvio que la observación de todos los elementos
se dificulte en cuanto al trabajo, tiempo y costo necesario para hacerlo. Para solucionar
este inconveniente se utiliza una muestra estadística.
Es a menudo imposible o poco práctico observar la totalidad de los individuos, sobre
todos si estos son muchos. En lugar de examinar el grupo entero llamado población o
universo, se examina una pequeña parte del grupo llamada muestra.
Muestra:
"Se llama muestra a una parte de la población a estudiar que sirve para representarla".
Murria R. Spiegel (1991).
"Una muestra es una colección de algunos elementos de la población, pero no de todos".
Levin&Rubin (1996).
"Una muestra debe ser definida en base de la población determinada, y las conclusiones
que se obtengan de dicha muestra solo podrán referirse a la población en referencia",
Cadenas (1974).
El estudio de muestras es más sencillo que el estudio de la población completa; cuesta
menos y lleva menos tiempo. Por último se aprobado que el examen de una población
entera todavía permite la aceptación de elementos defectuosos, por tanto, en algunos
casos, el muestreo puede elevar el nivel de calidad.
Una muestra representativa contiene las características relevantes de la población en las
mismas proporciones que están incluidas en tal población.
Los expertos en estadística recogen datos de una muestra. Utilizan esta información
para hacer referencias sobre la población que está representada por la muestra. En
consecuencia muestra y población son conceptos relativos. Una población es un todo y
una muestra es una fracción o segmento de ese todo.
Muestreo:
Esto no es más que el procedimiento empleado para obtener una o más muestras de una
población; el muestreo es una técnica que sirve para obtener una o más muestras de
población.
Este se realiza una vez que se ha establecido un marco muestral representativo de la
población, se procede a la selección de los elementos de la muestra aunque hay muchos
diseños de la muestra.
Al tomar varias muestras de una población, las estadísticas que calculamos para cada
muestra no necesariamente serían iguales, y lo más probable es que variaran de una
muestra a otra.
Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales
encargadas de tal fin.
En la práctica, es aconsejable utilizar fuentes de datos primarias y en última instancia
cuando estas no existan, usar estadísticas de fuentes secundarias. Con este último tipo
no debemos pasar por alto que la calidad de las conclusiones estadísticas depende en
grado sumo de la exactitud de los datos que se recaben. De Nanda serviría usar técnicas
estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas no
son aplicadas a datos adecuados o confiables.
Cuando un investigador quiere obtener datos estadísticos relativo a un estudio que desea
efectuar, puede elegir entre una fuente primaria o en su defecto, una secundaria. O
recopilar los datos por sí mismo. La posibilidad mencionada en último término podrá
deberse bien a la inexistencia de los datos o bien a que esto no se encuentra
discriminado en la forma requerida.
Instrumento y Métodos de Recolección de Datos:
Elaboración e interpretación de la Información
Método para la recolección de datos:
En estadística se emplean una variedad de métodos distintos para obtener información
de los que se desea investigar. Discutiremos aquí los métodos más importantes,
incluyendo las ventajas y limitaciones de estos.
La entrevistapersonal: los datos estadísticos necesarios para una investigación, se
reúnen frecuentemente mediante un proceso que consiste en enviar un entrevistador o
agente, directamente a la persona investigada. El investigador efectuará a esta persona
una serie de preguntas previamente escritas en un cuestionario o boleta, donde anotará
las respuestas correspondientes. Este procedimiento que se conoce con el nombre de
entrevista personal, permite obtener una información más veraz y completa que la que
proporcionan otros métodos, debido a que al tener contacto directo con la persona
entrevistada, el entrevistador podrá aclarar cualquier duda que se presente sobre el
cuestionario o investigación.
Otra ventaja es la posibilidad que tienen los entrevistadores de adaptar el lenguaje de las
preguntas al nivel intelectual de las personas entrevistadas.
Una de las desventajas de este método se debe a que si el entrevistador no obra de buena
fe o no tiene un entrenamiento adecuado, puede alterar las respuestas por las personas
entrevistadas.
Otra desventaja es su alto costo, ya que resulta bastante oneroso el entrenamiento de los
agentes o entrenadores y los supervisores de estos, sobre todo si se trata de una
investigación extensa.
Cuestionarios por correo: consiste en enviar por correo el cuestionario acompañado por
el instructivo necesario, dando en este no solo las instrucciones pertinentes para cada
una de las preguntas, sino también una breve explicación del objeto de la encuesta con
el fin de evitar interpretaciones erróneas.
Una de las ventajas es que tienen un costo muy inferior al anterior procedimiento,
puesto que no hay que incluir gastos de entrenamiento de personal, el único gasto sería
el de franqueo postal.
Dentro de las desventajas de este procedimiento podemos señalar que solo un porcentaje
bastante bajo de estos es devuelto, en algunos casos no estamos seguros de que los
formularios hayan sido recibidos por sus destinatarios y que hayan sido respondido por
ellos mismos. Lo que trae como consecuencia que la información se obtenga con una
serie de errores difíciles de precisar por el investigador.
Entrevista por teléfono: como lo indica su nombre, este método consiste en telefonear a
la persona a entrevistar y hacerle una serie de preguntas. Este método es bastante simple
y económico, ya que el entrenamiento y supervisión de las personas encargadas de
efectuar las preguntas es siempre fácil.
Entre las limitaciones que presenta este método podemos señalar el número de
preguntas que pueden formularse es relativamente limitado; además las investigaciones
efectuadas por este método tienen un carácter selectivo, debido a que muchas de las
personas que potencialmente podrían ser investigadas no posee servicio telefónico, por
lo que quedan sin la posibilidad de ser entrevistados.
Instrumentos para la recolección de datos:
Cuestionarios:
Cualquiera que sea el método por el que se decida el investigador para recabar
información, es necesario elaborar un estudio de preguntas.
Los cuestionarios en general, constan de las siguientes partes:
La identificación del cuestionario: nombre del patrocinante de la encuesta, (oficial o
privada), nombre de la encuesta, número del cuestionario, nombre del encuestador,
lugar y fecha de la entrevista.
Datos de identificación y de carácter social del encuestado: apellidos, nombres, cédula
de identidad, nacionalidad, sexo, edad o fecha de nacimiento, estado civil, grado de
instrucción, ocupación actual, ingresos, etc.
Datos propios de la investigación, son los datos que interesa conocer para construir el
propósito de la investigación.
Como es natural, estas partes, así como las preguntas, varían de acuerdo a la finalidad
de la encuesta. En algunos tipos de investigación, la parte referente a los datos
personales es eliminada por no tener ningún tipo de interés para el estudio.
Consideraciones que debemos tomar en cuenta:
El cuestionario debe ser conciso; tratar en lo posible de que con el menor número de
preguntas, se obtenga la mejor información.
Claridad de la redacción; evitar preguntas ambiguas o que sugieran respuestas
incorrectas, por lo que deben estar formuladas las preguntas de la forma más sencilla.
Discreción: un cuestionario hecho a conciencia, no debe tener preguntas indiscretas o
curiosas, sobre datos personales que puedan ofender al entrevistado.
Facilidad de contestación: se deben evitar, en lo posible, las preguntas de respuestas
libres o abiertas y también la formulación de preguntas que requieran cálculos
numéricos por parte del entrevistado.
Orden de las preguntas: estas deben tener una secuencia y un orden lógico, agruparlas
procurando que se relacionen unas con otras.
Series o distribuciones estadísticas:
Anteriormente hemos señalado que la estadística, no se encarga del estudio de un hecho
aislado, sino que tienen por objeto de los colectivos. Pues bien cuando se realiza una
investigación se obtiene una masa de datos que deben ser organizados para disponerlos
en un orden, arreglo o secuencia lógica, con el fin de facilitar el análisis de los mismos
esta colección de datos numéricos obtenidos de la observación, que se clasifican y
ordenan según un determinado criterio, se denominan "series estadísticas", también
conocidas como "distribución estadística".
Clasificación de las series estadísticas:
Series temporales o cronológicas; estas se definen como una masa o conjunto de datos
producto de la observación de un fenómeno individual o colectivo, cuantificable en
sucesivos instantes o periodos de tiempo.
ESTADISTICA DESCRIPTIVA
Resumen Capítulo 1 del Libro
Estadística Descriptiva: Puede definirse como aquellos métodos que incluyen la
recolección, presentación y caraterización de un conjunto de datos con el fin de
describir apropiadamente las diversas características de ese conjunto.
Estadística Inferencial: Puede definirse como aquellos métodos que hacen
posible la estimación de una característica de una población o la toma de una
decisión referente a una población basándose sólo en los resultados de una
muestra.
Para aclara este concepto se necesitan de las siguientes definiciones:
Población: es la totalidad de elementos o cosas bajo consideración.
Muestra: Es la porción de la población que se selecciona para su análisis.
Parámetro: Es una medida de resumen que se calcula para describir una
característica de toda una población.
Estadística: Es una medida que se calcula para describir una característica de una
sola muestra de la población.
Podemos encontrar dos tipos de estudios estadísticos que se emprenden: los estudios
enumerativos y los estudios analíticos.
Los estudios enumerativos involucran la toma de decisiones respecto a una población
y/o sus características.
Los estudios analíticos involucran realizar alguna actividad sobre un proceso para
mejorar el desempeño en el futuro. La atención de un estudio analítico está puesta sobre
la predicción del comportamiento futuro de un proceso y sobre la comprensión y
perfeccionamiento de ese proceso. En un estudio analítico no existe un universo
identificable, como sucede en un estudio enumerativo y en consecuencia tampoco hay
un marco.
2. Resumen Capítulo 2 del Libro
Recolección de Datos
La necesidad de datos: los datos se necesitan para:
1. Proporcionar la introducción imprescindible para un estudio de investigación.
2. Medir el desempeño en un servicio o proceso de producción en curso.
3. Ayudar en la formulación de cursos alternativos de acción en un proceso de
toma de decisiones.
4. Satisfacer nuestra curiosidad.
¿Que es un dato?
Los datos pueden concebirse como información numérica necesaria para ayudarnos a
tomar una decisión con más bases en una situación particular.
¿Cómo obtenemos los datos?
Existen muchos métodos mediante los cuales podemos obtener los datos necesarios.
Primero, podemos buscar datos ya publicados por fuentes gubernamentales, industriales
o individuales. Segundo, podemos diseñar un experimento. En tercer lugar, podemos
conducir un estudio. Cuarto, podemos hacer observaciones del comportamiento,
actitudes u opiniones de los individuos en los que estamos interesados.
Utilización de fuentes de datos publicadas
Sin importar la fuente utilizada, se hace una distinción entre el recolector original de los
datos y la organización o individuos que compilan éstos en tablas y diagramas. El
recolector de datos es la fuente primaria; el compilador de los datos es la fuente
secundaria.
Diseño de un experimento
En un experimento se ejerce control sobre el tratamiento de los dado a los participantes.
Conducción de una encuesta
Aquí no se ejerce ningún control sobre el comportamiento de la gente encuestada.
Simplemente se formulan preguntas respecto a sus opiniones, actitudes,
comportamiento y otras características.
Realización de un estudio observacional
El investigador observa el comportamiento de interés directamente, por lo común en su
entorno natural.
La importancia de obtener buenos datos: GIGO
GIGO: Entra Basura, sale basura. No importa el método utilizado para obtener los
datos, si un estudio ha de ser útil, si el desempeño debe controlarse apropiadamente o si
el proceso de la toma de decisiones debe ampliarse, los datos recabados deben ser
válidos: es decir, las respuestas correctas deben valorarse de manera que se obtengan
mediciones significativas.
Obtención de datos mediante investigación de encuesta
Tipos de datos
Existen básicamente dos tipos de variables aleatorias que producen dos tipos de datos:
categóricas y numéricas. Las variables aleatorias categóricas producen respuestas
categóricas, mientras que las variables numéricas producen respuestas numéricas. Las
variables numéricas pueden considerarse como discretas o continuas. Los datos
discretos son respuestas numéricas que surgen de un proceso de conteo, mientras que
los datos continuos son respuestas numéricas que surgen de un proceso de medición.
La necesidad de definiciones operacionales. Una definición operacional proporciona un
significado a un concepto o variable que puede comunicarse a otros individuos. Es algo
que tiene el mismo significado ayer, hoy y mañana para todos los individuos.
Diseño del cuestionario
El objetivo de un cuestionario es permitirnos recabar información significativa que nos
ayude en el proceso de toma de decisiones.
Selección de temas amplios - Longitud del cuestionario
Los amplios temas de los cuestionarios deben enumerarse. Mientras más largo sea el
cuestionario, menor será el cociente de respuesta. Por tanto, se deben evaluar
cuidadosamente las preguntas. Las preguntas deben ser lo más cortos posibles.
Modo de Respuesta
Existen tres modos mediante los cuales se realiza el trabajo de encuesta: la entrevista
persona, telefónica y por medio del correo. La personal es la que tiene una tasa de
respuesta mayor, pero es más costosa.
Formulación de preguntas
Cada pregunta debe presentarse claramente en el menor número de palabras y cada
pregunta debe considerarse esencial para la encuesta. Además, deben ser libres de
ambigüedades.
Prueba del cuestionario
Una vez analizadas los pros y contras de cada pregunta se debe realizar una prueba
piloto de manera que puedan examinarse en cuanto a claridad y longitud.
Elección del tamaño de muestra para la encuesta
Existen tres razones para extraer una muestra. Antes que todo, por lo general lleva
demasiado tiempo realizar un censo completo. En segundo lugar, es demasiado costoso
hacer un censo completo. Tercero, es demasiado molesto e ineficiente obtener un conteo
completo de la población objeto
Selección de los sujetos respondientes: tipos de muestras
Existen básicamente dos tipos de muestras: las muestra no probabilística y la muestra de
probabilidad.
Una muestra de probabilidad es aquella en la que los sujetos de la muestra se eligen
sobre la base de probabilidades conocidas.
En una muestra aleatoria simple cada individuo o elemento tiene la misma oportunidad
de selección que cualquier otro, y la selección de un individuo o elemento particular no
afecta la probabilidad de que se elija cualquier otro.
Extracción de la muestra aleatoria simple
La clave de la selección de muestras apropiada es obtener y mantener una lista
actualizada de todos los individuos o elementos de los cuales se extraerá la muestra. Tal
lista se conoce como el marco de la población. Este listado de población servirá como la
población objetivo, de tal manera que si se extrajeran muchas muestrasde
probabilidades diferentes de tal lista, en el mejor de los casos cada muestra sería una
representación de la población.
- Muestreo con o sin reemplazo de poblaciones finitas
Para seleccionar la muestra pueden usarse dos métodos básicos: con reemplazo o sin
reemplazo. Digamos que N representa la población y n la muestra. Al extraer con
reemplazo la probabilidad de cualquier miembro de la población de ser seleccionado en
la primera extracción es 1/N. La probabilidad de ser seleccionado en otra extracción
sigue siendo 1/N debido a que una vez registrado el dato, el individuo seguirá formando
parte de la población.
Sin embargo, al muestrear poblaciones humanas generalmente se considera más
apropiado tener una muestra de persona diferentes que permitir mediciones repetidas de
la misma persona. La probabilidad en este caso es 1/N en la primera extracción. La
probabilidad de que cualquier individuo no seleccionado previamente sea seleccionado
en la segunda extracción es 1/N-1.
La encuesta de la muestra
El primer pasa para evaluar una encuesta es determinar si se basó en una muestra de
probabilidad o en una no probabilístico.
Aun cuando las encuestas emplean métodos de muestreo de probabilidad aleatorios,
están sujetas a errores potenciales. Existen cuatro tipo de errores de encuesta:
1 - Error de cobertura o sesgo de selección. Este error resulta de la exclusión de ciertos
sujetos del listado de población, de tal manera que no tienen oportunidad de ser
seleccionados en la muestra. El error de cobertura provoca el sesgo de selección.
2- Error de no-respuesta o sesgo de no-respuesta. El error de no-respuesta resulta del
fracaso de recolectar datos sobre todos los sujetos de la muestra. Y el error de no-
respuesta da como resultado el sesgo de no-respuesta.
3- Error de Muestreo. Este error refleja la heterogeneidad o las diferencias de
oportunidad de muestra a muestra basándose en la probabilidad de los sujetos que están
siendo seleccionados en las muestras particulares. El error de muestreo puede reducirse
tomando tamaños de muestra mayores, aunque esto incrementará el costo de aplicación
de la encuesta.
4- Error de Medición. Este error se refiere a inexactitudes en las respuestas registradas
que ocurren debido a una mala formulación de las preguntas, el efecto de un
entrevistados sobre el encuestado o el esfuerzo hecho por el encuestado.
Organización y Resumen de Datos
Organizacion, Resumen Y Presentacion De Datos Estadisticos
Conceptos que deben reforzarse
POBLACION: es el conjunto formado por todas las unidades elementales que
proporcionarán las mediciones de interés. Pueden ser personas, cosas, objetos
abstractos.
CENSO: Cuando se estudia la totalidad de las unidades elementales que componen la
población.
Desventaja: errores de observación. Ej.: omisiones, duplicaciones, no-ubicación (no
medibles) del encuestado, volumen de información
MUESTRA: se estudia una parte representativa de la población
Desventaja: errores de observación (no medibles) errores de estimación (medible,
cuantificable)
LOS DATOS ESTADISTICOS SON VARIABLES, SU RESULTADO VARIA DE
UNA MEDICION A OTRA.
Debido a ello a los datos estadísticos los denominamos VARIABLES.
Según se vio, las Variables se clasifican en:
Categóricas Ordinales o Nominales Y Numéricas Discretas o Contínuas.
Caso Sr. Juárez
Problema: " Aumento en el índice de rotación de cobranzas".
Población: Todos los clientes que compran a crédito al señor Juárez en el local
A o B.
Supuestos: - Dos Locales A y B.
Datos del último mes.
Muestra Local A: 60 clientes; Local B: 78 clientes.
Hipótesis de Trabajo:
Deudores del local A necesitan menos tiempo para pagar.
Situación económica de los clientes peor þ nosotros > plazo de financiación.
Locales poseen precios > competencia.
Mal sistema de cobros en cuenta corriente.
Para Cada hipótesis se debe tomar una variable a analizar.
Variable a Utilizar en nuestro Caso: " Cantidad de días transcurridos entre la
confección de la factura y el efectivo cobro de la misma.
Definiciones operacionales:
N= Tamaño de la población.
n= Tamaño de la muestra.
Yi = Variable a analizar
El tamaño de muestra es independiente del tamaño de la población.
Distribución de frecuencia:
fi: frecuencia absoluta.
Fi: frecuencia absoluta acumulada.
hi: frecuencia relativa ( cociente entre frecuencia absoluta y la muestra/población ).
Hi: frecuencia relativa acumulada.
El 21,7 % de los clientes del local A pagan el día 20. En el local minorista hay pocos
que pagan los primeros días y pocos los que pagan el último día.
Para comparar se trabaja con frecuencias relativas (cuando los tamaños de muestra son
distintos).
23/03/01
Práctico
Ejercicio 2.35 - Página 49
n = 1425
Objetivo: " Medir el grado de satisfacción de los clientes que compraron una
videograbadora en los últimos 12 meses.
a. Población: Todos los clientes que compraron una videograbadora en los últimos
12 meses.
b. Preguntas cualitativas:
1. ¿Qué le pareció el producto?
2. - Excelente.
- Muy Bueno.
- Bueno.
- Malo.
- Si.
- No.
3. Recomendaría el Producto.
4. Compraría nuestra marca o producto.
Si.
No.
Preguntas Cuantitativas.
1. ¿ Cuantas veces usó el servicio técnico?
Ninguna.
Una.
Dos.
Más de dos.
1. Diseño y funcionamiento. Califique de uno a diez
2. ¿ Cuántas marcas analizó antes de decidir por Xenith?
3. ¿Cuántos productos Xenith posee Ud.?
Ejercicio 3.8 - Pagina 61
b) Diagrama de Tallo y Hoja SPSS lo hace en forma automática.
Yi= Segundos que tarda un automóvil de llegar de 0 a 60 Mph.
Autos Alemanes
Tallo Hoja
4 9
5 5 4 1
6 4 9 4 7 0 9
7 9 1 5
8 6 7 3 5 5 8 9
9
10 0 9
27/03/01
Construcción de Gráficos
Nombrar los ejes.
Título del gráfico.
Fuente de datos.
Ejercicio 3.70 - Pagina 95
Yi fi hi Fi Hi
1,00 1 0,03 1 0,03
1,50 2 0,07 3 0,10
2,00 3 0,10 6 0,20
2,50 2 0,07 8 0,27
3,00 6 0,20 14 0,47
3,50 5 0,17 19 0,63
4,00 2 0,07 21 0,70
4,50 2 0,07 23 0,77
5,00 3 0,10 26 0,87
5,50 1 0,03 27 0,90
6,00 1 0,03 28 0,93
6,50 1 0,03 29 0,97
7,00 1 0,03 30 1,00
30 1,00
Yi = $ de cada manómetro.
fi = cantidad de veces que se repite la variable.
En este caso se supone que la variable es discreta.
Construcción de Intervalos
Intervalos sirve en especial para variables continuas
Ry = Y max - Y min = Recorrido = Amplitud = Rango
Ry = 7.5 - 1 = 6.5
Cantidad de intervalos 4
C= Amplitud del intervalo = Ry / Cantidad de intervalos = 6.5/4 = 1.625
C = Valor entero = 2
Ry* = c x cantidad de intervalos = 2 x 4 = 8
Yi-1 - Yi Yi fi hi
1 - 3 2 8 0.27
3 - 5 4 15 0.50
5 - 7 6 6 0.20
7 -9 8 1 0.03
30 1
Construcción del intervalo del Caso Juárez.
R = 38 - 14 = 24
Cantidad de Intervalos = 7
Amplitud = Ry / c = 3.43 = 4
3. Resumen Capítulo 3 del Libro
Presentación de datos numéricos en tablas y diagramas
Una distribución de frecuencia es una tabla de resumen en la que los datos se disponen
en agrupamientos o categorías convenientemente establecidas de clases ordenadas
numéricamente.
En esta forma las características más importantes de los datos se aproximan muy
fácilmente, compensando así el hecho de que cuando los datos se agrupan de ese modo,
la información inicial referente a las observaciones individuales de que antes se disponía
se pierde a través del proceso de agrupamiento o condensación.
Al construir la tabla de frecuencia-distribución, debe ponerse atención a:
1. Seleccionar el número apropiado de agrupamientos de clase para la tabla.
2. Obtener un intervalo o ancho de clase de cada agrupamiento de clase.
3. Establecer los límites de cada agrupamiento de clase para evitar los traslapes.
Selección del Número de Clases
La distribución de frecuencia debe tener al menos cinco agrupamiento de clase, pero no
más de 15. Si no hay suficientes agrupamientos de clase o si hay demasiados, se
obtendrá poca información.
Obtención de los intervalos de clase
Ancho del intervalo Rango
número de agrupamientos de clase deseado
La principal ventaja de usar una de estas tablas de resumen es que las principales
características de los datos se hacen evidentes inmediatamente para el lector.
La principal desventaja de tal tabla de resumen es que no podemos saber como se
distribuyen los valores individuales dentro de un intervalo de clase particular sin tener
acceso a los datos originales. El punto medio de la clase, sin embargo, es el valor usado
para representar todos los datos resumidos en un intervalo particular.
El punto medio de una clase (o marca de clase) es el punto a la mitad de los límites de
cada clase y es representativo de los datos de esa clase.
Tabulación de datos numéricos: la distribución de frecuencia relativa y distribución de
porcentaje
La distribución relativa de frecuencia se forma dividiendo las frecuencias de cada clase
de distribución de frecuencia entre el número total de observaciones. Entonces puede
formarse una distribución de porcentaje multiplicando cada frecuencia relativa o
proporción entre 100.
La distribución de frecuencia relativa o la distribución de porcentaje se vuelve esencial
siempre que una serie de datos se compara con otra seria de datos, especialmente si
difiere el número de observaciones en cada serie de datos.
Graficación de datos numéricos: el histograma y el polígono
Histogramas
Los histogramas son diagramas de barras verticales en los que se construyen barras
rectangulares en los límites de cada clase. La variable aleatoria o fenómeno de interés se
despliega a lo largo del eje horizontal; el eje vertical representa el número, proporción o
porcentaje de observaciones por intervalo de clase, dependiendo de si el histograma
particular, es un histograma de frecuencia, un histograma de frecuencia relativa o
histograma de porcentaje
Al comparar dos o más series de datos, ni los diagramas de tallo y hoja ni los
histogramas pueden construirse en la misma gráfica. Con respecto a estos últimos, la
sobreposición de barras verticales de uno en el otro ocasionaría dificultades de
interpretación; en estos casos se usan los polígonos.
Polígonos
El polígono de porcentaje se forma permitiendo que el punto medio de cada clase
represente los datos de esa clase y luego conectando la sucesión de puntos medios con
sus respectivos porcentajes de clase.
Distribuciones acumulativas y polígonos acumulativos
Una tabla de distribución de porcentaje acumulativo se construye registrando primero
los límites inferiores de cada clase a partir de la distribución de porcentaje y luego
insertando un límite extra al final.
Polígono de porcentaje acumulativo
Para construir un polígono de porcentaje acumulativo (también llamado ojiva), el
fenómeno se grafica en el eje horizontal, mientras que los porcentajes acumulativos se
grafican en el eje vertical.
4. Resumen Capítulo 4 del Libro
Resumen y descripción de los datos numéricos
Propiedades de los datos numéricos.
Las tres mejores propiedades que describe una serie numérica de datos son:
1. Tendencia central
2. Variación
3. Forma
Si estas mediciones se calculan a partir de una muestra, se denominan estadísticas, si se
calculan a partir de los datos de una población se denominan parámetros.
Mediciones de tendencia Central
La media aritmética, es el promedio. Se calcula sumando todas las
observaciones y luego dividiendo el total entre el número de elementos
involucrados.
La media actúa como punto de equilibrio de tal forma que las observaciones menores
compensan a las observaciones que son mayores.
La media aritmética se ve afectada en gran medida por valores extremos.
La mediana. Es el valor medio de una secuencia ordenada de datos. Si no hay
empates, la mitad de las observaciones serán menores y la otra mitad serán
mayores. La mediana no se ve afectada por valores extremos. Para calcular la
mediana, primero se deben poner los datos en orden. Después usamos la fórmula
del punto de posicionamiento.
El cálculo del valor de la media se ve afectado por el número de observaciones, no por
la magnitud de cualquier extremo.
La moda. Es el valor de una serie de datos que aparece con más frecuencia. La
moda no se ve afectada por la ocurrencia de cualquier valor extremo.
Cuartiles. Los cuartiles sonmediciones descriptivas que dividen los datos
ordenados en cuatro cuartos.
Mediciones de la Variación
La variación es la cantidad de dispersión o propagación en los datos.
El rango: es la diferencia entre la mayor y la menor observación en una serie de
datos. El rango mide la propagación total en la serie de datos. La debilidad del
rango es que no logra tomar en cuenta la forma en que los datos se distribuyen
realmente entre el mayor y el menor valor. Sería impropio usar el rango como
una medición cuando uno de o ambos componentes son observaciones extremas.
El rango intercuartil: es la diferencia entre el tercer y primer cuartil. No se ve
influida por valores extremos.
La varianza y la desviación estándar: a diferencia de las mediciones anteriores la
varianza y la desviación estándar toman en cuenta como se distribuyen las
observaciones. La Varianza de muestra es el promedio de las diferencias
cuadradas entre cada una de las observaciones de una serie de datos y la media.
La desviación estándar es simplemente la raíz cuadrada de la varianza. La
varianza y la desviación miden la dispersión promedio alrededor de la media, es
decir, como las observaciones mayores fluctúan por encima de ésta y como las
observaciones menores se distribuyen por debajo de ésta.
El Coeficiente de Variación: es una medida relativa de variación. Se expresa
como porcentaje antes que en términos de las unidades de los datos particulares.
Mide la dispersión en los datos relativa a la media.
El coeficiente de variación es útil al comparar la variabilidad de dos o más series de
datos que se expresan en distintas unidades de medición.
Forma
Para describir la forma sólo necesitamos comparar la media y la mediana. Si estas dos
mediciones son iguales, por lo general podemos considerar que los datos son simétricos.
Si la media excede a la mediana, los datos pueden describirse de sesgo positivo o
sesgadas a la derecha. Si la media es excedida por la mediana, estos datos pueden
llamarse de sesgo negativo o sesgadas a la izquierda. El sesgo positivo surge cuando la
media se incrementa en algunos valores inusualmente altos, el sesgo negativo ocurre
cuando la media se reduce en algunos valores extremadamente bajos.
Cálculo de mediciones descriptivas de resumen de una población
Las mediciones de tendencia central para una población se calculan igual que en la
muestra simplemente reemplazamos n por N.
El rango y el rango intercuartil para una población de tamaño N se obtienen como si
fuera una muestra reemplazando n por N. La varianza se calcula reemplazando el ( n - 1
) del denominador por N.
Uso de la Desviación Estándar: La regla Empírica
En series de datos simétricos, donde la mediana y la media son iguales, las
observaciones tienden a distribuirse igualmente alrededor de estas mediciones de
tendencia central. Cuando el sesgado extremo no se presenta y tal agrupamiento se
observa en una serie de datos, podemos usar la denominada regla empírica para
examinar la propiedad de variabilidad de datos y obtener una mejor idea de lo que la
desviación estándar está midiendo.
La regla empírica establece que en la mayoría de las series de datos encontraremos que
aproximadamente dos de cada tres observaciones (es decir, el 67%), están contenidas en
una distancia de una desviación estándar alrededor de la media y aproximadamente 90%
a 95% de las observaciones están contenidas a una distancia de 2 desviaciones estándar
alrededor de la media.
Uso de la desviación estándar: La regla de BienayméChebyshev
No importa como se distribuyen los datos. el porcentaje de las distribuciones están
contenidas dentro de las dsitancias de k desviaciones estándar alrededor de la media
debe ser al menos
1 - 1 / k2
Al menos 75% de las observaciones deben estar contenidas dentro de distancias de +/-2
desviaciones estándar alrededor de la media. Al menos 88,89% de las observaciones
deben estar contenidas dentro de una distancia de +/-3 desviaciones estándar alrededor
de la media. Al menos 93.75% de las observaciones deben estar contenidas dentro de
distancias de +/-4 desviaciones estándar alrededor de la media.
5. Resumen Capítulo 5 del Libro
Presentación de datos categóricos en tablas y diagramas
Graficación de datos categóricos: de barras, de pastel y de punto
Gráfica de barras
En la gráfica de barras, cada categoría se describe mediante una barra, cuya longitud
representa la frecuencia o porcentaje de observaciones que caen en una categoría. Para
construir una gráfica de barras se hacen las siguientes sugerencias:
1. Las barras deben construirse horizontalmente.
2. Todas las barras deben tener el mismo ancho.
3. Los espacios entre las barras deben variar entre la mitad
4. del ancho de una barra hasta el ancho de una barra.
5. Las escalas y guías son auxiliares útiles en la lectura
6. de una gráfica y deben incluirse. El punto cero u origen debe indicarse.
7. Los ejes deben etiquetarse.
Gráfica de Pastel
Gráfica de Puntos
Graficación de datos categóricos: el Diagrama de Pareto.
El diagrama de Pareto es un tipo especial de gráfica de barras verticales en la que las
respuestas categórizadas se grafican en el orden de rango descendiente de sus
frecuencias y se combinan con un polígono acumulativo en la misma escala. El
principio básico detrás de este dispositivo gráfico es su capacidad de distinguir los
"pocos vitales" de los "muchos triviales".
Tabulación de datos categóricos: Tabla de contingencias y supertablas.
Las tablas de contingencia se usan para examinar las respuestas a dos variables
categóricas simultáneamente.
Supertablas. Una supertabla es esencialmente una colección de tablas de contingencia,
cada una con las mismas variables y categorías de columna. Sin embargo, se incluyen
tantas variables de fila como se deseen para comparaciones frente a la variable de
columna.
Tipos de Gráficos
Medidas Estadísticas.
Medidas Estadísticas descriptivas.
Variables Numéricas:
Medidas de posición.
Media.
Mediana.
Moda.
Cuartiles.
Medidas de Variación.
Rango.
Rango Medio.
Varianza.
Desvío Estándar.
Coeficiente de variación.
DEFINICION DE ESTADISTICA
Definición de estadística
La Estadística es una disciplina que utiliza recursosmatemáticos para organizar y
resumir una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones
respecto de ellos.
Por ejemplo, la estadística interviene cuando se quiere conocer el estado sanitario de un
país, a través de ciertos parámetros como la tasa de morbilidad o mortalidad de la
población.
En este caso la estadística describe la muestra en términos de datos organizados y
resumidos, y luego infiere conclusiones respecto de la población.
Aplicada a la investigación científica, también infiere cuando provee los medios
matemáticos para establecer si una hipótesis debe o no ser rechazada.
La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada
en física, química, biología, medicina, astronomía, psicología, sociología, lingüística,
demografía, etc.
2. Población y muestra
Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente
definir de cuáles datos se va a ocupar. El conjunto de datos de los cuales se ocupa un
determinado estudio estadístico se llama población.
No debe confundirse la población en sentido demográfico y la población en sentido
estadístico.
La población en sentido demográfico es un conjunto de individuos (todos los habitantes
de un país, todas las ratas de una ciudad), mientras que una población en sentido
estadístico es un conjunto de datos referidos a determinada característica o atributo de
los individuos (las edades de todos los individuos de un país, el color de todas las ratas
de una ciudad).
Incluso una población en sentido estadístico no tiene porqué referirse a muchos
individuos. Una población estadística puede ser también el conjunto de calificaciones
obtenidas por un individuo a lo largo de sus estudios universitarios.
Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin
embargo, en la mayoría de los casos no es posible obtenerlos por razones de esfuerzo,
tiempo y dinero, razón por la cual se extrae, de la población, una muestra, mediante un
procedimiento llamado muestreo.
Se llama muestra a un subconjunto de la población, preferiblemente representativo de
la misma.
Por ejemplo, si la población es el conjunto de todas las edades de los estudiantes de la
provincia de Buenos Aires, una muestra será conjunto de edades de 2000 estudiantes de
la provincia de Buenos Aires tomados al azar.
3. Datos individuales y datos estadísticos
Un dato individual es un dato de un solo individuo, mientras que un dato estadístico
es un dato de una muestra o de una población en su conjunto. Por ejemplo, la edad de
Juan es un dato individual, mientras que el promedio de edades de una muestra o
población de personas es un dato estadístico.
Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede ser 37 años, y
el promedio de edades de la muestra donde está incluído Juan es 23 años.
Por esta razón un dato estadístico nada dice respecto de los individuos, porque
solamente describe la muestra o población.
Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por
ejemplo, el promedio de ingresos mensuales de las personas de una muestra), mientras
que los datos estadísticos descriptores de una población suelen llamarse parámetros
(por ejemplo, el promedio de ingresos mensuales de las personas de una población).
4. Estructura del dato
Los datos son la materia prima con que trabaja la estadística, del mismo modo que la
madera es la materia prima con que trabaja el carpintero. Así como este procesa o
transforma la madera para obtener un producto útil, así también el estadístico procesa o
transforma los datos para obtener información útil. Tanto los datos como la madera no
se inventan: se extraen de la realidad; en todo caso el secreto está en recoger la madera
o los datos más adecuados a los objetivos del trabajo a realizar.
De una manera general, puede definirse técnicamente dato como una categoría asignada
a una variable de una unidad de análisis.
Por ejemplo, "Luis tiene 1.70 metros de estatura" es un dato, donde ‘Luis’ es la unidad
de análisis, ‘estatura’ es la variable, y ‘1.70 metros’ es la categoría asignada.
Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de
análisis, una variable y una categoría.
La unidad de análisis es el elemento del cual se predica una propiedad y característica.
Puede ser una persona, una familia, un animal, una sustancia química, o un objeto como
una dentadura o una mesa.
La variable es la característica, propiedad o atributo que se predica de la unidad de
análisis.
Por ejemplo puede ser la edad para una persona, el grado de cohesión para una familia,
el nivel de aprendizaje alcanzado para un animal, el peso específico para una sustancia
química, el nivel de ‘salud’ para una dentadura, y el tamaño para una mesa.
Pueden entonces también definirse población estadística (o simplemente población)
como el conjunto de datos acerca de unidades de análisis (individuos, objetos) en
relación a una misma característica, propiedad o atributo (variable).
Sobre una misma población demográfica pueden definirse varias poblaciones de datos,
una para cada variable. Por ejemplo, en el conjunto de habitantes de un país (población
demográfica), puede definirse una población referida a la variable edad (el conjunto de
edades de los habitantes), a la variable ocupación (el conjunto de ocupaciones de los
habitantes), a la variable sexo (el conjunto de condiciones de sexo de los habitantes).
La categoría es cada una de las posibles variaciones de una variable. Categorías de la
variable sexo son masculino y femenino, de la variable ocupación pueden ser arquitecto,
médico, etc, y de la variable edad pueden ser 10 años, 11 años, etc.
Cuando la variable se mide cuantitativamente, es decir cuando se expresa
numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye
también una unidad de medida, como por ejemplo años, cantidad de hijos, grados de
temperatura, cantidad de piezas dentarias, centímetros, etc. El valor es, entonces, cada
una de las posibles variaciones de una variable cuantitativa.
5. La medición
Los datos se obtienen a través un proceso llamado medición. Desde este punto de vista,
puede definirse medición como el proceso por el cual asignamos una categoría (o un
valor) a una variable, para determinada unidad de análisis.
Ejemplo: cuando decimos que Martín es varón, estamos haciendo una medición, porque
estamos asignando una categoría (varón) a una variable (sexo) para una unidad de
análisis (Martín).
Se pueden hacer mediciones con mayor o menor grado de precisión.
Cuanto más precisa sea la medición, más información nos suministra sobre la variable
y, por tanto, sobre la unidad de análisis. No es lo mismo decir que una persona es alta, a
decir que mide 1,83 metros.
Los diferentes grados de precisión o de contenido informativo de una medición se
suelen caracterizar como niveles de medición. Típicamente se definen cuatro niveles de
medición, y en cada uno de ellos la obtención del dato o resultado de la medición será
diferente:
Ejemplos de datos en diferentes niveles de medición
Nivel de
medición
Nivel nominal Nivel ordinal Nivel
cuantitativo
discreto
Nivel
cuantitativo
continuo
DATO Martín es
electricista
Elena terminó la
secundaria
Juan tiene 32
dientes
María tiene 70
pulsaciones por
minuto
Unidad de
análisis
Martín Elena Juan María
Variable Oficio Nivel de
instrucción
Cantidad de
piezas dentarias
Frecuencia
cardíaca
Categoría o
valor
Electricista Secundaria
completa
32 70
Unidad de
medida
------------- ------------ Diente Pulsaciones por
minuto
En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de
análisis (Martín es electricista).
En el nivel ordinal, medir significa asignar un atributo a una unidad de análisis cuyas
categorías pueden ser ordenadas en una serie creciente o decreciente (la categoría
‘secundaria completa’ puede ordenarse en una serie, pues está entre ‘secundaria
incompleta’ y ‘universitaria incompleta’).
En el nivel cuantitativo, medir significa además asignar un atributo a una unidad de
análisis de modo tal que la categoría asignada permita saber ‘cuánto’ mayor o menor es
respecto de otra categoría, es decir, especifica la distancia o intervalo entre categorías
(la categoría 70 es el doble de la categoría 35).
Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas.
Una variable discreta es aquella en la cual, dados dos valores consecutivos, no puede
adoptar ningún valor intermedio (por ejemplo entre 32 y 33 dientes, no puede hablarse
de 32.5 dientes).
En cambio, una variable es continua cuando, dados dos valores consecutivos, la variable
puede adoptar muchos valores intermedios (por ejemplo entre 1 y 2 metros, puede haber
muchas longitudes posibles).
6. Clasificaciones de la estadística
Existen varias formas de clasificar los estudios estadísticos.
1) Según la etapa.- Hay una estadística descriptiva y una estadística inferencial. La
primera etapa se ocupa de describir la muestra, y la segunda etapa infiere conclusiones a
partir de los datos que describen la muestra (por ejemplo con respecto a la población).
2) Según el tiempo considerado.- Dentro de la estadística descriptiva se distingue la
estadística estática o estructural, que describe la población en un momento dado (por
ejemplo la tasa de nacimientos en determinado censo), y la estadística dinámica o
evolutiva, que describe como va cambiando la población en el tiempo (por ejemplo el
aumento anual en la tasa de nacimientos).
3) Según la cantidad de variables estudiada.- Desde este punto de vista hay una
estadística univariada (estudia una sola variable, como por ejemplo la inteligencia, en
una muestra), una estadística bivariada (estudia como están relacionadas dos variables,
como por ejemplo inteligencia y alimentación), y una estadística multivariada (que
estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad
y la alimentación con la inteligencia).
MEDIDAS DE TENDENCIA CENTRAL
Medidas de tendencia central: Media, Mediana,
Moda
Supóngase que un determinado alumno obtiene 35
puntos en una prueba de matemática. Este puntaje,
por sí mismo tiene muy poco significado a menos
que podamos conocer el total de puntos que obtiene
una persona promedio al participar en esa prueba,
saber cuál es la calificación menor y mayor que se
obtiene, y cuán variadas son esas calificaciones.
En otras palabras, para que una calificación tenga
significado hay que contar con elementos de
referencia generalmente relacionados con ciertos
criterios estadísticos.
Las medidas de tendencia central (media, mediana y moda) sirven como puntos de
referencia para interpretar las calificaciones que se obtienen en una prueba.
Volviendo a nuestro ejemplo, digamos que la calificación promedio en la prueba que
hizo el alumno fue de 20 puntos. Con este dato podemos decir que la calificación del
alumno se ubica notablemente sobre el promedio. Pero si la calificación promedio fue
de 65 puntos, entonces la conclusión sería muy diferente, debido a que se ubicaría muy
por debajo del promedio de la clase.
En resumen, el propósito de las medidas de tendencia central es:
Mostrar en qué lugar se ubica la persona promedio o típica del grupo.
Sirve como un método para comparar o interpretar cualquier puntaje en relación con el
puntaje central o típico.
Sirve como un método para comparar el puntaje obtenido por una misma persona en dos
diferentes ocasiones.
Sirve como un método para comparar los resultados medios obtenidos por dos o más
grupos.
Las medidas de tendencia central más comunes son:
La media aritmética: comúnmente conocida como media o promedio. Se representa
por medio de una letra M o por una X con una línea en la parte superior.
La mediana: la cual es el puntaje que se ubica en el centro de una distribución. Se
representa como Md.
La moda: que es el puntaje que se presenta con mayor frecuencia en una distribución.
Se representa Mo.
El promedio de notas es muy
importante.
De estas tres medidas de tendencia central, la
media es reconocida como la mejor y más útil. Sin
embargo, cuando en una distribución se presentan
casos cuyos puntajes son muy bajos o muy altos
respecto al resto del grupo, es recomendable
utilizar la mediana o la moda. (Porque dadas las
características de la media, esta es afectada por los
valores extremos).
La media es considerada como la mejor medida de
tendencia central, por las siguientes razones:
Los puntajes contribuyen de manera proporcional al hacer el cómputo de la media.
Es la medida de tendencia central más conocida y utilizada.
Las medias de dos o más distribuciones pueden ser fácilmente promediadas mientras
que las medianas y las modas de las distribuciones no se promedian.
La media se utiliza en procesos y técnicas estadísticas más complejas mientras que la
mediana y la moda en muy pocos casos.
Cómo calcular, la media, la moda y la mediana
Media aritmética o promedio
Es aquella medida que se obtiene al dividir la suma de todos los valores de una
variable por la frecuencia total. En palabras más simples, corresponde a la suma de un
conjunto de datos dividida por el número total de dichos datos.
Ejemplo 1:
En matemáticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3
n = 6 (número total de datos)
La media aritmética de las notas de esa asignatura es 4,8. Este número representa el
promedio.
Ejemplo 2:
La media, el mejor dato.
Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de
frecuencias y luego calcular la media aritmética. El siguiente cuadro con las medidas de
63 varas de pino lo ilustra.
Largo (en m)Frecuencia absoluta Largo por Frecuencia absoluta
5 10 5 . 10 = 50
6 15 6 . 15 = 90
7 20 7 . 20 = 140
8 12 8 . 12 = 96
9 6 9 . 6 = 54
Frecuencia total = 63 430
Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor,
por lo tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia
absoluta es 10, significa que el valor a que corresponde se repite 10 veces).
Moda (Mo)
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o
sea, cual se repite más.
Ejemplo 1:
Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de
niñas de un Jardín Infantil.
5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3
La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3)
Ejemplo 2:
20, 12, 14, 23, 78, 56, 96
En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este
conjunto de valores no tiene moda.
Mediana (Med)
Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a
menor o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante
corresponde al número del caso que representa la mediana de la distribución.
Es el valor central de un conjunto de valores ordenados en forma creciente o
decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual
número de valores antes y después de él en un conjunto de datos agrupados.
Según el número de valores que se tengan se pueden presentar dos casos:
Si el número de valores es impar, la Mediana corresponderá al valor central de dicho
conjunto de datos.
Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores
centrales (los valores centrales se suman y se dividen por 2).
Ejemplo 1:
Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2
Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5, 8, 9,
10
El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares.
Ejemplo 2:
El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a menor, y
corresponde a un conjunto de valores pares, por lo tanto, la Med será el promedio de los
valores centrales.
21, 19, 18, 15, 13, 11, 10, 9, 5, 3
Ejemplo 3:
MEDIDAS DE TENDENCIA CENTRAL
La medidas de centralización nos indican en torno a qué valor (centro) se distribuyen
los datos.
Lamedidas de centralización son:
Moda
La moda es el valor que tiene mayor frecuencia absoluta.
Se representa por Mo.
Se puede hallar la moda para variables cualitativas y cuantitativas.
Hallar la moda de la distribución:
2, 3, 3, 4, 4, 4, 5, 5 Mo= 4
Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa
frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene
varias modas.
1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9
Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.
2, 2, 3, 3, 6, 6, 9, 9
Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el
promedio de las dos puntuaciones adyacentes.
0, 1, 3, 3, 5, 5, 7, 8Mo = 4
Cálculo de la moda para datos agrupados
1º Todos los intervalos tienen la misma amplitud.
Li es el límite inferior de la clase modal.
fi es la frecuencia absoluta de la clase modal.
fi--1 es la frecuencia absoluta inmediatamente inferior a la en clase modal.
fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal.
ai es la amplitud de la clase.
También se utiliza otra fórmula de la moda que da un valor aproximado de ésta:
Ejemplo
Calcular la moda de una distribución estadística que viene dada por la siguiente tabla:
fi
[60, 63) 5
[63, 66) 18
[66, 69) 42
[69, 72) 27
[72, 75) 8
100
2º Los intervalos tienen amplitudes distintas.
En primer lugar tenemos que hallar las alturas.
La clase modal es la que tiene mayor altura.
La fórmula de la moda aproximada cuando existen distintas amplitudes es:
Ejemplo
En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y
sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda.
fi hi
[0, 5) 15 3
[5, 7) 20 10
[7, 9) 12 6
[9, 10) 3 3
50
Mediana
Es el valor que ocupa el lugar central de todos los datos cuando éstos están
ordenados de menor a mayor.
La mediana se representa por Me.
La mediana se puede hallar sólo para variables cuantitativas.
Cálculo de la mediana
1 Ordenamos los datos de menor a mayor.
2 Si la serie tiene un número impar de medidas la mediana es la puntuación central
de la misma.
2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5
3 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos
puntuaciones centrales.
7, 8, 9, 10, 11, 12Me= 9.5
Cálculo de la mediana para datos agrupados
La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la
mitad de la suma de las frecuencias absolutas.
Es decir tenemos que buscar el intervalo en el que se encuentre .
Li es el límite inferior de la clase donde se encuentra la mediana.
es la semisuma de las frecuencias absolutas.
Fi-1 es la frecuencia acumulada anterior a la clase mediana.
ai es la amplitud de la clase.
La mediana es independiente de las amplitudes de los intervalos.
Ejemplo
Calcular la mediana de una distribución estadística que viene dada por la siguiente
tabla:
fi Fi
[60, 63) 5 5
[63, 66) 18 23
[66, 69) 42 65
[69, 72) 27 92
[72, 75) 8 100
100
100 / 2 = 50
Clase modal: [66, 69)
Media aritmética
La media aritmética es el valor obtenido al sumar todos los datos y dividir el
resultado entre el número total de datos.
es el símbolo de la media aritmética.
Ejemplo
Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.
Media aritmética para datos agrupados
Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la media es:
Ejercicio de media aritmética
En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que
muestra la tabla. Calcula la puntuación media.
xi fi xi · fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[30,40) 35 10 350
[40, 50) 45 9 405
[50, 60 55 8 440
[60,70) 65 4 260
[70, 80) 75 2 150
42 1 820
Propiedades de la media aritmética
1 La suma de las desviaciones de todas las puntuaciones de una distribución respecto a
la media de la misma igual a cero.
Las suma de las desviaciones de los números 8, 3, 5, 12, 10 de su media aritmética 7.6
es igual a 0:
8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 =
= 0. 4 − 4.6 − 2.6 + 4. 4 + 2. 4 = 0
2 La media aritmética de los cuadrados de las desviaciones de los valores de la
variable con respecto a un número cualquiera se hace mínima cuando dicho número
coincide con la media aritmética.
3 Si a todos los valores de la variable se les suma un mismo número, la media
aritmética queda aumentada en dicho número.
4 Si todos los valores de la variable se multiplican por un mismo número la media
aritmética queda multiplicada por dicho número.
Observaciones sobre la media aritmética
1 La media se puede hallar sólo para variables cuantitativas.
2 La media es independiente de las amplitudes de los intervalos.
3 La media es muy sensible a las puntuaciones extremas. Si tenemos una distribución
con los siguientes pesos:
65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg.
La media es igual a 74 kg, que es una medida de centralización poco representativa de
la distribución.
4 La media no se puede calcular si hay un intervalo con una amplitud indeterminada.
xi fi
[60, 63) 61.5 5
[63, 66) 64.5 18
[66, 69) 67.5 42
[69, 72) 70.5 27
[72, ∞ ) 8
100
En este caso no es posible hallar la media porque no podemos calcular la marca de
clase de último intervalo.
Interpretando el gráfico de barras podemos deducir que:
5 alumnos obtienen puntaje de 62
5 alumnos obtienen puntaje de 67
8 alumnos obtienen puntaje de 72
12 alumnos obtienen puntaje de 77
16 alumnos obtienen puntaje de 82
4 alumnos obtienen puntaje de 87
lo que hace un total de 50 alumnos
Sabemos que la mediana se obtiene haciendo
lo cual significa que la mediana se ubica en la posición intermedia entre los alumnos 25
y 26 (cuyo promedio es 25,5), lo cual vemos en el siguiente cuadro:
puntajealumnos
62 1
62 2
62 3
62 4
62 5
67 6
67 7
67 8
67 9
67 10
72 11
72 12
72 13
72 14
72 15
72 16
72 17
72 18
77 19
77 20
77 21
77 22
77 23
77 24
77 25
77 26
77 27
77 28
77 29
77 30
82 31
82 32
82 33
82 34
82 35
82 36
82 37
82 38
82 39
82 40
82 41
82 42
82 43
82 44
82 45
82 46
87 47
87 48
87 49
87 50
El alumno 25 obtuvo puntaje de 77
El alumno 26 obtuvo puntaje de 77
Entonces, como el total de alumnos es par debemos promediar esos puntajes:
La mediana es 77, lo cual significa que 25 alumnos obtuvieron puntaje desde 77 hacia
abajo (alumnos 25 hasta el 1 en el cuadro) y 25 alumnos obtuvieron puntaje de 77 hacia
arriba (alumnos 26 hasta el 50 en el cuadro).

Más contenido relacionado

La actualidad más candente

La actualidad más candente (12)

T de student
T de studentT de student
T de student
 
Folleto de estadística (1)
Folleto de estadística (1)Folleto de estadística (1)
Folleto de estadística (1)
 
Espacios Y Subespacios Vectoriales
Espacios  Y Subespacios VectorialesEspacios  Y Subespacios Vectoriales
Espacios Y Subespacios Vectoriales
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Relaciones binarias power point
Relaciones binarias power pointRelaciones binarias power point
Relaciones binarias power point
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Estad Descriptiva
Estad DescriptivaEstad Descriptiva
Estad Descriptiva
 
estadístico ambiental
estadístico ambiental estadístico ambiental
estadístico ambiental
 
T de student dependientes
T de student dependientesT de student dependientes
T de student dependientes
 
Prueba de hipótesis.pptx
Prueba de hipótesis.pptxPrueba de hipótesis.pptx
Prueba de hipótesis.pptx
 
PRUEBA DE MANN- WHITNEY.pptx
PRUEBA DE MANN- WHITNEY.pptxPRUEBA DE MANN- WHITNEY.pptx
PRUEBA DE MANN- WHITNEY.pptx
 
Aplicación función inversa.
Aplicación función inversa.Aplicación función inversa.
Aplicación función inversa.
 

Destacado

Proyecto de medidas de tendencia central de sabanalarga grupo 3
Proyecto de medidas de tendencia central de sabanalarga grupo 3Proyecto de medidas de tendencia central de sabanalarga grupo 3
Proyecto de medidas de tendencia central de sabanalarga grupo 3theahdtp2014
 
Cuadernillo de pruebas saber 11° 2012-1
Cuadernillo de pruebas saber 11° 2012-1Cuadernillo de pruebas saber 11° 2012-1
Cuadernillo de pruebas saber 11° 2012-1laura Avila
 
Ejemplo proyecto - Probabilidad y Estadística
Ejemplo proyecto - Probabilidad y EstadísticaEjemplo proyecto - Probabilidad y Estadística
Ejemplo proyecto - Probabilidad y EstadísticaAngel Carreras
 
Aplicaciones de la estadistica en algunas ciencias
Aplicaciones de la estadistica en algunas cienciasAplicaciones de la estadistica en algunas ciencias
Aplicaciones de la estadistica en algunas cienciasLouiseValliere
 
Proyecto diseño de vestido
Proyecto diseño de vestidoProyecto diseño de vestido
Proyecto diseño de vestidonormabaquerizo
 
Estadística descriptiva e inferencial
Estadística descriptiva e inferencialEstadística descriptiva e inferencial
Estadística descriptiva e inferencialPedro López Eiroá
 

Destacado (7)

Proyecto de medidas de tendencia central de sabanalarga grupo 3
Proyecto de medidas de tendencia central de sabanalarga grupo 3Proyecto de medidas de tendencia central de sabanalarga grupo 3
Proyecto de medidas de tendencia central de sabanalarga grupo 3
 
Estadistica grado 11
Estadistica grado 11Estadistica grado 11
Estadistica grado 11
 
Cuadernillo de pruebas saber 11° 2012-1
Cuadernillo de pruebas saber 11° 2012-1Cuadernillo de pruebas saber 11° 2012-1
Cuadernillo de pruebas saber 11° 2012-1
 
Ejemplo proyecto - Probabilidad y Estadística
Ejemplo proyecto - Probabilidad y EstadísticaEjemplo proyecto - Probabilidad y Estadística
Ejemplo proyecto - Probabilidad y Estadística
 
Aplicaciones de la estadistica en algunas ciencias
Aplicaciones de la estadistica en algunas cienciasAplicaciones de la estadistica en algunas ciencias
Aplicaciones de la estadistica en algunas ciencias
 
Proyecto diseño de vestido
Proyecto diseño de vestidoProyecto diseño de vestido
Proyecto diseño de vestido
 
Estadística descriptiva e inferencial
Estadística descriptiva e inferencialEstadística descriptiva e inferencial
Estadística descriptiva e inferencial
 

Similar a Estadística y medidas de tendencia central internet

Similar a Estadística y medidas de tendencia central internet (20)

Las estadísticas en la actualidad
Las estadísticas en la actualidadLas estadísticas en la actualidad
Las estadísticas en la actualidad
 
Estadistica
EstadisticaEstadistica
Estadistica
 
La estadística en nuestro mundo 2
La estadística en nuestro mundo 2La estadística en nuestro mundo 2
La estadística en nuestro mundo 2
 
Introduccion a la estadistica
Introduccion a la estadisticaIntroduccion a la estadistica
Introduccion a la estadistica
 
Blog estadistica
Blog estadisticaBlog estadistica
Blog estadistica
 
Py e 2
Py e 2Py e 2
Py e 2
 
La estadística
La estadísticaLa estadística
La estadística
 
Ensayo Gianna Mujica Estadistica
Ensayo Gianna Mujica EstadisticaEnsayo Gianna Mujica Estadistica
Ensayo Gianna Mujica Estadistica
 
Guia del curso estadistica
Guia del curso  estadisticaGuia del curso  estadistica
Guia del curso estadistica
 
La estadistica descriptiva
La estadistica descriptivaLa estadistica descriptiva
La estadistica descriptiva
 
Actividad 2 de tecnologia
Actividad 2 de tecnologiaActividad 2 de tecnologia
Actividad 2 de tecnologia
 
Manual spss sexto noche
Manual spss sexto nocheManual spss sexto noche
Manual spss sexto noche
 
Importancia de la estadistica
Importancia de la estadisticaImportancia de la estadistica
Importancia de la estadistica
 
Unidad 1_ Introduccion a la estadistica.pdf
Unidad 1_ Introduccion a la estadistica.pdfUnidad 1_ Introduccion a la estadistica.pdf
Unidad 1_ Introduccion a la estadistica.pdf
 
Metodos estadisticos
Metodos estadisticosMetodos estadisticos
Metodos estadisticos
 
Primer trabajo tecnologia 2021
Primer trabajo tecnologia 2021Primer trabajo tecnologia 2021
Primer trabajo tecnologia 2021
 
Taller tecnologia
Taller tecnologiaTaller tecnologia
Taller tecnologia
 
Primer trabajo tecnologia 2021 (1)
Primer trabajo tecnologia 2021 (1)Primer trabajo tecnologia 2021 (1)
Primer trabajo tecnologia 2021 (1)
 
Manual spss 6 to noche (reparado)
Manual spss 6 to noche (reparado)Manual spss 6 to noche (reparado)
Manual spss 6 to noche (reparado)
 
Estadistica
EstadisticaEstadistica
Estadistica
 

Estadística y medidas de tendencia central internet

  • 1. Estadística – Bioestadística: Concepto, Aplicaciones, Relación con otras Ciencias La estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación sumisa, y que han sido recopilados a partir de otros datos numéricos. "La estadística es una técnica especial apta para el estudio cuantitativo de los fenómenos de masa o colectivo, cuya mediación requiere una masa de observaciones de otros fenómenos más simples llamados individuales o particulares". Aplicaciones de la estadística La estadística es un potente auxiliar de muchas ciencias y actividades humanas: sociología, sicología, geografía humana, economía, etc. Es una herramienta indispensable para la toma de decisiones. También es ampliamente empleada para mostrar los aspectos cuantitativos de una situación. La estadística está relacionada con el estudio de proceso cuyo resultado es más o menos imprescindible y con la finalidad de obtener conclusiones para tomar decisiones razonables de acuerdo con tales observaciones. El resultado de estudio de dichos procesos, denominados procesos aleatorios, puede ser de naturaleza cualitativa o cuantitativa y, en este último caso, discreta o continua. Son muchas las predicciones de tipo sociólogo, o económico, que pueden hacerse a partir de la aplicación exclusiva de razonamientos probabilísticos a conjuntos de datos objetivos como son, por ejemplo, los de naturaleza demográfica. Las predicciones estadísticas, difícilmente hacen referencia a sucesos concretos, pero describen con considerable precisión en el comportamiento global de grandes conjuntos de sucesos particulares. Son predicciones que, en general, no acostumbran resultar útiles. Para saber quien, de entre los miembros de una población importante, va a encontrar trabajo o a quedarse sin él; o en cuales miembros va a verse aumentada o disminuida una familia concreta en los próximos meses. Pero que, en cambio puede proporcionar estimaciones fiables del próximo aumento o disminución de la tasa de desempleo referido al conjunto de la población; o de la posible variación de los índices de natalidad o mortalidad. Su Relación con otras Ciencias: La estadística es una rama de la matemática que se refiere a la recolección, estudio e interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, ciencias de la salud como la Psicología y la Medicina, y usada en la toma de decisiones en áreas de negocios e instituciones gubernamentales.
  • 2. La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los casos si no es a través de perspectivas complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la llamada Estadística Multivariante. Los diseños complejos de investigación y análisis, las aportaciones más recientes de la informática para la aplicación de técnicas avanzadas de manipulación de datos y la discusión de estos aspectos desde perspectivas teóricas y aplicadas, preocupan y concentran a multitud de profesionales cuyo quehacer cotidiano es el estudio de cómo se investiga, haciendo de ello su especialidad. Paralelamente, otras especialidades dentro de estas ciencias utilizan el conocimiento ya elaborado y retransmitido, preocupada más por los resultados y posibilidades que por las condiciones de aplicación y los fundamentos de uso, de tal forma que se ha propiciado la utilización de las técnicas estadísticas, sin considerar la adecuación de éstas a las condiciones en las que se aplican. La bioestadística: se ocupa de los problemas planteados dentro de las ciencias de la vida, como la biología, la medicina, etc. y es una de las ramas de la estadística. La aplicación y su relación con otras ciencias resultan hoy en día necesarias, en los campos: Salud pública, que incluye: epidemiología, nutrición, salud ambiental y en investigación de servicios sanitarios. Genómica y poblaciones genéticas Medicina Ecología Bioensayos La colaboración de la bioestadística ha sido clave en el desarrollo de nuevos fármacos, en el entendimiento de enfermedades crónicas como el cáncer y el sida, y estos son algunos de los miles de ejemplos posibles. La estrecha relación de la Estadística con el método científico hace de la Bioestadística una disciplina imprescindible en la mayoría de los proyectos en el área tecnológica. El pensamiento estadístico no sólo resuelve y entiende compleja metodología para dar respuesta a hipótesis, sino que es capaz de organizar el "sistema" que involucra la investigación desde el diseño general, diseño de muestreo, control de calidad de la información, análisis y presentación de resultados. Métodos Estadísticos: Clasificación, Estadística Médica, Estadística de Salud La materia prima de la estadística consiste en conjuntos de números obtenidos al contar o medir elementos. Al recopilar datos estadísticos se ha de tener especial cuidado para garantizar que la información sea completa y correcta.
  • 3. El primer problema para los estadísticos reside en determinar qué información y en que cantidad se ha de reunir. En realidad, la dificultad al compilar un censo está en obtener el número de habitantes de forma completa y exacta; de la misma manera que un físico que quiere contar el número de colisiones por segundo entre las moléculas de un gas debe empezar determinando con precisión la naturaleza de los objetos a contar. Los estadísticos se enfrentan a un complejo problema cuando, por ejemplo, toman una muestra para un sondeo de opinión o una encuesta electoral. El seleccionar una muestra capaz de representar con exactitud las preferencias del total de la población no es tarea fácil. Para establecer una ley física, biológica o social, el estadístico debe comenzar con un conjunto de datos y modificarlo basándose en la experiencia. Por ejemplo, en los primeros estudios sobre crecimiento de la población, los cambios en el número de habitantes se predecían calculando la diferencia entre el número de nacimientos y el de fallecimientos en un determinado lapso. Los expertos en estudios de población comprobaron que la tasa de crecimiento depende sólo del número de nacimientos, sin que el número de defunciones tenga importancia. Por tanto, el futuro crecimiento de la población se empezó a calcular basándose en el número anual de nacimientos por cada 1.000 habitantes. Sin embargo, pronto se dieron cuenta que las predicciones obtenidas utilizando este método no daban resultados correctos. Los estadísticos comprobaron que hay otros factores que limitan el crecimiento de la población. Dado que el número de posibles nacimientos depende del número de mujeres, y no del total de la población, y dado que las mujeres sólo tienen hijos durante parte de su vida, el dato más importante que se ha de utilizar para predecir la población es el número de niños nacidos vivos por cada 1.000 mujeres en edad de procrear. El valor obtenido utilizando este dato mejora al combinarlo con el dato del porcentaje de mujeres sin descendencia. Por tanto, la diferencia entre nacimientos y fallecimientos sólo es útil para indicar el crecimiento de población en un determinado periodo de tiempo del pasado, el número de nacimientos por cada 1.000 habitantes sólo expresa la tasa de crecimiento en el mismo periodo, y sólo el número de nacimientos por cada 1.000 mujeres en edad de procrear sirve para predecir el número de habitantes en el futuro. La estadística se puede clasificar en dos grandes ramas: * Estadística descriptiva o deductiva. * Estadística inferencial o inductiva. La primera se emplea simplemente para resumir de forma numérica o gráfica un conjunto de datos. Se restringe a describir los datos que se analizan. Si aplicamos las herramientas ofrecidas por la estadística descriptiva a una muestra, solo nos limitaremos a describir los datos encontrados en dicha muestra, no se podrá generalizar la información hacia la población. La estadística inferencial permite realizar conclusiones o inferencias, basándose en los datos simplificados y analizados de una muestra hacia la población o universo. Por ejemplo, a partir de una muestra representativa tomada a los habitantes de una ciudad, se podrá inferir la votación de todos los ciudadanos que cumplan los requisitos con un error de aproximación. un orden de magnitud natural (cuantitativas), o simplemente un atributo no sometido a cuantificación (cualitativa). Una variable es medida utilizando una escala de medición. La elección de la(s) escala(s) de medición a utilizar depende, en primer lugar, del tipo de variable en estudio, y,
  • 4. además, del manejo estadístico a la que se someterá la información. En términos prácticos, existe una correspondencia directa entre el concepto de variable y escala de medición. Estadísticas de Salud: Dada la necesidad de bibliografía para la asignatura Informática Medica II se concibió este Material de Apoyo a la Docencia cuyo contenido forma parte del programa analítico de la asignatura. En el mismo se expone el sumario siguiente: Estadísticas utilizadas en el campo de la salud: Estadísticas vitales (natalidad y mortalidad), Estadísticas de morbilidad, Estadísticas de recursos y servicios y Estadísticas de higiene y saneamiento. Medidas de fecundidad. Principales conceptos: Fecundidad, Fertilidad y Natalidad. Medidas de mortalidad: Principales conceptos: Mortalidad infantil y sus componentes, Mortalidad materna, Mortalidad perinatal y neonatal. Mortalidad General. Medidas de morbilidad. Principales conceptos: Incidencia, Prevalencia, Letalidad, Morbilidad conocida y desconocida. Fuentes de Información de estadísticas Vitales: Primaria y Secundaria Fertilidad: Es el aspecto potencial del desarrollo de una población, expresa la capacidad física de procreación. Fecundidad: Es el aspecto real del desarrollo de una población, expresa la capacidad real de reproducirse de una población. Nacido Vivo: Es el producto de la concepción que cualquiera que sea la duración del embarazo, sea expulsado o extraído completamente del seno materno, siempre que después de esa expulsión o extracción manifieste cualquier signo de vida. Tasas relacionadas con la natalidad El estudio de la natalidad está relacionado con el número de nacimientos ocurridos en una población y tiempo determinados, así como la distribución que siguen de acuerdo con ciertas características. Como ves, todo gira en torno a la medición de la misma, y una de las formas de conseguirlo es utilizando las tasas. El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal. Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. "Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones". Levin&Rubin (1996). "Una población es un conjunto de elementos que presentan una característica común". Cadenas (1974). El tamaño que tiene una población es un factor de suma importancia en el proceso de investigación estadística, y este tamaño vienen dado por el número de elementos que
  • 5. constituyen la población, según el número de elementos la población puede ser finita o infinita. Cuando el número de elementos que integra la población es muy grande, se puede considerar a esta como una población infinita, por ejemplo; el conjunto de todos los números positivos. Una población finita es aquella que está formada por un limitado número de elementos, por ejemplo; el número de estudiante del Núcleo San Carlos de la Universidad Nacional Experimental Simón Rodríguez. Cuando la población es muy grande, es obvio que la observación de todos los elementos se dificulte en cuanto al trabajo, tiempo y costo necesario para hacerlo. Para solucionar este inconveniente se utiliza una muestra estadística. Es a menudo imposible o poco práctico observar la totalidad de los individuos, sobre todos si estos son muchos. En lugar de examinar el grupo entero llamado población o universo, se examina una pequeña parte del grupo llamada muestra. Muestra: "Se llama muestra a una parte de la población a estudiar que sirve para representarla". Murria R. Spiegel (1991). "Una muestra es una colección de algunos elementos de la población, pero no de todos". Levin&Rubin (1996). "Una muestra debe ser definida en base de la población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia", Cadenas (1974). El estudio de muestras es más sencillo que el estudio de la población completa; cuesta menos y lleva menos tiempo. Por último se aprobado que el examen de una población entera todavía permite la aceptación de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población. Los expertos en estadística recogen datos de una muestra. Utilizan esta información para hacer referencias sobre la población que está representada por la muestra. En consecuencia muestra y población son conceptos relativos. Una población es un todo y una muestra es una fracción o segmento de ese todo. Muestreo: Esto no es más que el procedimiento empleado para obtener una o más muestras de una población; el muestreo es una técnica que sirve para obtener una o más muestras de población. Este se realiza una vez que se ha establecido un marco muestral representativo de la población, se procede a la selección de los elementos de la muestra aunque hay muchos diseños de la muestra.
  • 6. Al tomar varias muestras de una población, las estadísticas que calculamos para cada muestra no necesariamente serían iguales, y lo más probable es que variaran de una muestra a otra. Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales encargadas de tal fin. En la práctica, es aconsejable utilizar fuentes de datos primarias y en última instancia cuando estas no existan, usar estadísticas de fuentes secundarias. Con este último tipo no debemos pasar por alto que la calidad de las conclusiones estadísticas depende en grado sumo de la exactitud de los datos que se recaben. De Nanda serviría usar técnicas estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas no son aplicadas a datos adecuados o confiables. Cuando un investigador quiere obtener datos estadísticos relativo a un estudio que desea efectuar, puede elegir entre una fuente primaria o en su defecto, una secundaria. O recopilar los datos por sí mismo. La posibilidad mencionada en último término podrá deberse bien a la inexistencia de los datos o bien a que esto no se encuentra discriminado en la forma requerida. Instrumento y Métodos de Recolección de Datos: Elaboración e interpretación de la Información Método para la recolección de datos: En estadística se emplean una variedad de métodos distintos para obtener información de los que se desea investigar. Discutiremos aquí los métodos más importantes, incluyendo las ventajas y limitaciones de estos. La entrevistapersonal: los datos estadísticos necesarios para una investigación, se reúnen frecuentemente mediante un proceso que consiste en enviar un entrevistador o agente, directamente a la persona investigada. El investigador efectuará a esta persona una serie de preguntas previamente escritas en un cuestionario o boleta, donde anotará las respuestas correspondientes. Este procedimiento que se conoce con el nombre de entrevista personal, permite obtener una información más veraz y completa que la que proporcionan otros métodos, debido a que al tener contacto directo con la persona entrevistada, el entrevistador podrá aclarar cualquier duda que se presente sobre el cuestionario o investigación. Otra ventaja es la posibilidad que tienen los entrevistadores de adaptar el lenguaje de las preguntas al nivel intelectual de las personas entrevistadas. Una de las desventajas de este método se debe a que si el entrevistador no obra de buena fe o no tiene un entrenamiento adecuado, puede alterar las respuestas por las personas entrevistadas. Otra desventaja es su alto costo, ya que resulta bastante oneroso el entrenamiento de los agentes o entrenadores y los supervisores de estos, sobre todo si se trata de una investigación extensa.
  • 7. Cuestionarios por correo: consiste en enviar por correo el cuestionario acompañado por el instructivo necesario, dando en este no solo las instrucciones pertinentes para cada una de las preguntas, sino también una breve explicación del objeto de la encuesta con el fin de evitar interpretaciones erróneas. Una de las ventajas es que tienen un costo muy inferior al anterior procedimiento, puesto que no hay que incluir gastos de entrenamiento de personal, el único gasto sería el de franqueo postal. Dentro de las desventajas de este procedimiento podemos señalar que solo un porcentaje bastante bajo de estos es devuelto, en algunos casos no estamos seguros de que los formularios hayan sido recibidos por sus destinatarios y que hayan sido respondido por ellos mismos. Lo que trae como consecuencia que la información se obtenga con una serie de errores difíciles de precisar por el investigador. Entrevista por teléfono: como lo indica su nombre, este método consiste en telefonear a la persona a entrevistar y hacerle una serie de preguntas. Este método es bastante simple y económico, ya que el entrenamiento y supervisión de las personas encargadas de efectuar las preguntas es siempre fácil. Entre las limitaciones que presenta este método podemos señalar el número de preguntas que pueden formularse es relativamente limitado; además las investigaciones efectuadas por este método tienen un carácter selectivo, debido a que muchas de las personas que potencialmente podrían ser investigadas no posee servicio telefónico, por lo que quedan sin la posibilidad de ser entrevistados. Instrumentos para la recolección de datos: Cuestionarios: Cualquiera que sea el método por el que se decida el investigador para recabar información, es necesario elaborar un estudio de preguntas. Los cuestionarios en general, constan de las siguientes partes: La identificación del cuestionario: nombre del patrocinante de la encuesta, (oficial o privada), nombre de la encuesta, número del cuestionario, nombre del encuestador, lugar y fecha de la entrevista. Datos de identificación y de carácter social del encuestado: apellidos, nombres, cédula de identidad, nacionalidad, sexo, edad o fecha de nacimiento, estado civil, grado de instrucción, ocupación actual, ingresos, etc. Datos propios de la investigación, son los datos que interesa conocer para construir el propósito de la investigación. Como es natural, estas partes, así como las preguntas, varían de acuerdo a la finalidad de la encuesta. En algunos tipos de investigación, la parte referente a los datos personales es eliminada por no tener ningún tipo de interés para el estudio.
  • 8. Consideraciones que debemos tomar en cuenta: El cuestionario debe ser conciso; tratar en lo posible de que con el menor número de preguntas, se obtenga la mejor información. Claridad de la redacción; evitar preguntas ambiguas o que sugieran respuestas incorrectas, por lo que deben estar formuladas las preguntas de la forma más sencilla. Discreción: un cuestionario hecho a conciencia, no debe tener preguntas indiscretas o curiosas, sobre datos personales que puedan ofender al entrevistado. Facilidad de contestación: se deben evitar, en lo posible, las preguntas de respuestas libres o abiertas y también la formulación de preguntas que requieran cálculos numéricos por parte del entrevistado. Orden de las preguntas: estas deben tener una secuencia y un orden lógico, agruparlas procurando que se relacionen unas con otras. Series o distribuciones estadísticas: Anteriormente hemos señalado que la estadística, no se encarga del estudio de un hecho aislado, sino que tienen por objeto de los colectivos. Pues bien cuando se realiza una investigación se obtiene una masa de datos que deben ser organizados para disponerlos en un orden, arreglo o secuencia lógica, con el fin de facilitar el análisis de los mismos esta colección de datos numéricos obtenidos de la observación, que se clasifican y ordenan según un determinado criterio, se denominan "series estadísticas", también conocidas como "distribución estadística". Clasificación de las series estadísticas: Series temporales o cronológicas; estas se definen como una masa o conjunto de datos producto de la observación de un fenómeno individual o colectivo, cuantificable en sucesivos instantes o periodos de tiempo. ESTADISTICA DESCRIPTIVA Resumen Capítulo 1 del Libro Estadística Descriptiva: Puede definirse como aquellos métodos que incluyen la recolección, presentación y caraterización de un conjunto de datos con el fin de describir apropiadamente las diversas características de ese conjunto. Estadística Inferencial: Puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población basándose sólo en los resultados de una muestra.
  • 9. Para aclara este concepto se necesitan de las siguientes definiciones: Población: es la totalidad de elementos o cosas bajo consideración. Muestra: Es la porción de la población que se selecciona para su análisis. Parámetro: Es una medida de resumen que se calcula para describir una característica de toda una población. Estadística: Es una medida que se calcula para describir una característica de una sola muestra de la población. Podemos encontrar dos tipos de estudios estadísticos que se emprenden: los estudios enumerativos y los estudios analíticos. Los estudios enumerativos involucran la toma de decisiones respecto a una población y/o sus características. Los estudios analíticos involucran realizar alguna actividad sobre un proceso para mejorar el desempeño en el futuro. La atención de un estudio analítico está puesta sobre la predicción del comportamiento futuro de un proceso y sobre la comprensión y perfeccionamiento de ese proceso. En un estudio analítico no existe un universo identificable, como sucede en un estudio enumerativo y en consecuencia tampoco hay un marco. 2. Resumen Capítulo 2 del Libro Recolección de Datos La necesidad de datos: los datos se necesitan para: 1. Proporcionar la introducción imprescindible para un estudio de investigación. 2. Medir el desempeño en un servicio o proceso de producción en curso. 3. Ayudar en la formulación de cursos alternativos de acción en un proceso de toma de decisiones. 4. Satisfacer nuestra curiosidad. ¿Que es un dato? Los datos pueden concebirse como información numérica necesaria para ayudarnos a tomar una decisión con más bases en una situación particular. ¿Cómo obtenemos los datos? Existen muchos métodos mediante los cuales podemos obtener los datos necesarios. Primero, podemos buscar datos ya publicados por fuentes gubernamentales, industriales o individuales. Segundo, podemos diseñar un experimento. En tercer lugar, podemos conducir un estudio. Cuarto, podemos hacer observaciones del comportamiento, actitudes u opiniones de los individuos en los que estamos interesados. Utilización de fuentes de datos publicadas Sin importar la fuente utilizada, se hace una distinción entre el recolector original de los datos y la organización o individuos que compilan éstos en tablas y diagramas. El recolector de datos es la fuente primaria; el compilador de los datos es la fuente secundaria.
  • 10. Diseño de un experimento En un experimento se ejerce control sobre el tratamiento de los dado a los participantes. Conducción de una encuesta Aquí no se ejerce ningún control sobre el comportamiento de la gente encuestada. Simplemente se formulan preguntas respecto a sus opiniones, actitudes, comportamiento y otras características. Realización de un estudio observacional El investigador observa el comportamiento de interés directamente, por lo común en su entorno natural. La importancia de obtener buenos datos: GIGO GIGO: Entra Basura, sale basura. No importa el método utilizado para obtener los datos, si un estudio ha de ser útil, si el desempeño debe controlarse apropiadamente o si el proceso de la toma de decisiones debe ampliarse, los datos recabados deben ser válidos: es decir, las respuestas correctas deben valorarse de manera que se obtengan mediciones significativas. Obtención de datos mediante investigación de encuesta Tipos de datos Existen básicamente dos tipos de variables aleatorias que producen dos tipos de datos: categóricas y numéricas. Las variables aleatorias categóricas producen respuestas categóricas, mientras que las variables numéricas producen respuestas numéricas. Las variables numéricas pueden considerarse como discretas o continuas. Los datos discretos son respuestas numéricas que surgen de un proceso de conteo, mientras que los datos continuos son respuestas numéricas que surgen de un proceso de medición. La necesidad de definiciones operacionales. Una definición operacional proporciona un significado a un concepto o variable que puede comunicarse a otros individuos. Es algo que tiene el mismo significado ayer, hoy y mañana para todos los individuos. Diseño del cuestionario El objetivo de un cuestionario es permitirnos recabar información significativa que nos ayude en el proceso de toma de decisiones. Selección de temas amplios - Longitud del cuestionario Los amplios temas de los cuestionarios deben enumerarse. Mientras más largo sea el cuestionario, menor será el cociente de respuesta. Por tanto, se deben evaluar cuidadosamente las preguntas. Las preguntas deben ser lo más cortos posibles. Modo de Respuesta Existen tres modos mediante los cuales se realiza el trabajo de encuesta: la entrevista persona, telefónica y por medio del correo. La personal es la que tiene una tasa de respuesta mayor, pero es más costosa. Formulación de preguntas
  • 11. Cada pregunta debe presentarse claramente en el menor número de palabras y cada pregunta debe considerarse esencial para la encuesta. Además, deben ser libres de ambigüedades. Prueba del cuestionario Una vez analizadas los pros y contras de cada pregunta se debe realizar una prueba piloto de manera que puedan examinarse en cuanto a claridad y longitud. Elección del tamaño de muestra para la encuesta Existen tres razones para extraer una muestra. Antes que todo, por lo general lleva demasiado tiempo realizar un censo completo. En segundo lugar, es demasiado costoso hacer un censo completo. Tercero, es demasiado molesto e ineficiente obtener un conteo completo de la población objeto Selección de los sujetos respondientes: tipos de muestras Existen básicamente dos tipos de muestras: las muestra no probabilística y la muestra de probabilidad. Una muestra de probabilidad es aquella en la que los sujetos de la muestra se eligen sobre la base de probabilidades conocidas. En una muestra aleatoria simple cada individuo o elemento tiene la misma oportunidad de selección que cualquier otro, y la selección de un individuo o elemento particular no afecta la probabilidad de que se elija cualquier otro. Extracción de la muestra aleatoria simple La clave de la selección de muestras apropiada es obtener y mantener una lista actualizada de todos los individuos o elementos de los cuales se extraerá la muestra. Tal lista se conoce como el marco de la población. Este listado de población servirá como la población objetivo, de tal manera que si se extrajeran muchas muestrasde probabilidades diferentes de tal lista, en el mejor de los casos cada muestra sería una representación de la población. - Muestreo con o sin reemplazo de poblaciones finitas Para seleccionar la muestra pueden usarse dos métodos básicos: con reemplazo o sin reemplazo. Digamos que N representa la población y n la muestra. Al extraer con reemplazo la probabilidad de cualquier miembro de la población de ser seleccionado en la primera extracción es 1/N. La probabilidad de ser seleccionado en otra extracción sigue siendo 1/N debido a que una vez registrado el dato, el individuo seguirá formando parte de la población. Sin embargo, al muestrear poblaciones humanas generalmente se considera más apropiado tener una muestra de persona diferentes que permitir mediciones repetidas de la misma persona. La probabilidad en este caso es 1/N en la primera extracción. La probabilidad de que cualquier individuo no seleccionado previamente sea seleccionado en la segunda extracción es 1/N-1. La encuesta de la muestra El primer pasa para evaluar una encuesta es determinar si se basó en una muestra de probabilidad o en una no probabilístico. Aun cuando las encuestas emplean métodos de muestreo de probabilidad aleatorios, están sujetas a errores potenciales. Existen cuatro tipo de errores de encuesta:
  • 12. 1 - Error de cobertura o sesgo de selección. Este error resulta de la exclusión de ciertos sujetos del listado de población, de tal manera que no tienen oportunidad de ser seleccionados en la muestra. El error de cobertura provoca el sesgo de selección. 2- Error de no-respuesta o sesgo de no-respuesta. El error de no-respuesta resulta del fracaso de recolectar datos sobre todos los sujetos de la muestra. Y el error de no- respuesta da como resultado el sesgo de no-respuesta. 3- Error de Muestreo. Este error refleja la heterogeneidad o las diferencias de oportunidad de muestra a muestra basándose en la probabilidad de los sujetos que están siendo seleccionados en las muestras particulares. El error de muestreo puede reducirse tomando tamaños de muestra mayores, aunque esto incrementará el costo de aplicación de la encuesta. 4- Error de Medición. Este error se refiere a inexactitudes en las respuestas registradas que ocurren debido a una mala formulación de las preguntas, el efecto de un entrevistados sobre el encuestado o el esfuerzo hecho por el encuestado. Organización y Resumen de Datos Organizacion, Resumen Y Presentacion De Datos Estadisticos Conceptos que deben reforzarse POBLACION: es el conjunto formado por todas las unidades elementales que proporcionarán las mediciones de interés. Pueden ser personas, cosas, objetos abstractos. CENSO: Cuando se estudia la totalidad de las unidades elementales que componen la población. Desventaja: errores de observación. Ej.: omisiones, duplicaciones, no-ubicación (no medibles) del encuestado, volumen de información MUESTRA: se estudia una parte representativa de la población Desventaja: errores de observación (no medibles) errores de estimación (medible, cuantificable) LOS DATOS ESTADISTICOS SON VARIABLES, SU RESULTADO VARIA DE UNA MEDICION A OTRA. Debido a ello a los datos estadísticos los denominamos VARIABLES. Según se vio, las Variables se clasifican en: Categóricas Ordinales o Nominales Y Numéricas Discretas o Contínuas. Caso Sr. Juárez Problema: " Aumento en el índice de rotación de cobranzas". Población: Todos los clientes que compran a crédito al señor Juárez en el local A o B. Supuestos: - Dos Locales A y B. Datos del último mes. Muestra Local A: 60 clientes; Local B: 78 clientes. Hipótesis de Trabajo: Deudores del local A necesitan menos tiempo para pagar. Situación económica de los clientes peor þ nosotros > plazo de financiación. Locales poseen precios > competencia. Mal sistema de cobros en cuenta corriente. Para Cada hipótesis se debe tomar una variable a analizar.
  • 13. Variable a Utilizar en nuestro Caso: " Cantidad de días transcurridos entre la confección de la factura y el efectivo cobro de la misma. Definiciones operacionales: N= Tamaño de la población. n= Tamaño de la muestra. Yi = Variable a analizar El tamaño de muestra es independiente del tamaño de la población. Distribución de frecuencia: fi: frecuencia absoluta. Fi: frecuencia absoluta acumulada. hi: frecuencia relativa ( cociente entre frecuencia absoluta y la muestra/población ). Hi: frecuencia relativa acumulada. El 21,7 % de los clientes del local A pagan el día 20. En el local minorista hay pocos que pagan los primeros días y pocos los que pagan el último día. Para comparar se trabaja con frecuencias relativas (cuando los tamaños de muestra son distintos). 23/03/01 Práctico Ejercicio 2.35 - Página 49 n = 1425 Objetivo: " Medir el grado de satisfacción de los clientes que compraron una videograbadora en los últimos 12 meses. a. Población: Todos los clientes que compraron una videograbadora en los últimos 12 meses. b. Preguntas cualitativas: 1. ¿Qué le pareció el producto? 2. - Excelente. - Muy Bueno. - Bueno. - Malo. - Si. - No. 3. Recomendaría el Producto. 4. Compraría nuestra marca o producto. Si. No.
  • 14. Preguntas Cuantitativas. 1. ¿ Cuantas veces usó el servicio técnico? Ninguna. Una. Dos. Más de dos. 1. Diseño y funcionamiento. Califique de uno a diez 2. ¿ Cuántas marcas analizó antes de decidir por Xenith? 3. ¿Cuántos productos Xenith posee Ud.? Ejercicio 3.8 - Pagina 61 b) Diagrama de Tallo y Hoja SPSS lo hace en forma automática. Yi= Segundos que tarda un automóvil de llegar de 0 a 60 Mph. Autos Alemanes Tallo Hoja 4 9 5 5 4 1 6 4 9 4 7 0 9 7 9 1 5 8 6 7 3 5 5 8 9 9 10 0 9 27/03/01 Construcción de Gráficos Nombrar los ejes. Título del gráfico. Fuente de datos. Ejercicio 3.70 - Pagina 95 Yi fi hi Fi Hi 1,00 1 0,03 1 0,03 1,50 2 0,07 3 0,10 2,00 3 0,10 6 0,20
  • 15. 2,50 2 0,07 8 0,27 3,00 6 0,20 14 0,47 3,50 5 0,17 19 0,63 4,00 2 0,07 21 0,70 4,50 2 0,07 23 0,77 5,00 3 0,10 26 0,87 5,50 1 0,03 27 0,90 6,00 1 0,03 28 0,93 6,50 1 0,03 29 0,97 7,00 1 0,03 30 1,00 30 1,00 Yi = $ de cada manómetro. fi = cantidad de veces que se repite la variable. En este caso se supone que la variable es discreta. Construcción de Intervalos Intervalos sirve en especial para variables continuas Ry = Y max - Y min = Recorrido = Amplitud = Rango Ry = 7.5 - 1 = 6.5 Cantidad de intervalos 4 C= Amplitud del intervalo = Ry / Cantidad de intervalos = 6.5/4 = 1.625 C = Valor entero = 2 Ry* = c x cantidad de intervalos = 2 x 4 = 8 Yi-1 - Yi Yi fi hi 1 - 3 2 8 0.27 3 - 5 4 15 0.50 5 - 7 6 6 0.20 7 -9 8 1 0.03 30 1 Construcción del intervalo del Caso Juárez. R = 38 - 14 = 24 Cantidad de Intervalos = 7 Amplitud = Ry / c = 3.43 = 4 3. Resumen Capítulo 3 del Libro Presentación de datos numéricos en tablas y diagramas Una distribución de frecuencia es una tabla de resumen en la que los datos se disponen
  • 16. en agrupamientos o categorías convenientemente establecidas de clases ordenadas numéricamente. En esta forma las características más importantes de los datos se aproximan muy fácilmente, compensando así el hecho de que cuando los datos se agrupan de ese modo, la información inicial referente a las observaciones individuales de que antes se disponía se pierde a través del proceso de agrupamiento o condensación. Al construir la tabla de frecuencia-distribución, debe ponerse atención a: 1. Seleccionar el número apropiado de agrupamientos de clase para la tabla. 2. Obtener un intervalo o ancho de clase de cada agrupamiento de clase. 3. Establecer los límites de cada agrupamiento de clase para evitar los traslapes. Selección del Número de Clases La distribución de frecuencia debe tener al menos cinco agrupamiento de clase, pero no más de 15. Si no hay suficientes agrupamientos de clase o si hay demasiados, se obtendrá poca información. Obtención de los intervalos de clase Ancho del intervalo Rango número de agrupamientos de clase deseado La principal ventaja de usar una de estas tablas de resumen es que las principales características de los datos se hacen evidentes inmediatamente para el lector. La principal desventaja de tal tabla de resumen es que no podemos saber como se distribuyen los valores individuales dentro de un intervalo de clase particular sin tener acceso a los datos originales. El punto medio de la clase, sin embargo, es el valor usado para representar todos los datos resumidos en un intervalo particular. El punto medio de una clase (o marca de clase) es el punto a la mitad de los límites de cada clase y es representativo de los datos de esa clase. Tabulación de datos numéricos: la distribución de frecuencia relativa y distribución de porcentaje La distribución relativa de frecuencia se forma dividiendo las frecuencias de cada clase de distribución de frecuencia entre el número total de observaciones. Entonces puede formarse una distribución de porcentaje multiplicando cada frecuencia relativa o proporción entre 100. La distribución de frecuencia relativa o la distribución de porcentaje se vuelve esencial siempre que una serie de datos se compara con otra seria de datos, especialmente si difiere el número de observaciones en cada serie de datos. Graficación de datos numéricos: el histograma y el polígono Histogramas Los histogramas son diagramas de barras verticales en los que se construyen barras rectangulares en los límites de cada clase. La variable aleatoria o fenómeno de interés se despliega a lo largo del eje horizontal; el eje vertical representa el número, proporción o porcentaje de observaciones por intervalo de clase, dependiendo de si el histograma particular, es un histograma de frecuencia, un histograma de frecuencia relativa o histograma de porcentaje
  • 17. Al comparar dos o más series de datos, ni los diagramas de tallo y hoja ni los histogramas pueden construirse en la misma gráfica. Con respecto a estos últimos, la sobreposición de barras verticales de uno en el otro ocasionaría dificultades de interpretación; en estos casos se usan los polígonos. Polígonos El polígono de porcentaje se forma permitiendo que el punto medio de cada clase represente los datos de esa clase y luego conectando la sucesión de puntos medios con sus respectivos porcentajes de clase. Distribuciones acumulativas y polígonos acumulativos Una tabla de distribución de porcentaje acumulativo se construye registrando primero los límites inferiores de cada clase a partir de la distribución de porcentaje y luego insertando un límite extra al final. Polígono de porcentaje acumulativo Para construir un polígono de porcentaje acumulativo (también llamado ojiva), el fenómeno se grafica en el eje horizontal, mientras que los porcentajes acumulativos se grafican en el eje vertical. 4. Resumen Capítulo 4 del Libro Resumen y descripción de los datos numéricos Propiedades de los datos numéricos. Las tres mejores propiedades que describe una serie numérica de datos son: 1. Tendencia central 2. Variación 3. Forma Si estas mediciones se calculan a partir de una muestra, se denominan estadísticas, si se calculan a partir de los datos de una población se denominan parámetros. Mediciones de tendencia Central La media aritmética, es el promedio. Se calcula sumando todas las observaciones y luego dividiendo el total entre el número de elementos involucrados. La media actúa como punto de equilibrio de tal forma que las observaciones menores compensan a las observaciones que son mayores. La media aritmética se ve afectada en gran medida por valores extremos. La mediana. Es el valor medio de una secuencia ordenada de datos. Si no hay empates, la mitad de las observaciones serán menores y la otra mitad serán mayores. La mediana no se ve afectada por valores extremos. Para calcular la mediana, primero se deben poner los datos en orden. Después usamos la fórmula del punto de posicionamiento.
  • 18. El cálculo del valor de la media se ve afectado por el número de observaciones, no por la magnitud de cualquier extremo. La moda. Es el valor de una serie de datos que aparece con más frecuencia. La moda no se ve afectada por la ocurrencia de cualquier valor extremo. Cuartiles. Los cuartiles sonmediciones descriptivas que dividen los datos ordenados en cuatro cuartos. Mediciones de la Variación La variación es la cantidad de dispersión o propagación en los datos. El rango: es la diferencia entre la mayor y la menor observación en una serie de datos. El rango mide la propagación total en la serie de datos. La debilidad del rango es que no logra tomar en cuenta la forma en que los datos se distribuyen realmente entre el mayor y el menor valor. Sería impropio usar el rango como una medición cuando uno de o ambos componentes son observaciones extremas. El rango intercuartil: es la diferencia entre el tercer y primer cuartil. No se ve influida por valores extremos. La varianza y la desviación estándar: a diferencia de las mediciones anteriores la varianza y la desviación estándar toman en cuenta como se distribuyen las observaciones. La Varianza de muestra es el promedio de las diferencias cuadradas entre cada una de las observaciones de una serie de datos y la media. La desviación estándar es simplemente la raíz cuadrada de la varianza. La varianza y la desviación miden la dispersión promedio alrededor de la media, es decir, como las observaciones mayores fluctúan por encima de ésta y como las observaciones menores se distribuyen por debajo de ésta. El Coeficiente de Variación: es una medida relativa de variación. Se expresa como porcentaje antes que en términos de las unidades de los datos particulares. Mide la dispersión en los datos relativa a la media. El coeficiente de variación es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas unidades de medición. Forma Para describir la forma sólo necesitamos comparar la media y la mediana. Si estas dos mediciones son iguales, por lo general podemos considerar que los datos son simétricos. Si la media excede a la mediana, los datos pueden describirse de sesgo positivo o sesgadas a la derecha. Si la media es excedida por la mediana, estos datos pueden llamarse de sesgo negativo o sesgadas a la izquierda. El sesgo positivo surge cuando la media se incrementa en algunos valores inusualmente altos, el sesgo negativo ocurre cuando la media se reduce en algunos valores extremadamente bajos. Cálculo de mediciones descriptivas de resumen de una población Las mediciones de tendencia central para una población se calculan igual que en la muestra simplemente reemplazamos n por N. El rango y el rango intercuartil para una población de tamaño N se obtienen como si fuera una muestra reemplazando n por N. La varianza se calcula reemplazando el ( n - 1 ) del denominador por N.
  • 19. Uso de la Desviación Estándar: La regla Empírica En series de datos simétricos, donde la mediana y la media son iguales, las observaciones tienden a distribuirse igualmente alrededor de estas mediciones de tendencia central. Cuando el sesgado extremo no se presenta y tal agrupamiento se observa en una serie de datos, podemos usar la denominada regla empírica para examinar la propiedad de variabilidad de datos y obtener una mejor idea de lo que la desviación estándar está midiendo. La regla empírica establece que en la mayoría de las series de datos encontraremos que aproximadamente dos de cada tres observaciones (es decir, el 67%), están contenidas en una distancia de una desviación estándar alrededor de la media y aproximadamente 90% a 95% de las observaciones están contenidas a una distancia de 2 desviaciones estándar alrededor de la media. Uso de la desviación estándar: La regla de BienayméChebyshev No importa como se distribuyen los datos. el porcentaje de las distribuciones están contenidas dentro de las dsitancias de k desviaciones estándar alrededor de la media debe ser al menos 1 - 1 / k2 Al menos 75% de las observaciones deben estar contenidas dentro de distancias de +/-2 desviaciones estándar alrededor de la media. Al menos 88,89% de las observaciones deben estar contenidas dentro de una distancia de +/-3 desviaciones estándar alrededor de la media. Al menos 93.75% de las observaciones deben estar contenidas dentro de distancias de +/-4 desviaciones estándar alrededor de la media. 5. Resumen Capítulo 5 del Libro Presentación de datos categóricos en tablas y diagramas Graficación de datos categóricos: de barras, de pastel y de punto Gráfica de barras En la gráfica de barras, cada categoría se describe mediante una barra, cuya longitud representa la frecuencia o porcentaje de observaciones que caen en una categoría. Para construir una gráfica de barras se hacen las siguientes sugerencias: 1. Las barras deben construirse horizontalmente. 2. Todas las barras deben tener el mismo ancho. 3. Los espacios entre las barras deben variar entre la mitad 4. del ancho de una barra hasta el ancho de una barra. 5. Las escalas y guías son auxiliares útiles en la lectura 6. de una gráfica y deben incluirse. El punto cero u origen debe indicarse. 7. Los ejes deben etiquetarse. Gráfica de Pastel Gráfica de Puntos
  • 20. Graficación de datos categóricos: el Diagrama de Pareto. El diagrama de Pareto es un tipo especial de gráfica de barras verticales en la que las respuestas categórizadas se grafican en el orden de rango descendiente de sus frecuencias y se combinan con un polígono acumulativo en la misma escala. El principio básico detrás de este dispositivo gráfico es su capacidad de distinguir los "pocos vitales" de los "muchos triviales". Tabulación de datos categóricos: Tabla de contingencias y supertablas. Las tablas de contingencia se usan para examinar las respuestas a dos variables categóricas simultáneamente. Supertablas. Una supertabla es esencialmente una colección de tablas de contingencia, cada una con las mismas variables y categorías de columna. Sin embargo, se incluyen tantas variables de fila como se deseen para comparaciones frente a la variable de columna. Tipos de Gráficos Medidas Estadísticas. Medidas Estadísticas descriptivas. Variables Numéricas: Medidas de posición. Media. Mediana. Moda. Cuartiles. Medidas de Variación. Rango. Rango Medio. Varianza. Desvío Estándar. Coeficiente de variación. DEFINICION DE ESTADISTICA Definición de estadística La Estadística es una disciplina que utiliza recursosmatemáticos para organizar y resumir una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos. Por ejemplo, la estadística interviene cuando se quiere conocer el estado sanitario de un país, a través de ciertos parámetros como la tasa de morbilidad o mortalidad de la población. En este caso la estadística describe la muestra en términos de datos organizados y resumidos, y luego infiere conclusiones respecto de la población. Aplicada a la investigación científica, también infiere cuando provee los medios matemáticos para establecer si una hipótesis debe o no ser rechazada.
  • 21. La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada en física, química, biología, medicina, astronomía, psicología, sociología, lingüística, demografía, etc. 2. Población y muestra Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente definir de cuáles datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadístico se llama población. No debe confundirse la población en sentido demográfico y la población en sentido estadístico. La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país, todas las ratas de una ciudad), mientras que una población en sentido estadístico es un conjunto de datos referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de un país, el color de todas las ratas de una ciudad). Incluso una población en sentido estadístico no tiene porqué referirse a muchos individuos. Una población estadística puede ser también el conjunto de calificaciones obtenidas por un individuo a lo largo de sus estudios universitarios. Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin embargo, en la mayoría de los casos no es posible obtenerlos por razones de esfuerzo, tiempo y dinero, razón por la cual se extrae, de la población, una muestra, mediante un procedimiento llamado muestreo. Se llama muestra a un subconjunto de la población, preferiblemente representativo de la misma. Por ejemplo, si la población es el conjunto de todas las edades de los estudiantes de la provincia de Buenos Aires, una muestra será conjunto de edades de 2000 estudiantes de la provincia de Buenos Aires tomados al azar. 3. Datos individuales y datos estadísticos Un dato individual es un dato de un solo individuo, mientras que un dato estadístico es un dato de una muestra o de una población en su conjunto. Por ejemplo, la edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o población de personas es un dato estadístico. Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede ser 37 años, y el promedio de edades de la muestra donde está incluído Juan es 23 años. Por esta razón un dato estadístico nada dice respecto de los individuos, porque solamente describe la muestra o población.
  • 22. Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por ejemplo, el promedio de ingresos mensuales de las personas de una muestra), mientras que los datos estadísticos descriptores de una población suelen llamarse parámetros (por ejemplo, el promedio de ingresos mensuales de las personas de una población). 4. Estructura del dato Los datos son la materia prima con que trabaja la estadística, del mismo modo que la madera es la materia prima con que trabaja el carpintero. Así como este procesa o transforma la madera para obtener un producto útil, así también el estadístico procesa o transforma los datos para obtener información útil. Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto está en recoger la madera o los datos más adecuados a los objetivos del trabajo a realizar. De una manera general, puede definirse técnicamente dato como una categoría asignada a una variable de una unidad de análisis. Por ejemplo, "Luis tiene 1.70 metros de estatura" es un dato, donde ‘Luis’ es la unidad de análisis, ‘estatura’ es la variable, y ‘1.70 metros’ es la categoría asignada. Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de análisis, una variable y una categoría. La unidad de análisis es el elemento del cual se predica una propiedad y característica. Puede ser una persona, una familia, un animal, una sustancia química, o un objeto como una dentadura o una mesa. La variable es la característica, propiedad o atributo que se predica de la unidad de análisis. Por ejemplo puede ser la edad para una persona, el grado de cohesión para una familia, el nivel de aprendizaje alcanzado para un animal, el peso específico para una sustancia química, el nivel de ‘salud’ para una dentadura, y el tamaño para una mesa. Pueden entonces también definirse población estadística (o simplemente población) como el conjunto de datos acerca de unidades de análisis (individuos, objetos) en relación a una misma característica, propiedad o atributo (variable). Sobre una misma población demográfica pueden definirse varias poblaciones de datos, una para cada variable. Por ejemplo, en el conjunto de habitantes de un país (población demográfica), puede definirse una población referida a la variable edad (el conjunto de edades de los habitantes), a la variable ocupación (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones de sexo de los habitantes). La categoría es cada una de las posibles variaciones de una variable. Categorías de la variable sexo son masculino y femenino, de la variable ocupación pueden ser arquitecto, médico, etc, y de la variable edad pueden ser 10 años, 11 años, etc. Cuando la variable se mide cuantitativamente, es decir cuando se expresa numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye
  • 23. también una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de piezas dentarias, centímetros, etc. El valor es, entonces, cada una de las posibles variaciones de una variable cuantitativa. 5. La medición Los datos se obtienen a través un proceso llamado medición. Desde este punto de vista, puede definirse medición como el proceso por el cual asignamos una categoría (o un valor) a una variable, para determinada unidad de análisis. Ejemplo: cuando decimos que Martín es varón, estamos haciendo una medición, porque estamos asignando una categoría (varón) a una variable (sexo) para una unidad de análisis (Martín). Se pueden hacer mediciones con mayor o menor grado de precisión. Cuanto más precisa sea la medición, más información nos suministra sobre la variable y, por tanto, sobre la unidad de análisis. No es lo mismo decir que una persona es alta, a decir que mide 1,83 metros. Los diferentes grados de precisión o de contenido informativo de una medición se suelen caracterizar como niveles de medición. Típicamente se definen cuatro niveles de medición, y en cada uno de ellos la obtención del dato o resultado de la medición será diferente: Ejemplos de datos en diferentes niveles de medición Nivel de medición Nivel nominal Nivel ordinal Nivel cuantitativo discreto Nivel cuantitativo continuo DATO Martín es electricista Elena terminó la secundaria Juan tiene 32 dientes María tiene 70 pulsaciones por minuto Unidad de análisis Martín Elena Juan María Variable Oficio Nivel de instrucción Cantidad de piezas dentarias Frecuencia cardíaca Categoría o valor Electricista Secundaria completa 32 70 Unidad de medida ------------- ------------ Diente Pulsaciones por minuto En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de análisis (Martín es electricista). En el nivel ordinal, medir significa asignar un atributo a una unidad de análisis cuyas categorías pueden ser ordenadas en una serie creciente o decreciente (la categoría
  • 24. ‘secundaria completa’ puede ordenarse en una serie, pues está entre ‘secundaria incompleta’ y ‘universitaria incompleta’). En el nivel cuantitativo, medir significa además asignar un atributo a una unidad de análisis de modo tal que la categoría asignada permita saber ‘cuánto’ mayor o menor es respecto de otra categoría, es decir, especifica la distancia o intervalo entre categorías (la categoría 70 es el doble de la categoría 35). Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas. Una variable discreta es aquella en la cual, dados dos valores consecutivos, no puede adoptar ningún valor intermedio (por ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes). En cambio, una variable es continua cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles). 6. Clasificaciones de la estadística Existen varias formas de clasificar los estudios estadísticos. 1) Según la etapa.- Hay una estadística descriptiva y una estadística inferencial. La primera etapa se ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen la muestra (por ejemplo con respecto a la población). 2) Según el tiempo considerado.- Dentro de la estadística descriptiva se distingue la estadística estática o estructural, que describe la población en un momento dado (por ejemplo la tasa de nacimientos en determinado censo), y la estadística dinámica o evolutiva, que describe como va cambiando la población en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos). 3) Según la cantidad de variables estudiada.- Desde este punto de vista hay una estadística univariada (estudia una sola variable, como por ejemplo la inteligencia, en una muestra), una estadística bivariada (estudia como están relacionadas dos variables, como por ejemplo inteligencia y alimentación), y una estadística multivariada (que estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad y la alimentación con la inteligencia). MEDIDAS DE TENDENCIA CENTRAL
  • 25. Medidas de tendencia central: Media, Mediana, Moda Supóngase que un determinado alumno obtiene 35 puntos en una prueba de matemática. Este puntaje, por sí mismo tiene muy poco significado a menos que podamos conocer el total de puntos que obtiene una persona promedio al participar en esa prueba, saber cuál es la calificación menor y mayor que se obtiene, y cuán variadas son esas calificaciones. En otras palabras, para que una calificación tenga significado hay que contar con elementos de referencia generalmente relacionados con ciertos criterios estadísticos. Las medidas de tendencia central (media, mediana y moda) sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba. Volviendo a nuestro ejemplo, digamos que la calificación promedio en la prueba que hizo el alumno fue de 20 puntos. Con este dato podemos decir que la calificación del alumno se ubica notablemente sobre el promedio. Pero si la calificación promedio fue de 65 puntos, entonces la conclusión sería muy diferente, debido a que se ubicaría muy por debajo del promedio de la clase. En resumen, el propósito de las medidas de tendencia central es: Mostrar en qué lugar se ubica la persona promedio o típica del grupo. Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o típico. Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones. Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos. Las medidas de tendencia central más comunes son: La media aritmética: comúnmente conocida como media o promedio. Se representa por medio de una letra M o por una X con una línea en la parte superior. La mediana: la cual es el puntaje que se ubica en el centro de una distribución. Se representa como Md. La moda: que es el puntaje que se presenta con mayor frecuencia en una distribución. Se representa Mo. El promedio de notas es muy importante.
  • 26. De estas tres medidas de tendencia central, la media es reconocida como la mejor y más útil. Sin embargo, cuando en una distribución se presentan casos cuyos puntajes son muy bajos o muy altos respecto al resto del grupo, es recomendable utilizar la mediana o la moda. (Porque dadas las características de la media, esta es afectada por los valores extremos). La media es considerada como la mejor medida de tendencia central, por las siguientes razones: Los puntajes contribuyen de manera proporcional al hacer el cómputo de la media. Es la medida de tendencia central más conocida y utilizada. Las medias de dos o más distribuciones pueden ser fácilmente promediadas mientras que las medianas y las modas de las distribuciones no se promedian. La media se utiliza en procesos y técnicas estadísticas más complejas mientras que la mediana y la moda en muy pocos casos. Cómo calcular, la media, la moda y la mediana Media aritmética o promedio Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total. En palabras más simples, corresponde a la suma de un conjunto de datos dividida por el número total de dichos datos. Ejemplo 1: En matemáticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3 n = 6 (número total de datos) La media aritmética de las notas de esa asignatura es 4,8. Este número representa el promedio. Ejemplo 2: La media, el mejor dato.
  • 27. Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de frecuencias y luego calcular la media aritmética. El siguiente cuadro con las medidas de 63 varas de pino lo ilustra. Largo (en m)Frecuencia absoluta Largo por Frecuencia absoluta 5 10 5 . 10 = 50 6 15 6 . 15 = 90 7 20 7 . 20 = 140 8 12 8 . 12 = 96 9 6 9 . 6 = 54 Frecuencia total = 63 430 Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor, por lo tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia absoluta es 10, significa que el valor a que corresponde se repite 10 veces). Moda (Mo) Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o sea, cual se repite más. Ejemplo 1: Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de niñas de un Jardín Infantil. 5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3 La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3) Ejemplo 2: 20, 12, 14, 23, 78, 56, 96 En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este conjunto de valores no tiene moda. Mediana (Med) Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a menor o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante corresponde al número del caso que representa la mediana de la distribución.
  • 28. Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual número de valores antes y después de él en un conjunto de datos agrupados. Según el número de valores que se tengan se pueden presentar dos casos: Si el número de valores es impar, la Mediana corresponderá al valor central de dicho conjunto de datos. Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2). Ejemplo 1: Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2 Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5, 8, 9, 10 El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares. Ejemplo 2: El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Med será el promedio de los valores centrales. 21, 19, 18, 15, 13, 11, 10, 9, 5, 3 Ejemplo 3: MEDIDAS DE TENDENCIA CENTRAL La medidas de centralización nos indican en torno a qué valor (centro) se distribuyen los datos. Lamedidas de centralización son: Moda La moda es el valor que tiene mayor frecuencia absoluta.
  • 29. Se representa por Mo. Se puede hallar la moda para variables cualitativas y cuantitativas. Hallar la moda de la distribución: 2, 3, 3, 4, 4, 4, 5, 5 Mo= 4 Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas. 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9Mo= 1, 5, 9 Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda. 2, 2, 3, 3, 6, 6, 9, 9 Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las dos puntuaciones adyacentes. 0, 1, 3, 3, 5, 5, 7, 8Mo = 4 Cálculo de la moda para datos agrupados 1º Todos los intervalos tienen la misma amplitud. Li es el límite inferior de la clase modal. fi es la frecuencia absoluta de la clase modal. fi--1 es la frecuencia absoluta inmediatamente inferior a la en clase modal. fi-+1 es la frecuencia absoluta inmediatamente posterior a la clase modal. ai es la amplitud de la clase. También se utiliza otra fórmula de la moda que da un valor aproximado de ésta:
  • 30. Ejemplo Calcular la moda de una distribución estadística que viene dada por la siguiente tabla: fi [60, 63) 5 [63, 66) 18 [66, 69) 42 [69, 72) 27 [72, 75) 8 100 2º Los intervalos tienen amplitudes distintas. En primer lugar tenemos que hallar las alturas. La clase modal es la que tiene mayor altura. La fórmula de la moda aproximada cuando existen distintas amplitudes es:
  • 31. Ejemplo En la siguiente tabla se muestra las calificaciones (suspenso, aprobado, notable y sobresaliente) obtenidas por un grupo de 50 alumnos. Calcular la moda. fi hi [0, 5) 15 3 [5, 7) 20 10 [7, 9) 12 6 [9, 10) 3 3 50 Mediana Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor. La mediana se representa por Me. La mediana se puede hallar sólo para variables cuantitativas. Cálculo de la mediana 1 Ordenamos los datos de menor a mayor. 2 Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.
  • 32. 2, 3, 4, 4, 5, 5, 5, 6, 6Me= 5 3 Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales. 7, 8, 9, 10, 11, 12Me= 9.5 Cálculo de la mediana para datos agrupados La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas. Es decir tenemos que buscar el intervalo en el que se encuentre . Li es el límite inferior de la clase donde se encuentra la mediana. es la semisuma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. La mediana es independiente de las amplitudes de los intervalos. Ejemplo Calcular la mediana de una distribución estadística que viene dada por la siguiente tabla: fi Fi [60, 63) 5 5 [63, 66) 18 23 [66, 69) 42 65 [69, 72) 27 92
  • 33. [72, 75) 8 100 100 100 / 2 = 50 Clase modal: [66, 69) Media aritmética La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos. es el símbolo de la media aritmética. Ejemplo Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio. Media aritmética para datos agrupados Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la media es:
  • 34. Ejercicio de media aritmética En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones que muestra la tabla. Calcula la puntuación media. xi fi xi · fi [10, 20) 15 1 15 [20, 30) 25 8 200 [30,40) 35 10 350 [40, 50) 45 9 405 [50, 60 55 8 440 [60,70) 65 4 260 [70, 80) 75 2 150 42 1 820 Propiedades de la media aritmética 1 La suma de las desviaciones de todas las puntuaciones de una distribución respecto a la media de la misma igual a cero. Las suma de las desviaciones de los números 8, 3, 5, 12, 10 de su media aritmética 7.6 es igual a 0:
  • 35. 8 − 7.6 + 3 − 7.6 + 5 − 7.6 + 12 − 7.6 + 10 − 7.6 = = 0. 4 − 4.6 − 2.6 + 4. 4 + 2. 4 = 0 2 La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a un número cualquiera se hace mínima cuando dicho número coincide con la media aritmética. 3 Si a todos los valores de la variable se les suma un mismo número, la media aritmética queda aumentada en dicho número. 4 Si todos los valores de la variable se multiplican por un mismo número la media aritmética queda multiplicada por dicho número. Observaciones sobre la media aritmética 1 La media se puede hallar sólo para variables cuantitativas. 2 La media es independiente de las amplitudes de los intervalos. 3 La media es muy sensible a las puntuaciones extremas. Si tenemos una distribución con los siguientes pesos: 65 kg, 69kg , 65 kg, 72 kg, 66 kg, 75 kg, 70 kg, 110 kg. La media es igual a 74 kg, que es una medida de centralización poco representativa de la distribución. 4 La media no se puede calcular si hay un intervalo con una amplitud indeterminada. xi fi [60, 63) 61.5 5 [63, 66) 64.5 18 [66, 69) 67.5 42 [69, 72) 70.5 27 [72, ∞ ) 8
  • 36. 100 En este caso no es posible hallar la media porque no podemos calcular la marca de clase de último intervalo. Interpretando el gráfico de barras podemos deducir que: 5 alumnos obtienen puntaje de 62 5 alumnos obtienen puntaje de 67 8 alumnos obtienen puntaje de 72 12 alumnos obtienen puntaje de 77 16 alumnos obtienen puntaje de 82 4 alumnos obtienen puntaje de 87 lo que hace un total de 50 alumnos Sabemos que la mediana se obtiene haciendo
  • 37. lo cual significa que la mediana se ubica en la posición intermedia entre los alumnos 25 y 26 (cuyo promedio es 25,5), lo cual vemos en el siguiente cuadro: puntajealumnos 62 1 62 2 62 3 62 4 62 5 67 6 67 7 67 8 67 9 67 10 72 11 72 12 72 13 72 14 72 15 72 16 72 17 72 18 77 19 77 20 77 21 77 22 77 23 77 24 77 25 77 26 77 27 77 28 77 29 77 30 82 31 82 32 82 33 82 34 82 35 82 36 82 37 82 38 82 39 82 40
  • 38. 82 41 82 42 82 43 82 44 82 45 82 46 87 47 87 48 87 49 87 50 El alumno 25 obtuvo puntaje de 77 El alumno 26 obtuvo puntaje de 77 Entonces, como el total de alumnos es par debemos promediar esos puntajes: La mediana es 77, lo cual significa que 25 alumnos obtuvieron puntaje desde 77 hacia abajo (alumnos 25 hasta el 1 en el cuadro) y 25 alumnos obtuvieron puntaje de 77 hacia arriba (alumnos 26 hasta el 50 en el cuadro).