CONCEPTO DE ESTADISTICA
ESTADISTICA
CIENCIA
“Es una rama de las Matemáticas
Aplicadas que brinda métodos y
procedimientos para organizar y
evaluar una investigación científica
con el fin de tomar decisiones más
confiables, cuando prevalecen
condiciones de incertidumbre”.
RECOLECTAR
ORDENAR
ANALIZAR
INTERPRETAR
TOMAR
DECISIONES
DATOS
(INFORMACION)
CONCEPTOS CLAVES DE LA
ESTADISTICA
ESTADISTICA: Es un conjunto de métodos para planear estudios y experimentos,
obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a
conclusiones basadas en los datos.
DATOS: Son las observaciones recolectadas (como mediciones, géneros, respuestas de
encuestas).
POBLACIÓN: Es el conjunto completo de todos los elementos (puntuaciones, personas,
medidas, etcétera) que se va estudiar. El conjunto es completo porque incluye a todos
los sujetos que se estudiarán.
CENSO: Es el conjunto de datos de cada uno de los miembros de la población.
MUESTRA: Es un subconjunto de miembros seleccionados de una población.
EJEMPLO
Una encuesta Gallup preguntó a 1087 adultos: “¿Consume
usted bebidas alcohólicas como licor, vino o cerveza, o es
totalmente abstemio?” Los 1087 sujetos de la encuesta
constituyen una muestra: en tanto que la población consiste
en el conjunto completo de los 202,682,345 adultos
estadounidenses. Cada 10 años, el gobierno de Estados
Unidos intenta obtener un censo de cada ciudadano, pero no
lo logra debido a que es imposible localizar a cada uno de
ellos.
Conjunto grande y completo de
individuos, elementos o unidades que
presentan como mínimo una
característica común observable, en
quienes se desea estudiar el
fenómeno.
POBLACIÓN
POBLACION INFINITA
Cuando “NO” se conocen todos los
elementos, objetos u observaciones
que son de nuestro interés.
CLASIFICACIÓN DE LA POBLACIÓN
CLASIFICACIÓN DE LA POBLACIÓN
POBLACION FINITA
Cuando se conocen todos los elementos,
objetos u observaciones que son de
nuestro interés.
MUESTRA
conjunto de medidas o el recuento de una parte
de los elementos pertenecientes a la población.
Selección Aleatoria
Los elementos que componen la población
tienen la misma probabilidad de ser elegidos.
para que una muestra sea representativa las
unidades deben ser seleccionadas AL AZAR
Sorteos, Tabla de Números Aleatorios
En la materia de estadística se trata principalmente de utilizar
datos muéstrales para hacer inferencias (o generalizaciones)
sobre una población completa. Debemos saber y entender las
definiciones de población, muestra, parámetro y estadístico, ya
que son básicas y fundamentales. También necesitamos
reconocer la diferencia entre datos cuantitativos y datos
cualitativos
TIPO DE DATOS
Parámetro es una medición numérica que describe algunas
características de una población.
Estadístico es una medición numérica que describe algunas
características de una muestra.
EJEMPLOS
Parámetro: En la ciudad de Nueva York hay 3250 botones para
caminar, que los peatones emplean en las intersecciones de
tránsito. Se descubrió que el 77% de dichos botones no funciona
(según datos del artículo “For Exercise in New York Futility, Push
Button”, de Michael Luo, New York Times). La cifra del 77% es un
parámetro porque está basada en la población de todos los 3250
botones para peatones.
Estadístico: Con base en una muestra de 877 ejecutivos
encuestados, se encontró que el 45% de ellos no contrataría a
alguien con un error ortográfico en su solicitud de empleo. Esta
cifra del 45% es un estadístico, ya que está basada en una muestra
y no en la población completa de todos los ejecutivos.
Los datos cuantitativos consisten en números que
representan conteos o mediciones.
Los datos cualitativos (o categóricos o de atributo) se dividen
en diferentes categorías que se distinguen por algunas
características no numéricas. Cualidad que clasifica a cada sujeto
en una de varias categorías.
TIPO DE DATOS
EJEMPLOS
Datos cuantitativos: Los pesos de los deportistas de alto
rendimiento en Colombia.
Datos cualitativos: El género (hombre/mujer) de atletas
profesionales.
Cuando se trabaja con datos cuantitativos, es importante utilizar las
unidades de medida apropiadas, como dólares, horas, pies, metros,
etcétera. Debemos ser especialmente cuidadosos para observar
aquellas referencias como “todas las cantidades están en miles de
dólares” o “todos los tiempos están en centésimas de segundo” o “las
unidades están expresadas en kilogramos”. Ignorar unidades de
medida como éstas nos llevaría a conclusiones incorrectas.
La NASA perdió su Mars Climate Orbiter de $125 millones* cuando la
sonda se estrelló debido a que el programa de control tenía los datos
de aceleración en unidades inglesas, pero ellos incorrectamente
consideraron que estaban en unidades métricas.
Los datos discretos resultan cuando el número de valores
posibles es un número finito o un número que “puede contarse”
(es decir, el número de valores posibles es 0, 1, 2, etcétera)…
suelen tomar únicamente valores enteros.
Los datos continuos (numéricos) resultan de un infinito de
posibles valores que corresponden a alguna escala continua que
cubre un rango de valores sin huecos, interrupciones o saltos.
TIPO DE DATOS
Los datos cuantitativos se describen con mayor detalle
distinguiendo entre los tipos discreto y continuo.
EJEMPLOS
Datos discretos: El número de huevos que ponen las gallinas
son datos discretos porque representan conteos.
Datos continuos: Las cantidades de leche que producen las
vacas son datos continuos porque son mediciones que pueden
tomar cualquier valor dentro de un continuo. Durante un
intervalo de tiempo dado, una vaca produce una cantidad de
leche que puede ser cualquier valor entre 0 y 5 galones. Es
posible obtener 2.343115 galones, porque la vaca no está
restringida a cantidades discretas de 0, 1, 2, 3, 4 o 5 galones.
VARIABLES
Son las características o cualidades que poseen
los individuos de una población, las cuales son
cambiantes o fluctuantes y pueden ser medibles
u observables.
CLASIFICACIÓN DE LAS
VARIABLES
CUALITATIVAS CUANTITATIVAS
Cuando nos interesa
conocer una cualidad
Cuando nos interesa
conocer una Cantidad
SE EXPRESAN CON
PALABRAS
SE EXPRESAN CON
NUMEROS O
CANTIDADES
Es importante utilizar las
unidades de medida
apropiadas, como dólares,
horas, pies, metros, etc.
VARIABLE
CUALITATIVAS
VARIABLE
CUALITATIVA
NOMINAL
VARIABLE
CUALITATIVA
ORDINAL
Es cuando el orden no es
representativo. se caracteriza
por datos que consisten
exclusivamente en nombres,
etiquetas o categorías
Es cuando el orden es
representativos caracteriza por
datos que pueden acomodarse en
algún orden.
Ejemplo : El sexo, Grupo Sanguíneo,
Religión , Nacionalidad
Ejemplo : El Tamaño, Estado de
Animo, Intensidad del dolor
VARIABLE
CUANTITATIVAS
VARIABLE
CUANTITATIVA
DISCRETA
VARIABLE
CUANTITATIVA
CONTINUA
Es cuando se toma un solo valor, es
decir resultan cuando el número de
valores posibles es un número finito
o un número que “puede” contarse
(0, 1, 2)
Es cuando se toma un rango de
valores, es decir resultan de un
infinito de posibles valores que
corresponden a alguna escala
continua que cubre un rango de
valores sin huecos,
interrupciones o saltos
Ejemplo : El número de huevos que ponen las
gallinas, número de hijos de una familia
Ejemplo: Salario cuando no es fijo,
Altura, Peso, Dosis de un Medicamento
NIVELES DE MEDICION DE LOS DATOS O
VARIABLES
Otra forma común de clasificar los datos consiste en usar cuatro
niveles de medición: nominal, ordinal, de intervalo y de razón.
Cuando se aplica la estadística a problemas reales, el nivel de
medición de los datos es un factor importante para determinar el
procedimiento a utilizar.
El nivel de medición nominal se caracteriza por datos que
consisten exclusivamente en nombres, etiquetas o categorías. Los
datos no se pueden acomodar en un esquema de orden (como del
más bajo al más alto).
Ejemplo: Genero ( hombre, mujer ).
Número de revistas deportivas.
MEDICION NOMINAL
EJEMPLOS
Veamos algunos ejemplos de datos muéstrales a nivel de medición
nominal.
1. Sí/no/indeciso: Respuestas de sí, no e indeciso en una encuesta
2. Colores: Los colores de los automóviles conducidos por
estudiantes universitarios (rojo, negro, azul, blanco, magenta,
púrpura, etcétera)
Puesto que los datos nominales carecen de orden y no tienen un
significado numérico, no se deben utilizar para hacer cálculos. En
ocasiones se asignan números a las distintas categorías
(especialmente cuando los datos se codifican para utilizarse en
computadoras), pero estos números no tienen un significado
computacional real y cualquier promedio que se calcule carece de
sentido.
DATOS ORDINAL
Los datos están en el nivel de medición ordinal cuando pueden
acomodarse en algún orden, aunque no es posible determinar
diferencias entre los valores de los datos o tales diferencias carecen
de significados.
EJEMPLOS
Veamos algunos ejemplos de datos muéstrales a nivel de medición
ordinal.
1. Las calificaciones de un curso: Un profesor universitario asigna
calificaciones de A, B, C, D, E o F. Tales calificaciones se pueden
ordenar, aunque no es posible determinar diferencias entre tales
calificaciones. Por ejemplo, sabemos que A es mayor que B (por lo
que hay un orden); pero no podemos restar B de A (por lo que no
EJEMPLOS
2. Rangos: Con base en varios criterios, una revista ordena las
ciudades de acuerdo con su “habitabilidad”. Dichos rangos (primero,
segundo, tercero, etcétera) determinan un orden. Sin embargo, las
diferencias entre los rangos no tienen ningún significado. Por
ejemplo, una diferencia “del segundo menos el primero” sugeriría 2 -
1 = 1, pero esta diferencia de 1 no tiene significado porque no es
una cantidad exacta que sea comparable con otras diferencias de
este tipo. La diferencia entre la primera y la segunda ciudades no es
la misma que la diferencia entre la segunda y la tercera ciudades.
Utilizando los rangos de la revista, la diferencia entre la ciudad de
Nueva York y Boston no se puede comparar de forma cuantitativa con
la diferencia entre San Luis y Filadelfia.
Los datos ORDINALES proporcionan información sobre
comparaciones relativas,
pero no las magnitudes de las diferencias. Por lo general, los datos
NIVEL DE MEDICION DE INTERVALO
El nivel de medición de intervalo se parece al nivel ordinal, pero con la
propiedad adicional de que la diferencia entre dos valores de datos
cualesquiera tiene un significado. Sin embargo, los datos en este nivel
no tienen
punto de partida cero natural inherente (donde nada de la cantidad está
presente).
EJEMPLOS
1. Temperaturas: Las temperaturas corporales de 98.2°F y 98.6°F son
ejemplos de datos a nivel de medición de intervalo. Dichos valores
están ordenados, y podemos determinar su diferencia de 0.4°F. Sin
embargo, no existe
un punto de inicio natural. Pareciera que el valor de 0°F es un punto
de inicio;
son embargo, éste es arbitrario y no representa la ausencia total de
calor.
Puesto que 0°F no es un punto de partida cero natural, sería
incorrecto decir
que 50°F es dos veces más caliente que 25°F.
2. Años: Los años 1000, 2008, 1776 y 1492. (El tiempo no inició en
el año 0,
por lo que el año 0 es arbitrario y no constituye un punto de partida
NIVEL DE MEDICION DE RAZÓN
El nivel de medición de razón es similar a nivel de intervalo, pero con la
propiedad adicional de que sí tiene un punto de partida cero natural
(donde el
cero indica que nada de la cantidad está presente). Para valores a este
nivel,
tanto las diferencias como las proporciones tienen significado.
EJEMPLOS
Observe la presencia de un valor cero natural, así como el uso de
proporciones que significan “dos veces” y “tres veces”.
1. Pesos: Los pesos (en quilates) de anillos de compromiso de
diamante (el 0
realmente representa la ausencia de peso y 4 quilates es dos veces el
peso de
2 quilates).
2. Precios: Los precios de libros de texto universitarios ($0 realmente
representa ningún costo y un libro de $90 es tres veces más caro que
un libro
de $30
Este nivel de medición se denomina de razón porque el punto de
partida cero
hace que las razones o cocientes tengan significado. Entre los
cuatros niveles de
medición, la principal dificultad surge al distinguir entre los niveles
de intervalo y
de razón. Sugerencia: Para simplificar esta diferencia, utilice una
sencilla “prueba de
razón”:
El MÉTODO representa el camino a seguir en la investigación, las
TÉCNICAS constituyen la manera cómo transitar por esa vía, mientras
que el INSTRUMENTO incorpora el recurso o medio que ayuda
a realizar esta senda.
el método de investigación elegido da la pauta para seleccionar la
técnica de recolección de datos. En este sentido, existe un amplio
conjunto de técnicas de recolección de información (primaria o
secundaria) donde algunas son propias de las investigaciones con
tendencia cuantitativa y otros con orientación cualitativa
TECNICAS DE RECOLECCION DE INFORMACION
Entre las técnicas de recolección de información se refieren las
siguientes:
· la observación: se capta de forma sistemática y a través de la vista
el fenómeno,
· la entrevista: diálogo entre entrevistador-entrevistado sobre un
tema previamente determinado y
· la encuesta: información que se extrae de una muestra acerca de
un tema en particular.
LA OBSERVACION
La observación consiste en la indagación sistemática, dirigida a estudiar
los aspectos más significativos de los objetos, hechos, situaciones
sociales o personas en el contexto donde se desarrollan normalmente;
permitiendo la comprensión de la verdadera realidad del fenómeno
LA ENCUESTA. Una encuesta es un conjunto de preguntas
normalizadas dirigidas a una muestra representativa de la
población o instituciones, con el fin de conocer estados de opinión
o hechos específicos. La intención de la encuesta no es describir
los individuos particulares quienes, por azar, son parte de la
muestra sino obtener un perfil compuesto de la población. Una
"encuesta" recoge información de una "muestra." Una "muestra" es
usualmente sólo una porción de la población bajo estudio.
LA ENTREVISTA
Es una técnica de recopilación de información mediante contacto
directo con las personas, a través de una conversación
interpersonal, preparada bajo una dinámica de preguntas y
respuestas, donde se dialoga sobre un tópico relacionado con la
problemática de investigación.
MUESTREO
Procedimiento por el cual se extrae, de un conjunto de unidades que constituyen el objeto de estudio
( población), un número de casos reducido (muestra) elegidos con criterios tales que permitan la
generalización a toda la población de los resultados obtenidos al estudiar la muestra.
Uno de los peores errores consiste en reunir datos de una forma inapropiada.
Si los datos muestrales no se reúnen de forma adecuada, resultarían tan inútiles que ninguna
cantidad de tortura estadística podrá salvarlos.
Una muestra aleatoria simple de n sujetos se selecciona de
manera que cada posible muestra del mismo tamaño n tenga la
misma posibilidad de ser elegida. Es el tipo de muestreo más
simple y en él se basan todos los demás.
Para obtener los elementos de la muestra se numeran los
elementos de la población y se seleccionan al azar los elementos
que debe contener la muestra. Todos los elementos tienen la
misma probabilidad de ser elegidos.
En el muestreo sistemático, elegimos algún punto de partida
y luego seleccionamos cada k-ésimo (por ejemplo, cada
quincuagésimo) elemento en la población.
Por ejemplo, si tenemos una población de 100 individuos y queremos seleccionar una
muestra de 20, actuaríamos de la siguiente forma:
1.Numeramos los elementos o personas.
2.Tenemos que elegir un elemento de cada 100/20= 5 (coeficiente de elevación).
3.Elegimos al azar un elemento o persona entre los 5 primeros. Supongamos que elegimos el
número 2.
4.Posteriormente seleccionamos un elemento cada 5, es decir, el 2+5=7, 7+5=12, etc. El
último sería el elemento número 97.
En el muestreo estratificado subdividimos a la población en al
menos dos subgrupos (o estratos) diferentes, de manera que los
sujetos que pertenecen al mismo subgrupo compartan las mismas
características (como el género o la categoría de edad), y luego
obtenemos una muestra de cada subgrupo (o estrato).
Muestreo aleatorio estratificado proporcionado
En esta técnica, el tamaño de la muestra de cada estrato es proporcional al tamaño
de la población del estrato si se compara con la población total. Esto significa que el
cada estrato tiene la misma fracción de muestreo.
Supongamos que tienes 3 estratos con 100, 200 y 300 tamaños de la población,
respectivamente. El investigador eligió una fracción de muestreo de ½. Luego, el
investigador debe probar al azar 50, 100 y 150 sujetos de cada estrato,
respectivamente.
Estrato A B C
Tamaño de la
población
100 200 300
Fracción de muestreo ½ ½ ½
Tamaño final de la
muestra
50 100 150
En esta técnica, lo importante es recordar el uso de la misma fracción de muestreo en cada
estrato, independientemente de las diferencias en el tamaño de la población de los estratos.
Es muy parecido a reunir una población más pequeña que sea específica de las
proporciones relativas de los subgrupos dentro de la población.
Muestreo aleatorio estratificado desproporcionado
La única diferencia entre el muestreo aleatorio estratificado
proporcionado y el desproporcionado son sus fracciones de muestreo.
En el muestreo desproporcionado, los diferentes estratos tienen
diferentes fracciones de muestreo.
La precisión de este diseño es altamente dependiente de la asignación
de fracción de muestreo del investigador. Si el investigador comete
errores en la asignación de fracciones de muestreo, un estrato puede ser
representado en exceso o insuficientemente y dará resultados sesgados.
En el muestreo conglomerados primero dividimos el área de la
población en secciones (o conglomerados), luego elegimos al azar
algunos de estos conglomerados, y después elegimos a todos los
miembros de los conglomerados seleccionados.
El conglomerado más utilizado en la investigación es un
conglomerado geográfico. Por ejemplo, un investigador desea
estudiar el rendimiento académico de los estudiantes secundarios de
un pais.
1.Puede dividir a toda la población (población de Colombia) en
diferentes conglomerados (ciudades).
2.Luego, el investigador selecciona una serie de conglomerados en
función de su investigación, a través de un muestreo aleatorio
simple o sistemático.
3.Luego, de los conglomerados seleccionados (ciudades
seleccionadas al azar) el investigador puede incluir a todos los
estudiantes secundarios como sujetos o seleccionar un número de
sujetos de cada conglomerado a través de un muestreo aleatorio
En el muestreo de conveniencia, simplemente se utilizan resultados
que sean muy fáciles de obtener.
Consiste en seleccionar una muestra de la población por el hecho de
que sea accesible. Es decir, los individuos empleados en la
investigación se seleccionan porque están fácilmente disponibles, no
porque hayan sido seleccionados mediante un criterio estadístico.
Distribuciones unidimensionales de frecuencia
Agrupa toda la información obtenida acerca de los diferentes valores
o modalidades que puede tomar una variable o atributo y se puede
ordenar y presentar en tablas o distribuciones de frecuencias.
Es un agrupamiento de datos en categorías mutuamente excluyentes
dando el número de observaciones a cada categoría.
Tipos de distribución de frecuencia
Frecuencia Absoluta ( f i )
Son el número de veces que se repite un dato dentro de una
distribución
o el número de datos que pertenece a una clase dada.
Frecuencia absoluta acumulada ( FI )
Son sumas de las frecuencias absolutas u observadas, comprendidas
hasta una determinada casilla o clase.
Frecuencia relativa ( hi )
Se define como los cocientes que resultan de dividir cada frecuencia
absoluta sobre la sumatoria de las frecuencias absolutas.
hi = ( fi / ∑fi ) x100
Frecuencia relativa acumulada ( HI )
Son sumas de las frecuencias relativas, comprendidas hasta una
determinada casilla o clase.