Este documento proporciona una introducción a conceptos básicos de estadística como qué es la estadística, sus ramas principales (descriptiva e inferencial), qué son las variables, los datos, las poblaciones y las hipótesis. Explica que la estadística es la ciencia de los datos y su recolección, clasificación, análisis e interpretación. También describe brevemente las ramas de la estadística descriptiva e inferencial y algunos ejemplos comunes de su aplicación.
1. TRABAJO DE TECNOLOGIA
LUISA MARIA PERDOMO OSORIO
GRADO
11-2
INSTITUCION EDUCATIVA
LICEO DEPARTAMENTAL
SANTIAGO DE CALI
2020
2. ¿QUE ES LA ESTADISTICA?
La estadística podría definirse como la ciencia que se encarga de recopilar, organizar,
procesar, analizar e interpretar datos con el fin de deducir las características de una población
objetivo, pero esta sería solo una visión estrecha de lo que comprende esta rama del saber.
La estadística es la ciencia de los datos, la cual implica su recolección, clasificación, síntesis,
organización, análisis e interpretación, para la toma de decisiones frente a la incertidumbre.
La estadística es una ciencia que facilita la toma de decisiones mediante la presentación
ordenada de los datos observados en tablas y gráficos estadísticos, reduciendo los datos
observados a un pequeño número de medidas estadísticas que permitirán la comparación entre
diferentes series de datos y estimando la probabilidad de éxito que tiene cada una de las
decisiones posibles.
Ramas
1. Estadística descriptiva
La estadística descriptiva es la rama de la estadística que describe o resume de forma
cuantitativa (medible) características de una colección de una recolección de información.
Es decir, la estadística descriptiva se encarga de resumir una muestra estadística (conjunto de
datos obtenidos de una población) en lugar de aprender sobre la población que representa la
muestra.
Algunas de las medidas comúnmente utilizadas en la estadística descriptiva para describir un
conjunto de datos son las medidas de tendencia central y las medidas de
variabilidad o dispersión.
En cuanto a las medidas de tendencia central, se utilizan medidas como la media,
la mediana y la moda. Mientras que en las medidas de variabilidad se utilizan la varianza,
la curtosis, etc.
La estadística descriptiva suele ser la primera parte a realizar en un análisis estadístico. Los
resultados de estos estudios suelen ser acompañados de gráficos, y representan la base de casi
cualquier análisis cuantitativo (medible) de datos.
Un ejemplo de estadística descriptiva podría ser considerar un número para resumir que tan
bien se está desempeñando un bateador de béisbol.
Así, el número se obtiene por el número de hits que ha dado un bateador dividido entre el
número de veces que ha estado al bate. Sin embargo, este estudio no dará información más
específica, como cuáles de esos bateos han sido Home Runs.
Otros ejemplos de estudios de estadística descriptiva pueden ser: La media de edad de los
ciudadanos que viven en una cierta área geográfica, la longitud media de todos los libros
3. referentes a un tema específico, la variación respecto al tiempo que los visitantes pasan
navegando en una página de internet.
2. Estadística inferencial
La estadística inferencial se diferencia de la estadística descriptiva principalmente por el uso
de la inferencia y la inducción.
Es decir, esta rama de la estadística busca deducir propiedades de una población estudiada, es
decir, no solo recolecta y resume los datos, sino que busca explicar ciertas propiedades o
características a partir de los datos obtenidos.
En este sentido, la estadística inferencial implica obtener las conclusiones correctas de un
análisis estadístico realizado mediante estadística descriptiva.
Por ello, muchos de los experimentos en ciencias sociales involucran un grupo
de población reducido, así mediante inferencias y generalizaciones se puede determinar cómo
la población en general se comporta.
Las conclusiones obtenidas mediante la estadística inferencial están sujetas a la aleatoriedad
(ausencia de patrones o regularidades) pero mediante la aplicación de los métodos adecuados
se logra la obtención de resultados relevantes.
Así, tanto la estadística descriptiva como la estadística inferencial van de la mano.
La estadística inferencial se divide en:
Estadística paramétrica
Comprende los procedimientos estadísticos basados en la distribución de los datos reales, los
cuales se determinan mediante un número finito de parámetros (número que resume la
cantidad de datos derivados de una variable estadística).
Para aplicar procedimientos paramétricos, en su mayoría, se requiere conocer previamente la
forma de distribución para las formas resultantes de la población estudiada.
Por ello, si se desconoce en su totalidad la distribución que siguen los datos obtenidos, se
debe utilizar un procedimiento no paramétrico.
Estadística no paramétrica
Esta rama de la estadística inferencial comprende los procedimientos aplicados en pruebas y
modelos estadísticos en los cuales su distribución no se ajusta a los llamados criterios
paramétricos. Al ser los datos estudiados los que definen su distribución, está no puede ser
definida previamente.
4. La estadística no paramétrica es el procedimiento que debe ser elegido al desconocer si los
datos se ajustan a una distribución conocida, de manera que pueda ser un paso previo al
procedimiento paramétrico.
Así mismo, en un prueba no paramétrica, las posibilidades de error se disminuyen mediante el
uso de tamaños muéstrales adecuados.
3. Estadística matemática
Se ha mencionado de igual forma la existencia de la Estadística Matemática, como
disciplina de la estadística.
Esta consiste en una escala previa en el estudio de la estadística, en la cual usan la teoría de la
probabilidad (rama de las matemáticas que estudia los fenómenos aleatorios) y otras ramas de
las matemáticas.
La estadística matemática consiste en la obtención de información a partir de los datos y
utiliza técnicas matemáticas tales como: análisis matemático, álgebra lineal, análisis
estocástico, ecuaciones diferenciales, etc. Así, la estadística matemática ha sido influenciada
por la estadística aplicada.
APLICACIONES DE LA ESTADISTICA
La estadística es una ciencia de aplicación práctica casi universal en todos los campos
científicos:
En las ciencias naturales: se emplea con profusión en la descripción de modelos
termodinámicos complejos (mecánica estadística), en física cuántica, en mecánica de
fluidos o en la teoría cinética de los gases, entre otros muchos campos.
En las ciencias sociales y económicas: es un pilar básico del desarrollo de la demografía
y la sociología aplicada.
En economía: suministra los valores que ayudan a descubrir interrelaciones entre
múltiples parámetros macro y microeconómicos.
En las ciencias médicas: permite establecer pautas sobre la evolución de las
enfermedades y los enfermos, los índices de mortalidad asociados a procesos morbosos, el
grado de eficacia de un medicamento, etcétera.
Estadísticas comunes: Varios estudios estadísticos comunes que aparecen con frecuencia en
los medios de comunicación son los siguientes:
Encuesta de Población Activa (EPA), elaborada por el Instituto Nacional de Estadística
(INE) con periodicidad trimestral, según recomendaciones de la Organización
Internacional del Trabajo (OIT), para obtener y clasificar datos sobre la actividad de la
población. Esta encuesta se realiza por muestreo, y los resultados se ordenan por edad,
sexo, nivel de estudios, profesión y otros parámetros.
Índice de Precios al Consumo (IPC), que mide por medios estadísticos la evolución
experimentada por los precios de los bienes y servicios consumidos por la población
española. Se basa en la Encuesta de Presupuestos Familiares (EPF), y selecciona varios
centenares de artículos, clasificados en ocho grupos, que se consideran representativos de
5. la evolución de los precios. Los artículos seleccionados componen lo que se
denomina cesta de la compra, considerada en la encuesta.
Producto Interior Bruto (PIB), que registra la producción nacional de un país en bienes
y servicios asociados a procesos considerados productivos.
Poder adquisitivo, que maneja combinadamente datos del Salario Mínimo
Interprofesional (SMI) y el IPC.
Gráfico de sectores, o circular, que refleja estadísticamente la aplicación de las matemáticas
según el resultado de una encuesta de opinión.
¿QUE ES HIPOTESIS?
Una hipótesis es un enunciado que se realiza de manera previa al desarrollo de una
determinada investigación. La hipótesis es una suposición que resulta una de las bases
elementales de dicho estudio.
La hipótesis será confirmada o negada una vez finalizada la investigación. Si bien esa es
la definición corriente, hay autores que definen a la hipótesis como las posibles soluciones a
un determinado problema, que será verificada como válida o no a lo largo de la
investigación.
Las hipótesis se caracterizan por ser enunciados simples y fáciles de comprender, es decir
que evite la multiplicidad de interpretaciones. Por otro lado debe poseer generalidad, es decir
que debe poder ser aplicado a más de un caso. Asimismo deben ser sustentadas por teorías
previas y no debe poseer un carácter trascendental o moral, sino características que pueden ser
experimentadas y comprobadas en la práctica.
El objetivo de una hipótesis es en primer lugar realizar una suerte de introducción o
explicación sobre el tema que se analizará a lo largo del estudio. Son utilizadas como medio
de incentivo a lo largo de todo el estudio. Además organiza el proyecto, orientando el tema
que será tratado.
Para verificar si una hipótesis está bien formulada es necesario que pueda ser constatada y la
mayoría de las veces cuantificada. A su vez debe resolver de manera precisa y simple el
problema que se presenta. Por último, debe ser coherente con el marco teórico que se
utilice, ya sea para apoyarlo como para negarlo.
Algunos de los conflictos que se presentan cuando se requiere realizar una hipótesis o
desarrollarla son por falta de información disponible sobre el tema o la dificultad de
interpretar los datos existentes. Además resulta muy difícil poder desarrollar el estudio si
la hipótesis no ha sido bien planteada.
El concepto de hipótesis incluye una clasificación según las características que cumplan:
Hipótesis generales. Se caracterizan por intentar solucionar de manera extensa ciertas
incógnitas del investigador.
Hipótesis específicas. Resultan derivadas de las anteriores. En este caso se intenta ser
un poco más reducido con el tema que se trata.
Hipótesis operacionales. Son aquellas que serán analizadas mediante pruebas
específicas y los resultados obtenidos en las mismas. A su vez estas sufren una
clasificación aún menor, en hipótesis alternativas y nulas.
6. Hipótesis de estadística. Son expresadas y puestas a prueba por medio de ecuaciones
sostenidas matemáticamente.
¿QUE ES UNA VARIABLE?
Una variable refiere, en una primer instancia, a cosas que son susceptibles de ser
modificadas (de variar), de cambiar en función de algún motivo determinado o
indeterminado.
El término variable alude a las cosas de poca estabilidad, que en poco tiempo pueden tener
fuertes alteraciones o que nunca adquieren una constancia (muy frecuentemente sucede esto
con el clima, o el humor de una persona).
Según cómo se midan, las variables podrán ser cualitativas o cuantitativas. Serán cualitativas
aquellas que expresen características o cualidades diferentes; y serán cuantitativas cuando
expresen argumentos numéricos.
Las variaciones cualitativas podrán ser clasificadas en:
Ordinales o cuasi cuantitativas. Aquí la variable tomará valores ordenados respecto
de la escala previamente establecida.
Nominal. Los valores de cada variable no pueden estar sujetos a un orden
determinado.
Las variaciones cuantitativas se clasificarán en:
Discretas. La variable presentará cortes en la escala de valores que se ha seleccionado.
Continuas. La variable podrá adquirir cualquier valor mientras se encuentre dentro de
un intervalo de valores determinado.
Según la influencia las variables pueden podrán clasificarse de una manera totalmente
distinta:
Variable independiente. El valor que tenga asignado la variable no dependerá de otra
variable. Se representan dentro del eje de abscisas.
Variable dependiente. El o los valores de una variable dependerán exclusivamente de
los valores que obtengan otras variables.
En la matemática también se utilizan las variables: están presentes en fórmulas, proposiciones
y algoritmos. También se ve la idea de variables independientes y dependientes, destacándose
las funciones matemáticas que permiten la conformación de gráficos de dos o más ejes: la
relación entre esos dos ejes viene dada por una función en la que uno de los dos es variable en
función del otro, que es invariable (Y es igual a la mitad de X, tiene a Y como variable
dependiente y a X como independiente).
En la estadística se utiliza también la variable en el sentido matemático, encarada desde la
misma perspectiva: al ser medida en diferentes casos adopta distintos valores. Una
clasificación interna divide a las variables estadísticas según expresen cantidades numéricas
(variables cuantitativas o continuas) o expresen características, cualidades o modos de
comportamiento (variables cualitativas o discretas).
7. ¿QUE ES UN DATO?
Un dato es la representación de una variable que puede ser cuantitativa o cualitativa, indican
un valor que se le asigna a las cosas. Los datos son información. Los datos describen en
su conjunto nos hablan de hechos empíricos. Un dato por sí solo no puede demostrar
demasiado, siempre se evalúa el conjunto para poder examinar los resultados. Para
examinarlos, primero hay que organizarlos o tabularlos.
Los datos pueden ser generados de forma automática y acumulativa con diferentes tipos
de programas informáticos o bien tienen que ser siempre ingresados para formar una base de
datos.
Los datos que se ingresan en una base pueden ser de diversos tipos, según la información que
se acumule en dicha base. Por ejemplo puede ser una base de datos de información personal,
entonces los datos serán numéricos, alfabéticos y alfa-numéricos.
En informática, en programación, un dato es la expresión general que va a describir aquellas
características de la entidad sobre la que opera. En la estructura de datos, un dato es la más
mínima parte de la información.
Dentro de los archivos también encontramos datos. Estos datos consisten generalmente en
paquetes más pequeños de otros datos, que son llamados registros. Estos datos están reunidos
por características iguales o similares.
Como ya dijimos, hay dos tipos de datos:
Cualitativos: Son aquellos que responden a la pregunta ¿cuál? O ¿cuáles? Aquí hay
datos como el color, los sentimientos, etcétera.
Cuantitativos: Son aquellos datos que siempre están referidos a los números. Por
ejemplo precio, altura, edad, etcétera.
¿QUE ES POBLACION?
Una población estadística es un conjunto de sujetos o elementos que presentan
características comunes. Sobre esta población se realiza el estudio estadístico con el fin de
sacar conclusiones.
El tamaño poblacional es el número de individuos que constituyen la población. Según el
número de sujetos, el tamaño puede ser finito o infinito. Los conjuntos infinitos son algo
artificial o conceptual, ya que toda población de entidades físicas es finita. Por ejemplo:
Población finita: el conjunto de habitantes de una ciudad, los bolígrafos producidos en
una fábrica en un día, etc.
Población infinita: el conjunto de los números positivos.
Cuando la población es muy grande, normalmente es imposible estudiar a todos los
individuos.
8. Supongamos que queremos saber cuál es el nivel de colesterol de la población de Estados
Unidos. Por cuestiones económicas y de tiempo obvias, no está al alcance realizar un análisis
de sangre a toda la población de EEUU. Para solucionar este impedimento, se utiliza
una muestra estadística.
¿QUE ES UNA MUESTRA?
Una muestra estadística es un subconjunto de datos perteneciente a una población
de datos. Estadísticamente hablando, debe estar constituido por un cierto número de
observaciones que representen adecuadamente el total de los datos.
Para explicar porque se utiliza una muestra estadística en lugar de la población total, vamos a
recurrir al ejemplo planteado anteriormente.
Supongamos que queremos estudiar un fenómeno cualquiera. En nuestro caso, ese fenómeno
es el salario medio de los ciudadanos de un país. La población de datos está formada por
todos y cada uno de los trabajadores del país. Claro que por razones de tiempo y coste sería
imposible ir preguntando a cada trabajador cuál es su salario anual. Tardaríamos mucho
tiempo o necesitaríamos muchos recursos.
En este punto aparece el concepto de muestra estadística. En lugar de preguntar a los millones
de trabajadores de un país o región, tan solo recogemos una pequeña cantidad de datos. Por
ejemplo, preguntamos a 100.000 personas. Esta tarea sigue siendo complicada, pero es mucho
más asequible preguntar a 100.000 personas que preguntar a 30 millones.
Esta pequeña cantidad de datos ha de ser representativa. Es decir, debe representar
adecuadamente a la población. Si las 100.000 personas a las que preguntamos se concentran
en barrios ricos, obtendremos datos que no son representativos. El salario medio nos saldría
mucho más alto de lo que es en realidad.
¿QUE ES EL NIVEL DE MEDICION NOMINAL?
La medición de las variables puede realizarse por medio de cuatro escalas de medición. Dos
de las escalas miden variables categóricas y las otras dos miden variables numéricas (Therese
L. Baker, 1997). Los niveles de medición son las escalas nominal, ordinal, de intervalo y de
razón. Se utilizan para ayudar en la clasificación de las variables, el diseño de las preguntas
para medir variables, e incluso indican el tipo de análisis estadístico apropiado para el
tratamiento de los datos.
En el nivel de medición nominal se establecen categorías distintivas que no implican un orden
específico. Por ejemplo, si la unidad de análisis es un grupo de personas, para clasificarlas se
puede establecer la categoría sexo con dos niveles, masculino (M) y femenino (F), los
respondientes solo tienen que señalar su género, no se requiere de un orden real.
9. Así, si se asignan números a estos niveles solo sirven para identificación y puede ser
indistinto: 1=M, 2=F o bien, se pueden invertir los números sin que afecte la medición: 1=F y
2=M. En resumen en la escala nominal se asignan números a eventos con el propósito de
identificarlos. No existe ningún referente cuantitativo. Sirve para nombrar las unidades de
análisis en una investigación y es utilizada en cárceles, escuelas, deportes, etc. La relación
lógica que se expresa es: A B (A es diferente de B).
¿QUE ES LA DISTRIBUCION DE FRECUENCIAS?
Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable
por filas. En las columnas se dispone el número de ocurrencias por cada valor, porcentajes,
etc. La finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información
que contienen los datos.
Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra de la exhibición
de imágenes violentas por televisión, para lo cual han recogido los siguientes datos:
La inspección de los datos originales no permite responder fácilmente a cuestiones como cuál
es la actitud mayoritaria del grupo, y resulta bastante más difícil determinar la magnitud de la
diferencia de actitud entre hombres y mujeres.
Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable
acompañados del número de veces (la frecuencia) que aparece cada valor:
X: Símbolo genérico de la variable.
F: Frecuencia (también se simboliza como ni).
La distribución de frecuencias de los datos del ejemplo muestra que la actitud mayoritaria de
los individuos del grupo estudiado es indiferente.
La interpretación de los datos ha sido facilitada porque se ha reducido el número de números
a examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la variable y 5
frecuencias).
10. Generalmente las tablas incluyen varías columnas con las frecuencias relativas (son el número
de ocurrencias dividido por el total de datos, y se simbolizan "fr" o "pi"), frecuencias
acumuladas (la frecuencia acumulada es el total de frecuencias de los valores iguales o
inferiores al de referencia, y se simbolizan "fa" o "na". No obstante la frecuencia acumulada
también es definida incluyendo al valor de referencia), frecuencias acumuladas relativas (la
frecuencia acumulada relativa es el total de frecuencias relativas de los valores iguales o
inferiores al de referencia, y se simbolizan "fr" o "pa")
Ejemplo: Consideremos el siguiente grupo de datos:
La distribución de frecuencias es:
La reducción de datos mediante el agrupamiento en frecuencias no facilita su interpretación:
La tabla es demasiado grande. Para reducir el tamaño de la tabla agrupamos los valores en
intervalos, y las frecuencias son las de los conjuntos de valores incluidos en los intervalos:
11. Ahora es más sencillo interpretar los datos. Por ejemplo, podemos apreciar inmediatamente
que el intervalo con mayor número de datos es el 34-39, o que el 75% de los datos tiene valor
inferior a 46.
Este tipo de tabla es denominado "tabla de datos agrupados en intervalos".
Elementos básicos de las tablas de intervalos:
Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en una
distribución de frecuencias
Límites aparentes: Valores mayor y menor del intervalo que son observados en la tabla.
Dependen de la precisión del instrumento de medida. En el ejemplo, los límites aparentes del
intervalo con mayor número de frecuencias son 34 y 39.
Límites exactos: Valores máximo y mínimo del intervalo que podrían medirse si se contara
con un instrumento de precisión perfecta. En el intervalo 34-39, estos límites son 33.5 y 39.5
Punto medio del intervalo (Mco Marca de clase): Suma de los límites divididos por dos. Mc
del intervalo del ejemplo= 36.5
Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite exacto inferior.
En el ejemplo es igual a 6.
TABLA
Completa la tabla: cuadro de frecuencias de la variable/ lanzamiento de un dado no cargado
en 25 ocasiones.
Dato
xi
Frecuencia
Absoluta
ni
Frecuencia
Relativa
hi
Frecuencias acumuladas
Absoluta relativa
Ni Hi
1 6 0.24= 24% 6 0.24= 24%
2 5 0.2 = 20% 11 0.44= 44%
3 2 0.08 = 8% 13 0.52 = 52%
4 3 0.12 = 12% 16 0.64 = 64%
5 1 0.04 = 4% 17 0.68 = 68%
6 8 0.32 = 32% 25 1 = 100%
∑ 25 1