1. Conceptos básicos de estadística
Una serie temporal o cronológica es una secuencia de datos, observaciones o valores, medidos en
determinados momentos y ordenados cronológicamente. Los datos pueden estar espaciados a
intervalos iguales (como la temperatura en un observatorio meteorológico en días sucesivos al
mediodía) o desiguales (como el peso de una persona en sucesivas mediciones en el consultorio
médico, la farmacia, etc.). Para el análisis de las series temporales se usan métodos que ayudan a
interpretarlas y que permiten extraer información representativa sobre las relaciones subyacentes
entre los datos de la serie o de diversas series y que permiten en diferente medida y con distinta
confianza extrapolar o interpolar los datos y así predecir el comportamiento de la serie en
momentos no observados, sean en el futuro (extrapolación pronostica), en el pasado (extrapolación
retrógrada) o en momentos intermedios (interpolación).
Se denomina censo, en estadística descriptiva, al recuento de individuos que conforman una
población estadística, definida como un conjunto de elementos de referencia sobre el que se
realizan las observaciones.
La Teoría Combinatoria estudia las agrupaciones que pueden ser formadas cuando se toman todos,
o algunos, de los elementos de un conjunto. Los elementos del conjunto pueden ser de cualquier
naturaleza: números, personas, empresas, artículos producidos por una fábrica, etc. La Teoría
Combinatoria estudia especialmente el número de agrupaciones que pueden ser obtenidas bajo
algún modo de composición de los elementos
La desviación estándar o desviación típica (denotada con el símbolo σ o s, dependiendo de la
procedencia del conjunto de datos) es una medida de dispersión para variables de razón (variables
cuantitativas o cantidades racionales) y de intervalo. Se define como la raíz cuadrada de
la varianza de la variable.
El diseño experimental es una técnica estadística que permite identificar y cuantificar las causas de
un efecto dentro de un estudio experimental. En un diseño experimental se manipulan
deliberadamente una o más variables, vinculadas a las causas, para medir el efecto que tienen en
otra variable de interés. El diseño experimental prescribe una serie de pautas relativas qué
variables hay que manipular, de qué manera, cuántas veces hay que repetir el experimento y en
qué orden para poder establecer con un grado de confianza predefinido la necesidad de una
presunta relación de causa-efecto. El diseño experimental encuentra aplicaciones en la industria,
la agricultura, la mercadotecnia, la medicina, la ecología, las ciencias de la conducta, etc.
constituyendo una fase esencial en el desarrollo de un estudio experimental.
La distribución binomial es una distribución de probabilidad discreta que cuenta el número de
éxitos en una secuencia de n ensayos de Bernoulli independientes entre sí, con una probabilidad
fija p de ocurrencia del éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser
dicotómico, esto es, sólo son posibles dos resultados. A uno de estos se denomina éxito y tiene una
probabilidad de ocurrencia p y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución
binomial el anterior experimento se repite n veces, de forma independiente, y se trata de calcular
la probabilidad de un determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho,
en una distribución de Bernoulli.
2. Distribución normal es una de las distribuciones de probabilidad de variable continua que con más
frecuencia aparece aproximada en fenómenos reales. La gráfica de su función de densidad tiene
una forma acampanada y es simétrica respecto de un determinado parámetro estadístico. Esta
curva se conoce como campana de Gauss y es el gráfico de una función gaussiana. La importancia
de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y
psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos
son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el
uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la
suma de unas pocas causas independientes.
La distribución t o distribución t de student es una distribución de probabilidad que surge del
problema de estimar la media de una población normalmente distribuida cuando el tamaño de la
muestra es pequeño.
Una encuesta es un estudio observacional en el que el investigador busca recaudar datos por
medio de un cuestionario previamente diseñado, sin modificar el entorno ni controlar el proceso
que está en observación (como sí lo hace en un experimento). Los datos se obtienen realizando un
conjunto de preguntas normalizadas dirigidas a una muestra representativa o al conjunto total de la
población estadística en estudio, integrada a menudo por personas, empresas o entes
institucionales, con el fin de conocer estados de opinión, características o hechos específicos. El
investigador debe seleccionar las preguntas más convenientes, de acuerdo con la naturaleza de la
investigación.
Un error en estadística es la diferencia entre el valor de un estimador y el del parámetro
correspondiente. Existen varias causas para producir estos errores. Según la causa son clasificados
en errores de muestreo y de no muestreo.
El error de no muestreo puede ocurrir en cualquier encuesta, sea un censo o una muestra. Estos
errores comprenden errores sistemáticos y equivocaciones.
3. Los errores de muestreo son resultado de la elección casual de unidades de muestreo. Este tipo de
error ocurre porque solo se observa una parte de la población; así que si se hace un censo, puede
esperarse que desaparezca el error de muestreo.
La estadística inferencial es una parte de la estadística que comprende los métodos y
procedimientos que por medio de la inducción determina propiedades de una población
estadística, a partir de una pequeña parte de la misma. La estadística inferencial comprende como
aspectos importantes:
La toma de muestras o muestreo.
La estimación de parámetros o variables estadísticas.
El contraste de hipótesis.
El diseño experimental.
La inferencia bayesiana.
Los métodos no paramétricos
Estadístico es una persona encargada de practicar la ciencia estadística.
Un parámetro es un número que resume la gran cantidad de datos que pueden derivarse del
estudio de una variable estadística. El cálculo de este número está bien definido, usualmente
mediante una fórmula aritmética obtenida a partir de datos de la población.
Grados de libertad, expresión introducida por Ronald Fisher, dice que, de un conjunto de
observaciones, los grados de libertad están dados por el número de valores que pueden ser
asignados de forma arbitraria, antes de que el resto de las variables tomen un valor
automáticamente, producto de establecerse las que son libres, esto, con el fin de compensar e
igualar un resultado el cual se ha conocido previamente.
Histograma es una representación gráfica de una variable en forma de barras, donde la superficie
de cada barra es proporcional a la frecuencia de los valores representados, ya sea en forma
diferencial o acumulada. Sirven para obtener una "primera vista" general, o panorama, de la
distribución de la población, o la muestra, respecto a una característica, cuantitativa y continua, de
la misma y que es de interés para el observador (como la longitud o la masa).
La media aritmética es un valor promedio que se obtiene al sumar todos los datos y dividir el
resultado entre el número total de datos.
4. La mediana se representa por Me, es el valor que ocupa el lugar central de todos los datos cuando
éstos están ordenados de menor a mayor. La mediana se puede hallar sólo para variables
cuantitativas.
La moda es el valor con una mayor frecuencia en una distribución de datos.
Muestreo es la técnica para la selección de una muestra a partir de una población.
Una muestra es un subconjunto de casos o individuos de una población estadística.
Población estadística, también llamada universo o colectivo, es el conjunto de elementos de
referencia sobre el que se realizan unas de las observaciones. Población (‘population’) es el conjunto
sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es
demasiado grande para poder abarcarlo.
La probabilidad es un método por el cual se obtiene la frecuencia de un suceso determinado
mediante la realización de un experimento aleatorio, del que se conocen todos los resultados
posibles, bajo condiciones suficientemente estables.
La teoría de la probabilidad se usa extensamente en áreas como la estadística, la física,
la matemática, las ciencias y la filosofía para sacar conclusiones sobre la probabilidad discreta de
sucesos potenciales y la mecánica subyacente discreta de sistemas complejos, por lo tanto es la
rama de las matemáticas que estudia, mide o determina a los experimentos o fenómenos
aleatorios.
El análisis de regresión estadística es un proceso para la estimación de las relaciones entre variables.
Incluye muchas técnicas para el modelado y análisis de diversas variables, cuando la atención se
centra en la relación entre una variable dependiente y una o más variables independientes. Más
específicamente, el análisis de regresión ayuda a entender cómo el valor típico de la variable
dependiente (o 'Variable Criterio') cambia cuando cualquiera de las variables independientes es
variada, mientras que se mantienen las otras variables independientes fijas.
Se denomina rango estadístico (R) o recorrido estadístico al intervalo entre el valor máximo y el
valor mínimo; por ello, comparte unidades con los datos. Permite obtener una idea de
la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto.
Se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente
excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor
añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones
clasificadas de modo que se pueda ver el número existente en cada clase. Estas agrupaciones de
datos suelen estar agrupadas en forma de tablas.
Una variable aleatoria o variable estocástica es una variable estadística cuyos valores se obtienen de
mediciones en algún tipo de experimento aleatorio. Formalmente, una variable aleatoria es una
función, que asigna eventos (p.e., los posibles resultados de tirar un dado dos veces: (1, 1), (1, 2),
etc.) a números reales (p.e., su suma).
5. Una variable estadística es cada una de las características o cualidades que poseen los individuos de
una población. pueden ser una variable cualitativa que se refieren a características o cualidades
que no pueden ser medidas con números. Podemos distinguir dos tipos: Una variable cualitativa
nominal presenta modalidades no numéricas que no admiten un criterio de orden.
La varianza (que suele representarse como ) de una variable aleatoria es una medida de
dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su
media. Está medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una
distancia en metros, la varianza se expresa en metros al cuadrado. La desviación estándar es la raíz
cuadrada de la varianza, es una medida de dispersión alternativa expresada en las mismas unidades
de los datos de la variable objeto de estudio. La varianza tiene como valor mínimo 0.
Teorema de rango de medidas
Por ejemplo, para una serie de datos de carácter cuantitativo, como lo es la estatura medida en
centímetros, tendríamos:
Es posible ordenar los datos como sigue:
Donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el
rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:
En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30.
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de
una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable
están muy alejadas de la media. Cuánto mayor sea ese valor, mayor será la variabilidad, cuanto
menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían
mucho entre ellos.