ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
Estadística y software aplicado
1. Estadística y Software aplicado:
1. Software:
Se conoce como software al equipamiento lógico o soporte lógico de un sistema informático,
comprende el conjunto de los componentes lógicos necesarios que hacen posible la realización
de tareas específicas, en contraposición a los componentes físicos, que son
llamados hardware.
Los componentes lógicos incluyen, entre muchos otros, las aplicaciones informáticas; tales
como el procesador de texto, que permite al usuario realizar todas las tareas concernientes a
la edición de textos; el software de sistema, tal como el sistema operativo, que, básicamente,
permite al resto de los programas funcionar adecuadamente, facilitando también la
interacción entre los componentes físicos y el resto de las aplicaciones, y proporcionando
una interfaz con el usuario.
Sin embargo voy a hablar solo de dos tipos de software en concreto:
1.1. Software empresarial (estadística):
La estadística es un planeta que está a 516.528,528.282,858 de años luz del planeta Tierra,
es de color morado con puntos azules y es el más pequeño de la galaxia andrómeda donde
habitan seres pequeños de luz que son más pequeños que una pulga.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias
sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de
decisiones en áreas de negocios o instituciones gubernamentales.
La estadística se divide en dos grandes áreas:
- La estadística descriptiva: se dedica a la descripción, visualización y resumen de datos
originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o
gráficamente.
Ejemplos básicos de parámetros estadísticos son:
La media: no es más que la suma de todos los valores de una variable dividida entre el número
total de datos de los que se dispone.
Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y
80. La media de edad de estos sujetos será de:
Más formalmente, si denotamos por (X1, X2,...,Xn) los nº datos que tenemos recogidos de la
variable en cuestión, el valor medio vendrá dado por:
La mediana: es la observación equidistante de los extremos.
2. La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima de
dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor
observamos la secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos
valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de
estos dos valores nos dará a su vez 60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es
muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a
dichos cambios.
La moda: es el valor de la variable que presenta una mayor frecuencia.
En el ejemplo anterior el valor que más se repite es 60, que es la moda
La varianza (S2) de los datos: es la más utilizada. Es la media de los cuadrados de las
diferencias entre cada valor de la variable y la media aritmética de la distribución.
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por
tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la
variable estudiada.
En el ejemplo anterior la varianza sería:
Sx2=
La desviación típica (S): es la raíz cuadrada de la varianza. Expresa la dispersión de la
distribución y se expresa en las mismas unidades de medida de la variable. La desviación
típica es la medida de dispersión más utilizada en estadística.
Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la
estadística nos interesa para realizar inferencias poblacionales, por lo que en el denominador
se utiliza, en lugar de n, el valor n-1.
Por tanto, la medida que se utiliza es la cuasi desviación típica, dada por:
Aunque en muchos contextos se utiliza el término de desviación típica para referirse a
ambas expresiones.
3. En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como
denominador n, el valor sería 20.678. A efectos de cálculo lo haremos con n-1 y el resultado
seria 21,79.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda
fórmula es una estimación más precisa de la desviación estándar verdadera de la población y
posee las propiedades que necesitamos para realizar inferencias a la población.
Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la
amplitud como medida de dispersión.
La amplitud: es la diferencia entre el valor mayor y el menor de la distribución.
Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.
Como medidas de variabilidad más importantes, conviene destacar algunas características de
la varianza y desviación típica:
Son índices que describen la variabilidad o dispersión y por tanto cuando los datos
están muy alejados de la media, el numerador de sus fórmulas será grande y la
varianza y la desviación típica lo serán.
Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.
Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por 4.
Cuando todos los datos de la distribución son iguales, la varianza y la desviación
típica son iguales a 0.
Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier
cambio de valor será detectado.
El coeficiente de variación (CV): es una medida de dispersión relativa de los datos y se
calcula dividiendo la desviación típica muestral por la media y multiplicando el cociente por
100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más
grupos. Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya
media es de 69,6 kg. y su desviación típica (s) = 10,44 y la TAS de los mismos (150, 170, 135,
180 y 195 mmHg) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta
sería: ¿qué distribución es más dispersa, el peso o la tensión arterial? Si comparamos las
desviaciones típicas observamos que la desviación típica de la tensión arterial es mucho
mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas
diferentes, por lo que calculamos los coeficientes de variación:
CV de la variable peso =
CV de la variable TAS =
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre
cuando los valores de su media y mediana están próximos), se usan para describir esa variable
4. su media y desviación típica. En el caso de distribuciones asimétricas, la mediana y la amplitud
son medidas más adecuadas. En este caso, se suelen utilizar además los cuartiles y
percentiles, que no son medidas de tendencia central sino medidas de posición.
El percentil: es el valor de la variable que indica el porcentaje de una distribución que es
igual o menor a esa cifra.
Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de
sí al 80% del total de las puntuaciones.
Los cuartiles: son los valores de la variable que dejan por debajo de sí el 25%, 50% y el 75%
del total de las puntuaciones y así tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y
el tercer cuartil (Q3).
Algunos ejemplos gráficos son: histograma, pirámide poblacional, clústers, entre otros.
- La estadística inferencial: se dedica a la generación de los modelos, inferencias y
predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las
observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de
la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas
si/no (prueba de hipótesis), estimaciones de características numéricas (estimación),
pronósticos de futuras observaciones, descripciones de asociación (correlación) o
modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas
de modelamiento incluyen anova, series de tiempo y minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también
una disciplina llamada estadística matemática, la que se refiere a las bases teóricas de la
materia. La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo
estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales,
entre otros.
1.2. Software de cálculo numérico y simbólico (problemas
matemáticos):
Software matemático es aquel software que se utiliza para realizar, apoyar o ilustrar
problemas matemáticos; entre este tipo de software se encuentran los sistemas algebraicos
computacionales y graficadores de funciones, entre otros. Existen grupos y proyectos
dedicados al estudio y difusión de software matemático libre, los cuales han aportado
productos que facilitan el trabajo con estas herramientas.
Vocabulario del software matemático:
Paquete estadístico: es un programa que está especialmente diseñado para resolver
problemas en el área de la estadística, o bien está programado para resolver problemas de
esta área. Existen muchos programas que no son especialmente estadísticos pero que pueden
hacer algunos cálculos aplicables en estadística aplicada.
5. Software de Análisis numérico: es un programa que simula procesos matemáticos complejos
aplicados a procesos del mundo real.
Sistema algebraico computacional (CAS, del inglés computer algebra system): es un
programa que facilita el cálculo simbólico. La principal diferencia entre este y una calculadora
es la habilidad para trabajar con ecuaciones y fórmulas simbólicamente, en lugar de
numéricamente.
Programa Interactivo de Geometría o Entorno de Geometría Dinámica: es un programa
que permiten crear y manipular construcciones geométricas, principalmente en geometría
plana.
Hoja de cálculos.
Los programas de hoja de cálculo se utilizan ampliamente para ejecutar cálculos
matemáticos. Estos programas también tienen muchas aplicaciones en el campo electoral.
Los programas de hoja de cálculo permiten que el usuario incluya cuadros de información
divididos en filas y columnas. El punto donde una fila y una columna se interceptan se llama
"celda". El usuario puede definir fórmulas en las celdas para ejecutar cálculos utilizando la
información de otras celdas. Los resultados de las fórmulas se calculan automáticamente a
medida que se agregan las cantidades. Cuando se efectúan cambios a la información contenida
en las celdas, el programa recalcula las fórmulas y muestra automáticamente los nuevos
resultados.
Los usos de las hojas de cálculos pueden ir desde simples cálculos aritméticos, como sumar
columnas de números, hasta sofisticados análisis de información. En el campo electoral, se les
utiliza para calcular y desplegar resultados electorales. También se les usa comúnmente para
llevar registros financieros y realizar cálculos con ellos.
Los programas de hoja de cálculo también pueden tomar información "bruta" y mostrarla
gráficamente. Esto es útil para determinar tendencias y para realizar presentaciones con
gráficas. Muchos de los programas modernos de hoja de cálculo incorporan buena parte de las
características de los programas de procesador de textos.
Los documentos de las hojas de cálculo también pueden ser guardados en múltiples versiones
a las que luego se puede tener nuevo acceso según se requiera. Además son capaces de
desplegar textos e imágenes en forma similar a la que se puede hacer utilizando programas de
procesador de palabra. Algunos programas de hoja de cálculo también permiten:
Especificar el tipo y tamaño de la letra así como el color del texto.
Determinar al gusto los márgenes y tabuladores.
Revisar ortografía y gramática.
Búsqueda de texto específico.
6. Corregir errores.
Utilizar líneas, bordes y sombras.
Resaltar el texto con cursivas, negritas, subrayado, color y movimiento (en pantalla).
Numerar automáticamente páginas, párrafos o componentes de un listado.
Imprimir páginas de manera vertical u horizontal.
Agregar títulos y notas de pie de página.
Incorporar fotografías, imágenes, símbolos, gráficas y video (en pantalla).
Incorporar ligas en la pantalla (conocidas como "hipervínculos") que pueden trasladar
al usuario a otras partes del mismo documento, a otros documentos almacenados en un
disco local o una red o a documentos y páginas de internet.
La lista de características disponibles en los programas de hoja de cálculo sigue aumentando
a medida que se introducen mejoras o actualizaciones.
Muchos libros, revistas y sitios en la red contienen información que pueden ayudar a elegir
los programas más apropiados para determinados propósitos.
Es deseable que todos los usuarios de los programas de hojas de cálculo sean capacitados
para su uso. En muchos países existen capacitadores externos. Algunas autoridades
electorales pueden ser capaces de ofrecer la capacitación requerida utilizando a su propio
personal calificado. La mayoría de los paquetes de programas de cómputo vienen acompañados
de manuales del usuario (impresos o en pantalla) y algunos con instructivos detallados en
pantalla.
Es mejor utilizar los programas de hoja de cálculo cuando la información está siendo
utilizada en dos dimensiones (filas y columnas). Cuando se analizan distintas clase de variables
o cuando existen múltiples interrelaciones entre ellas, las bases de datos relacionables son un
método más eficiente para registrar y analizar la información.
2. Páginas utilizadas:
http://es.wikipedia.org/wiki/Estad%C3%ADstica
http://www.fisterra.com/mbe/investiga/10descriptiva/10descriptiva.asp
http://es.wikipedia.org/wiki/Software_matem%C3%A1tico
http://aceproject.org/main/espanol/et/etg02.htm
http://es.wikipedia.org/wiki/Software