SlideShare una empresa de Scribd logo
1 de 81
Descargar para leer sin conexión
See	discussions,	stats,	and	author	profiles	for	this	publication	at:	https://www.researchgate.net/publication/49303936
Fundamentos	de	estadística
Article
Source:	OAI
CITATIONS
4
READS
44,170
1	author:
Some	of	the	authors	of	this	publication	are	also	working	on	these	related	projects:
sPaCE	a	psychometrically	robust	measure	of	distress	and	change	in	psychotherapy	View	project
Chris	Leach
University	of	Huddersfield
48	PUBLICATIONS			1,136	CITATIONS			
SEE	PROFILE
All	content	following	this	page	was	uploaded	by	Chris	Leach	on	02	June	2014.
The	user	has	requested	enhancement	of	the	downloaded	file.
Fundamentos de Estadística
Pablo Cazau
Prefacio
Capítulo 1: Introducción a la estadística
1.1 Definición y utilidad de la estadística
1.2 Clasificaciones de la estadística
1.3 Población y muestra
1.4 Estructura del dato
1.5 La medición
Capítulo 2: Estadística descriptiva
2.1 Generalidades
2.2 Ordenamiento y agrupación de los datos: matrices y tablas
2.3 Visualización de los datos: gráficos
2.4 Síntesis de los datos: medidas estadísticas de posición
2.5 Síntesis de los datos: medidas estadísticas de dispersión
2.6 Síntesis de los datos: asimetría y curtosis
Notas
Capítulo 3: Probabilidad y curva normal
3.1 El concepto de probabilidad
3.2 Definición y características de la curva normal
3.3 Puntajes brutos y puntajes estandarizados
3.4 Aplicaciones de la curva normal
Notas
Capítulo 4: Correlación y regresión
4.1 Introducción
4.2 El análisis de correlación
4.3 Cálculo gráfico de la correlación
4.4 Cálculo analítico de la correlación
4.5 Un ejemplo: construcción y validación de tests
4.6 El análisis de regresión
4.7 Cálculo analítico de la regresión
4.8 Cálculo gráfico de la correlación
Notas
Capítulo 5: Estadística inferencial
5.1 Introducción
5.2 Estimación de parámetros
5.3 Prueba de hipótesis
5.4 Ejemplos de pruebas de hipótesis
5.5 El concepto de significación estadística
Notas
Referencias bibliográficas
Otras fuentes consultadas
Anexos
ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUÍA
ANEXO 2: TABLA DE ÁREAS BAJO LA CURVA NORMAL ESTANDARIZADA
Tabla 1 – Áreas desde z hacia la izquierda
Tabla 2 – Áreas desde z = 0 hacia la izquierda o hacia la derecha
ANEXO 3: TABLA DE LA DISTRIBUCIÓN t
Fundamentos de estadística
Pablo Cazau
PREFACIO
El presente texto fue pensado como un manual de consulta para alumnos de diversas carreras
universitarias de grado y posgrado que cursan asignaturas donde se enseña la estadística como
herramienta de la metodología de la investigación científica.
Se brinda aquí un panorama general e introductorio de los principales temas de una disciplina que opera
en dos grandes etapas: la estadística descriptiva y la estadística inferencial. También se desarrollan los
conceptos de probabilidad y curva normal, básicos para la comprensión de la estadística inferencial, y los
conceptos de correlación y regresión vinculados, respectivamente, con las etapas descriptiva e
inferencial.
Pablo Cazau. Licenciado en Psicología y Profesor de Enseñanza Media y Superior en Psicología (UBA).
Buenos Aires, Enero 2006.
Todos los derechos reservados
CAPÍTULO 1: INTRODUCCION A LA ESTADISTICA
1.1 DEFINICIÓN Y UTILIDAD DE LA ESTADÍSTICA
La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.
Por ejemplo, la estadística interviene cuando se quiere conocer el estado sanitario de un país, a través de
ciertos parámetros como la tasa de morbilidad o mortalidad de la población. En este caso la estadística
describe la muestra en términos de datos organizados y resumidos, y luego infiere conclusiones respecto
de la población. Por ejemplo, aplicada a la investigación científica, hace inferencias cuando emplea
medios matemáticos para establecer si una hipótesis debe o no ser rechazada.
La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada en física, química,
biología, medicina, astronomía, psicología, sociología, lingüística, demografía, etc.
Cuando en cualquiera de estas disciplinas se trata de establecer si una hipótesis debe o no ser rechazada,
no siempre es indispensable la estadística inferencial.
Por ejemplo, si sobre 60 veces que se mira un dado, sale un dos 10 veces, no se requiere la estadística
para rechazar la hipótesis “el dado está cargado”. Si sale un dos en 58 ocasiones sobre 60, tampoco se
necesita la estadística para aceptar la hipótesis “el dado está cargado”.
Pero, ¿qué ocurre si el número dos sale 20, 25 o 30 veces? En estos casos de duda, la estadística
interviene para determinar hasta qué cantidad de veces se considerará rechazada la hipótesis (o bien
desde qué cantidad de veces se la considerará aceptada). En otras palabras, la estadística interviene
cuando debe determinarse si los datos obtenidos son debidos al azar o son el resultado de un dado
cargado.
Otro ejemplo. Si una persona adivina el color (rojo o negro) de las cartas en un 50% de los casos, se
puede rechazar la hipótesis “la persona es adivina”. Si, en cambio, acierta en el 99% de los casos el color
de las cartas, se puede aceptar la mencionada hipótesis. Los casos de duda corresponden a porcentajes
de acierto intermedios, como el 60%, el 70%, etc., en cuyos casos debe intervenir la estadística para
despejarlos.
La importancia de la estadística en la investigación científica radica en que la gran mayoría de las
investigaciones son „casos de duda‟.
1.2 CLASIFICACIONES DE LA ESTADÍSTICA
Existen varias formas de clasificar los estudios estadísticos.
1) Según la etapa.- Hay una estadística descriptiva y una estadística inferencial. La primera etapa se
ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen
la muestra (por ejemplo, conclusiones con respecto a la población).
Tanto la estadística descriptiva como la estadística inferencial se ocupan de obtener datos nuevos. La
diferencia radica en que la estadística descriptiva procede a resumir y organizar esos datos para facilitar
su análisis e interpretación, y la estadística inferencial procede a formular estimaciones y probar hipótesis
acerca de la población a partir de esos datos resumidos y obtenidos de la muestra. Puesto que estas
últimas operaciones llevarán siempre a conclusiones que tienen algún grado de probabilidad, la teoría de
la probabilidad constituye una de sus herramientas principales. Téngase presente que en sí misma la
teoría de la probabilidad no forma parte de la estadística porque es otra rama diferente de la matemática,
pero es utilizada por la estadística como instrumento para lograr sus propios objetivos.
La estadística descriptiva también incluye –explícita o implícitamente- consideraciones probabilísticas,
aunque no resultan ser tan importantes como en la estadística inferencial. Por ejemplo, la elección de un
determinado estadístico para caracterizar una muestra (modo, mediana o media aritmética) se funda
sobre ciertas consideraciones implícitas acerca de cuál de ellos tiene más probabilidades de representar
significativamente el conjunto de los datos que se intenta resumir.
Tanto la estadística descriptiva como la inferencial implican, entonces, el análisis de datos. “Si se realiza
un análisis con el fin de describir o caracterizar los datos que han sido reunidos, entonces estamos en el
área de la estadística descriptiva… Por otro lado, la estadística inferencial no se refiere a la simple
descripción de los datos obtenidos, sino que abarca las técnicas que nos permiten utilizar los datos
muestrales para inferir u obtener conclusiones sobre las poblaciones de las cuales fueron extraídos dichos
datos” (Pagano, 1998:19).
Kohan, por su parte, sintetiza así su visión de las diferencias entre ambos tipos de estadística: “Si
estudiamos una característica de un grupo, sea en una población o en una muestra, por ejemplo talla,
peso, edad, cociente intelectual, ingreso mensual, etc, y lo describimos sin sacar de ello conclusiones
estamos en la etapa de la estadística descriptiva. Si estudiamos en una muestra una característica
cualquiera e inferimos, a partir de los resultados obtenidos en la muestra, conclusiones sobre la población
correspondiente, estamos haciendo estadística inductiva o inferencial, y como estas inferencias no
pueden ser exactamente ciertas, aplicamos el lenguaje probabilístico para sacar las conclusiones”
(Kohan, 1994:25). Kohan emplea la palabra inductiva porque las inferencias realizadas en este tipo de
estadística son razonamientos inductivos, modernamente definidos como razonamientos cuya conclusión
es sólo probable.
2) Según la cantidad de variables estudiada.- Desde este punto de vista hay una estadística univariada
(estudia una sola variable, como por ejemplo la inteligencia), una estadística bivariada (estudia la
relación entre dos variables, como por ejemplo inteligencia y alimentación), y una estadística
multivariada (estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad y
la alimentación con la inteligencia).
El siguiente esquema ilustra la relación entre dos clasificaciones de la estadística: descriptiva / inferencial
y univariada / bivariada.
La estadística descriptiva se ocupa de muestras, y la estadística inferencial infiere características de la
población a partir de muestras.
A su vez, ambas etapas de la estadística pueden estudiar una variable por vez o la relación entre dos o
más variables. Por ejemplo, a) en el caso de la estadística univariada, el cálculo de medidas de posición y
dispersión en una muestra corresponde a la estadística descriptiva, mientras que la prueba de la media
corresponde a la estadística inferencial; b) en el caso de la estadística bivariada, el análisis de correlación
de variables en una muestra corresponde estrictamente hablando a la estadística descriptiva, mientras
que el análisis de regresión o las pruebas de hipótesis para coeficientes de correlación (Kohan N,
1994:234) corresponden a la estadística inferencial.
3) Según el tiempo considerado.- Si se considera a la estadística descriptiva, se distingue la estadística
estática o estructural, que describe la población en un momento dado (por ejemplo la tasa de
nacimientos en determinado censo), y la estadística dinámica o evolutiva, que describe como va
cambiando la población en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos).
1.3 POBLACIÓN Y MUESTRA
Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente definir de cuáles
datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadístico se
llama población.
No debe confundirse la población en sentido demográfico y la población en sentido estadístico.
La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país, todas
las ratas de una ciudad), mientras que una población en sentido estadístico es un conjunto de datos
referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de
un país, el color de todas las ratas de una ciudad).
Incluso una población en sentido estadístico no tiene porqué referirse a muchos individuos. Una población
estadística puede ser también el conjunto de calificaciones obtenidas por un individuo a lo largo de sus
estudios universitarios.
En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales, según
que correspondan a muchas personas o a una sola, y también según que hayan sido recolectados en un
instante de tiempo determinado, o bien a lo largo del tiempo.
De muchos individuos De un solo individuo
En un instante de tiempo Notas de todos los alumnos en el
primer parcial de tal mes y tal año.
Notas de un solo alumno en el
primer parcial de las materias que
POBLACION
MUESTRA
Parámetros
x1 x2 xn
Estadísticos
x1 y1
x  y
x  y
Una variable Dos (o más) variables
cursa en ese momento.
A lo largo del tiempo Notas de todos los alumnos durante
los 6 años de carrera.
Notas de un alumno a lo largo de
los 6 años de carrera.
Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin embargo, en la
mayoría de los casos no es posible hacerlo por razones de esfuerzo, tiempo y dinero, razón por la cual se
extrae, de la población, una muestra, mediante un procedimiento llamado muestreo. Se llama muestra a
un subconjunto de la población, y que puede o no ser representativa de la misma.
Por ejemplo, si la población es el conjunto de todas las edades de los estudiantes de la provincia de
Buenos Aires, una muestra podría ser el conjunto de edades de 2000 estudiantes de la provincia de
Buenos Aires tomados al azar.
1.4 ESTRUCTURA DEL DATO
Los datos son la materia prima con que trabaja la estadística, del mismo modo que la madera es la
materia prima con que trabaja el carpintero. Así como este procesa o transforma la madera para obtener
un producto útil, así también el estadístico procesa o transforma los datos para obtener información útil.
Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto está
en recoger la madera o los datos más adecuados a los objetivos del trabajo a realizar.
De una manera general, puede definirse técnicamente dato como una categoría asignada a una variable
de una unidad de análisis. Por ejemplo, “Luis tiene 1.70 metros de estatura” es un dato, donde „Luis‟ es
la unidad de análisis, „estatura‟ es la variable, y „1.70 metros‟ es la categoría asignada.
Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de análisis, una
variable y una categoría.
La unidad de análisis es el elemento del cual se predica una propiedad y característica. Puede ser una
persona, una familia, un animal, una sustancia química, o un objeto como una dentadura o una mesa.
La variable es la característica, propiedad o atributo que se predica de la unidad de análisis. Por ejemplo
puede ser la edad para una persona, el grado de cohesión para una familia, el nivel de aprendizaje
alcanzado para un animal, el peso específico para una sustancia química, el nivel de „salud‟ para una
dentadura, y el tamaño para una mesa.
Pueden entonces también definirse población estadística (o simplemente población) como el conjunto de
datos acerca de unidades de análisis (individuos, objetos) en relación a una misma característica,
propiedad o atributo (variable).
Sobre una misma población demográfica pueden definirse varias poblaciones de datos, una para cada
variable. Por ejemplo, en el conjunto de habitantes de un país (población demográfica), puede definirse
una población referida a la variable edad (el conjunto de edades de los habitantes), a la variable
ocupación (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones
de sexo de los habitantes).
La categoría es cada una de las posibles variaciones de una variable. Categorías de la variable sexo son
masculino y femenino, de la variable ocupación pueden ser arquitecto, médico, etc, y de la variable edad
pueden ser 10 años, 11 años, etc. Cuando la variable se mide cuantitativamente, es decir cuando se
expresa numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye también
una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de
piezas dentarias, centímetros, etc. El valor es, entonces, cada una de las posibles variaciones de una
variable cuantitativa.
Datos individuales y datos estadísticos.- Un dato individual es un dato de un solo individuo, mientras
que un dato estadístico es un dato de una muestra o de una población en su conjunto. Por ejemplo, la
edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o población de
personas es un dato estadístico. Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede
ser 37 años, y el promedio de edades de la muestra donde está incluído Juan es 23 años. Por esta razón
un dato estadístico nada dice respecto de los individuos, porque solamente describe la muestra o
población.
Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por ejemplo, el
promedio de ingresos mensuales de las personas de una muestra), mientras que los datos estadísticos
descriptores de una población suelen llamarse parámetros (por ejemplo, el promedio de ingresos
mensuales de las personas de una población) (Kohan N, 1994:143).
1.5 LA MEDICIÓN
Los datos se obtienen a través un proceso llamado medición. Desde este punto de vista, puede definirse
medición como el proceso por el cual asignamos una categoría (o un valor) a una variable, para
determinada unidad de análisis. Ejemplo: cuando decimos que Martín es varón, estamos haciendo una
medición, porque estamos asignando una categoría (varón) a una variable (sexo) para una unidad de
análisis (Martín).
A veces se ha definido medir como comparar, lo cual puede referirse a diversos tipos de comparación: 1)
comparar una cantidad con otra tomada como unidad Sentido clásico de comparación); 2) comparar dos
categorías de una misma variable en el mismo sujeto y distinto tiempo; 3) comparar dos categorías de una misma
variable en distintos sujetos al mismo tiempo; y 4) categorías de variables distintas (debe usarse puntaje
estandarizado), en el mismo sujeto o en sujetos distintos.
Se pueden hacer mediciones con mayor o menor grado de precisión. Cuanto más precisa sea la medición,
más información nos suministra sobre la variable y, por tanto, sobre la unidad de análisis. No es lo
mismo decir que una persona es alta, a decir que mide 1,83 metros.
Los diferentes grados de precisión o de contenido informativo de una medición se suelen caracterizar
como niveles de medición. Típicamente se definen cuatro niveles de medición, y en cada uno de ellos la
obtención del dato o resultado de la medición será diferente:
Ejemplos de datos en diferentes niveles de medición
Nivel de
medición
Nivel nominal Nivel ordinal Nivel cuantitativo
discreto
Nivel cuantitativo
continuo
DATO Martín es
electricista
Elena terminó la
secundaria
Juan tiene 32
dientes
María tiene 70
pulsaciones por
minuto
Unidad de
análisis
Martín Elena Juan María
Variable Oficio Nivel de
instrucción
Cantidad de piezas
dentarias
Frecuencia cardíaca
Categoría o
valor
Electricista Secundaria
completa
32 70
Unidad de
medida
------------- ------------ Diente Pulsaciones por
minuto
En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de análisis (Martín es
electricista).
En el nivel ordinal, medir significa asignar un atributo a una unidad de análisis cuyas categorías pueden
ser ordenadas en una serie creciente o decreciente (la categoría „secundaria completa‟ puede ordenarse
en una serie, pues está entre „secundaria incompleta‟ y „universitaria incompleta‟).
En el nivel cuantitativo, medir significa además asignar un atributo a una unidad de análisis de modo tal
que la categoría asignada permita saber „cuánto‟ mayor o menor es respecto de otra categoría, es decir,
especifica la distancia o intervalo entre categorías (por ejemplo, la categoría 70 es el doble de la
categoría 35).
Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas. Una variable discreta es
aquella en la cual, dados dos valores consecutivos, no puede adoptar ningún valor intermedio (por
ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes). En cambio, una variable es continua
cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por
ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles).
Algunas veces una misma variable puede ser considerada como discreta o continua. Por ejemplo, la
variable peso es discreta si solamente interesan los pesos sin valores intermedios (50 kg, 51 kg, etc),
mientras que será continua si interesan también los valores intermedios (50,3 kg, 50,35 kg, 50,357 kg,
etc). Obviamente, al considerar una variable como continua se obtendrá mayor precisión, es decir, mayor
información.
La precisión es una cualidad importante de la medición. Se pueden hacer mediciones más precisas y menos
precisas, o tan precisas como lo permita el instrumento de medición. El primer nivel de medición es el menos
preciso, y el último el más preciso. Por ejemplo, una mujer puede estar interesada en „medir‟ el amor de su
pareja, para lo cual podrá interrogarla solicitándole diferentes grados de precisión: ¿me querés? (nivel nominal),
¿me querés más que a la otra? (nivel ordinal), ¿Cuánto me querés, del 1 al 10? (nivel cuantitativo).
De la misma manera, diferentes grados de precisión para la variable temperatura pueden ser: A es un objeto
caliente (nivel nominal), A es más caliente que B (nivel ordinal), A tiene 25 grados Celsius (nivel cuantitativo). Los
ejemplos del amor y de la temperatura ilustran también el hecho de que una variable puede en principio medirse
en cualquiera de los niveles de medición.
Los niveles de medición pueden también ser clasificados de acuerdo a un criterio diferente, que afecta
específicamente a los dos últimos. Así, los niveles de medición pueden ser clasificados como nominal,
ordinal, de intervalos iguales y de cocientes o razones.
Más allá de sus diferentes propiedades matemáticas, el nivel de intervalos iguales incluye un cero relativo
o arbitrario, mientras que el nivel de cocientes o razones incluye un cero absoluto o real. Un cero
absoluto o real representa la ausencia „real‟ de la variable (cero metros implica ausencia de longitud),
mientras que un cero relativo o arbitrario no (cero grado centígrados no implica ausencia de
temperatura).
Existen ciertas variables a las cuales no puede asignársele un „cero real‟, por cuanto no se considera que
esa variable pueda estar ausente en la realidad. Tal es el caso de la ansiedad o la inteligencia: nadie, por
menos ansioso o por menos inteligente que sea, puede tener ansiedad o inteligencia nulas.
CAPÍTULO 2: ESTADÍSTICA DESCRIPTIVA
2.1 GENERALIDADES
El propósito fundamental de la estadística descriptiva es resumir y organizar una gran cantidad de
datos referentes a una muestra (lo más habitual) o a una población. Se supone que los datos resumidos
y organizados permiten describir adecuadamente la muestra o la población a los efectos de conocerla y,
eventualmente, utilizarlos en la estadística inferencial para obtener conclusiones a partir de ellos.
Para resumir y organizar los datos se utilizan diferentes procedimientos, llamados técnicas
descriptivas: la matriz de datos permite ordenarlos, las tablas de frecuencias (o tablas de distribución
de frecuencias) permiten agruparlos, los gráficos permiten visualizarlos, y las medidas estadísticas y las
medidas de asimetría y curtosis permiten resumirlos reduciéndolos a un solo dato.
Secuencia para organizar y resumir datos individuales
A medida que se van utilizando estos procedimientos, los datos van quedando cada vez más resumidos y
organizados. El empleo de dichos procedimientos propios de la estadística descriptiva sigue un orden
determinado, como puede apreciarse en el siguiente esquema:
Como puede verse:
a) Los datos quedan recolectados mediante entrevistas, cuestionarios, tests, etc.
b) Los datos quedan ordenados mediante una matriz de datos (lo cual permite resumir la información en
unas pocas páginas).
c) Los datos quedan agrupados mediante tablas de frecuencias (lo cual permite resumir la información en
una sola página).
d) Los datos quedan visualizados mediante gráficos.
e) Los datos quedan sintetizados mediante las medidas estadísticas y otras (lo cual permite resumir la
información en uno o dos renglones).
Puede entonces decirse que, mediante una matriz de datos, una tabla de frecuencias (1), un gráfico o
con medidas estadísticas, etc, la muestra o la población (conjuntos de datos) puede quedar
adecuadamente descrita.
Estas sucesivas abstracciones estadísticas implican: a) la reducción del espacio físico donde queda
guardada la nueva información, y b) la desaparición de considerable información irrelevante.
Debe distinguirse el fin o propósito perseguido (por ejemplo ordenar los datos), del medio utilizado para
ello, que e la técnica descriptiva (por ejemplo, la matriz de datos).
2.2 ORDENAMIENTO Y AGRUPACIÓN DE LOS DATOS: MATRICES Y TABLAS
Una vez que los datos han sido recolectados, se procede a continuación a ordenarlos en una matriz de
datos y luego a agruparlos en una tabla de frecuencias.
DATOS RECOLECTADOS
(entrevistas, cuestionarios, tests, etc)
DATOS ORDENADOS
(matriz de datos)
DATOS AGRUPADOS POR
FRECUENCIA
(tabla de frecuencias)
DATOS AGRUPADOS POR
INTERVALOS
(tabla de frecuencias por intervalos)
DATOS VISUALIZADOS
(gráficos)
DATOS SINTETIZADOS
(medidas estadísticas y medidas de asimetría y curtosis)
La forma de ordenarlos y agruparlos dependerá del tipo de variable considerada. Por ejemplo, si son
datos relativos a variables cualitativas (niveles de medición nominal y ordinal), no podremos utilizar
tablas de frecuencias por intervalos. El siguiente cuadro indica de qué manera se pueden ordenar y
agrupar los datos según cada nivel de medición de la variable:
Ejemplos de organización de los datos según el nivel de medición
Datos ordenados Datos agrupados por frecuencia Datos agrupados por
intervalos
Nivel nominal
(Ejemplo:
variable
religión)
Matriz de datos
Sujeto x (religión)
Juan Católica
Pedro Católica
María Judía
Antonio Protestante
Luis Protestante
José Protestante
Tabla de frecuencias
x (religión) f
Católica 2
Judía 1
Protestante 3
n = 6
f = frecuencia
n = tamaño de la muestra
Nivel ordinal
(Ejemplo:
variable clase
social)
Matriz de datos
Sujeto x (clase
social)
Juan Alta
Pedro Media
María Media
Antonio Media
Luis Baja
José Baja
Tabla de frecuencias
x (clase social) f
Alta 1
Media 3
Baja 2
n = 6
f = frecuencia
n = tamaño de la muestra
Nivel
cuantitativo
(Ejemplo:
variable edad)
Matriz de datos
Sujeto x (edad)
Juan 15
Pedro 15
María 15
Antonio 16
Luis 16
José 16
Ana 16
Gabriela 16
Susana 17
Martín 17
Sergio 17
Pablo 17
Daniel 17
Graciela 17
Daniela 17
Beatriz 17
Oscar 18
Felipe 18
Alberto 18
Mónica 19
Marta 19
Mariana 20
Tabla de frecuencias
x (edad) f
15 3
16 5
17 8
18 3
19 2
20 1
n = 22
f = frecuencia
n = tamaño de la muestra
Tabla de frecuencias por
intervalos
x (edad) f
15-16 8
17-18 11
19-20 3
n = 22
f = frecuencia
n = tamaño de la muestra
Una vez confeccionada la matriz de datos, se procede luego a resumir aún más esta información
mediante una tabla de frecuencias o, si cabe, en una tabla de frecuencias por intervalos. Una tabla de
este último tipo se justifica cuando la tabla de frecuencias original es demasiado grande y por tanto de
difícil manejo para procesar la información. Sea de la forma que fuere, los datos ordenados según sus
frecuencias suelen denominarse distribución de frecuencias (13).
Las tablas de frecuencias contienen tres elementos importantes: las frecuencias, el tamaño de la muestra
y los intervalos (en este último caso sólo para variables cuantitativas).
a) Frecuencia.- La frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por
ejemplo: la frecuencia 2 indica que el dato „católico‟ se repite dos veces, la frecuencia 3 que el dato
“clase media” se repite tres veces, y la frecuencia 8 que el dato “17 años” se repite ocho veces.
A veces resulta necesario expresar las frecuencias de otra manera, como puede apreciarse en la siguiente
tabla ilustrativa:
Tipos de frecuencias que pueden indicarse en una tabla de frecuencias
x (edad) f f% F F% fr Fr
15 3 15% 3 15% 0.15 0.15
16 7 35% 10 50% 0.35 0.50
17 8 40% 18 90% 0.40 0.90
18 2 10% 20 100% 0.10 1
n = 20 n = 100% ------ ------ n = 1 ------
Frecuencia absoluta (f).- Es la cantidad de datos que se repiten. Por ejemplo, la frecuencia 3 indica que
hay tres personas de 15 años. La suma de todas las frecuencias absolutas equivale al tamaño de la
muestra.
Frecuencia porcentual (f%).- Es el porcentaje de datos que se repiten. Por ejemplo, la frecuencia
porcentual 15% indica que el 15% de la muestra tiene la edad de 15 años. La suma de todas las
frecuencias porcentuales es 100%.
Frecuencia acumulada (F).- Es el resultado de haber sumado las frecuencias anteriores. Por ejemplo, la
frecuencia acumulada 10 resulta de sumar 7+3, e indica la cantidad de veces que se repiten las edades
16 y 15. La última de todas las frecuencias acumuladas, que en el ejemplo es 20, debe coincidir con el
tamaño de la muestra.
Frecuencia acumulada porcentual (F%).- Es el porcentaje de las frecuencias acumuladas.
Frecuencia relativa (fr).- A veces también llamada proporción, es el cociente entre la frecuencia de un
dato x y la frecuencia total o tamaño de la muestra. En la práctica, el tamaño de la muestra se considera
como 1, a diferencia del tamaño de la muestra en la frecuencia porcentual, que se considera 100%.
Frecuencia relativa acumulada (Fr).- Es el resultado de haber sumado las frecuencias relativas
anteriores. Por ejemplo: la frecuencia relativa 0.90 indica que en 0.90 casos sobre 1 las edades están
comprendidas entre 15 y 17 años.
Frecuencias parciales y frecuencia total.- Tanto las frecuencias absolutas como las porcentuales o las
relativas pueden ser frecuencias parciales o una frecuencia total, siendo ésta última la suma de todas
frecuencias parciales.
Las frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia
total, y sirven para establecer comparaciones entre muestras distintas. Por ejemplo, si en una muestra
de 1000 hombres, solo votaron 200, y en una muestra de 600 mujeres solo votaron 200 mujeres, en
términos de frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos, es decir
200, pero en „proporción‟, las mujeres votaron más (la tercera parte del total) que los hombres (la quinta
parte del total). Esta información se obtiene al convertir las frecuencias absolutas en frecuencias
porcentuales o en frecuencias relativas (o proporciones).
2) Tamaño de la muestra.- Otro concepto importante es el tamaño de la muestra (n), que designa la
cantidad total de datos. Obviamente, la suma de todas las frecuencias f debe dar como resultado el
tamaño n de la muestra, por lo que el tamaño de la muestra coincide con la frecuencia total.
3) Intervalos.- Un intervalo, también llamado intervalo de clase, es cada uno de los grupos de valores
ubicados en una fila en una tabla de frecuencias. Por ejemplo el intervalo 15-16 significa que en esa fila
se están considerando las edades de 15 a 16 años. La frecuencia correspondiente a un intervalo es igual
a la suma de frecuencias de los valores en él incluídos (2). Los intervalos presentan algunas
características, que son las siguientes:
Tamaño del intervalo (a).- También llamado amplitud o anchura del intervalo, es la cantidad de valores
de la variable que se consideran conjuntamente en ese intervalo. Por ejemplo, el intervalo 15-16 años
tiene una amplitud de 2, puesto que se consideran dos valores: 15 y 16. En otro ejemplo, el intervalo 20-
25 años tiene una amplitud de 6, puesto que se consideran seis valores.
En general, puede calcularse el tamaño de un intervalo restando el límite superior y el inferior y sumando
al resultado el número 1. Por ejemplo, 25 menos 20 da 5, y sumándole 1 da 6.
Los ejemplos indicados corresponden a variables discretas, lo que significa que no podrán encontrarse
valores intermedios entre dos intervalos. Por ejemplo, entre los intervalos 15-16 y 17-18 no se
encontrarán valores intermedios entre 16 y 17 años.
Téngase presente que: a) preferiblemente los intervalos deben tener un tamaño constante, de manera tal
que no se pueden considerar como intervalos 15-16 y 17-20, porque tienen diferentes tamaños; y b) los
intervalos han de ser mutuamente excluyentes, de manera tal que cuando se trata de variables discretas,
no pueden definirse los intervalos 15-16 y 16-17, porque el valor 16 años está en ambos intervalos y no
se podrá saber con seguridad en qué intervalo ubicar dicho valor.
El problema se puede presentar con las variables continuas, donde, por definición, podría aparecer algún
valor intermedio entre dos intervalos. Por ejemplo, si se considera la variable continua „ingresos
mensuales‟ y se consideran en ella los intervalos 1000-2000 dólares y 3000-4000 dólares, puede ocurrir
que un dato obtenido de la realidad sea 2500 dólares, con lo cual no podrá ser registrado en ningún
intervalo. En tal caso se deberían reorganizar los intervalos como 1000-2999 dólares y 3000-4999
dólares, con lo cual el problema estaría resuelto.
Desde ya, puede ocurrir que aparezca un ingreso mensual de 2999,50 dólares, en cuyo caso en principio
deberían reorganizarse nuevamente los intervalos como 1000-2999,50 dólares y 2999,51-4999 dólares.
La forma de reorganizar los intervalos dependerá entonces del grado de precisión que pretenda el
investigador o del grado de precisión del instrumento de medición disponible.
Límites del intervalo.- Todo intervalo debe quedar definido por dos límites: un límite inferior y un límite
superior. Estos límites, a su vez, pueden ser aparentes o reales (Pagano, 1998:38-39). Considérese el
siguiente ejemplo:
Límites aparentes Límites reales
95-99 94.5-99.5
90-94 89.5-94.5
85-89 84.5-89.5
80-84 79.5-84.5
75-79 74.5-79.5
Si la variable considerada es discreta, carecerá de sentido la distinción entre límites reales o aparentes.
Si se conviene que los valores que la variable puede adoptar son números enteros, se considerarán
solamente los intervalos 95-99, 90-94, etc. Estos intervalos son en rigor reales, porque expresan los
valores „reales‟ que puedan haber, que no son fraccionarios.
Sólo en el caso de las variables continuas adquiere sentido la distinción entre límites reales y aparentes.
Si la variable es continua, deberían tenerse en cuenta los límites reales. Por ejemplo, si un valor resulta
ser 94.52, entonces será ubicado en el intervalo 94.5-99.5. Sin embargo, aún en estos casos, lo usual es
omitir los límites reales y presentar sólo los límites aparentes (Pagano, 1998:39). En todo caso, los
límites reales se utilizan a veces cuando se intenta transformar la tabla de frecuencias por intervalos en
un gráfico.
En principio, en ningún caso deberá haber una superposición de valores, como en el caso de los
intervalos 20-21 y 21-22, donde el valor 21 está incluído en ambos intervalos, violándose así la regla de
la mutua exclusión. Si acaso se presentara esta situación, o bien podrá ser adjudicada a un error del
autor de la tabla, o bien deberá traducírsela como 20-20.99 y 21-22.99.
Punto medio del intervalo (xm).- Es el valor que resulta de la semisuma de los límites superior e inferior,
es decir, el punto medio del intervalo se calcula sumando ambos límites y dividiendo el resultado por dos.
Por ejemplo, el punto medio del intervalo 15-20 es 17.5. El punto medio del intervalo sirve para calcular
la media aritmética.
Intervalos abiertos y cerrados.- Idealmente, todos los intervalos deberían ser cerrados, es decir, deberían
estar especificados un límite superior y uno inferior de manera definida. Sin embargo, en algunos casos
se establecen también intervalos abiertos, donde uno de los límites queda sin definir. En el siguiente
ejemplo, ‟18 o menos‟ y ‟29 o más‟ son intervalos abiertos. Obviamente, en este tipo de distribución los
intervalos dejan de ser de tamaño constante.
Intervalos
18 o menos
19-23
24-28
29 o más
Cantidad de intervalos.- La cantidad de intervalos es inversamente proporcional al tamaño de los
mismos: cuanto menor tamaño tienen los intervalos, más numerosos serán.
El solo hecho de emplear intervalos supone una cierta pérdida de la información. Por ejemplo, si se
considera el intervalo 15-18 años, quedará sin saber cuántas personas de 16 años hay. Para reducir esta
incertidumbre, podría establecerse un intervalo menor (15-16 años), pero con ello habrá aumentado la
cantidad de intervalos hasta un punto donde la información se procesará de manera más difícil.
Consiguientemente, al agrupar los datos hay que resolver el dilema entre perder información y presentar
los datos de manera sencilla (Pagano R, 1998:37) (Botella, 1993:54), es decir, encontrar el justo
equilibrio entre el tamaño de los intervalos y su cantidad.
En la práctica, por lo general (Pagano, 1998:37) se consideran de 10 a 20 intervalos, ya que la
experiencia indica que esa cantidad de intervalos funciona bien con la mayor parte de las distribuciones
de datos (3).
Se pueden sintetizar algunas reglas importantes para la construcción de intervalos de la siguiente
manera:
a) Los intervalos deben ser mutuamente excluyentes.
b) Cada intervalo debe incluir el mismo número de valores (constancia de tamaño).
c) La cantidad de intervalos debe ser exhaustiva (todos los valores deben poder ser incluídos en algún
intervalo).
d) El intervalo superior debe incluir el mayor valor observado (Botella, 1993:54).
e) El intervalo inferior debe incluir al menor valor observado (Botella, 1993:54).
f) En variables continuas, es aconsejable expresar los límites aparentes de los intervalos, que los límites
reales.
2.3 VISUALIZACIÓN DE LOS DATOS: GRÁFICOS
Una vez que los datos han sido organizados en tablas de frecuencias, es posible seguir avanzando
organizándolos, desde allí, de otras maneras diferentes y con distintos propósitos. Una de estas maneras
es la utilización de representaciones gráficas, algunas de las cuales son aptas para representar variables
cualitativas (niveles nominal y ordinal) y otras para variables cuantitativas. Al tratarse de esquemas
visuales, los gráficos permiten apreciar de un „golpe de vista‟ la información obtenida.
Diagrama de tallo y hojas
Esta técnica de visualización de datos es aquí mencionada en primer lugar porque puede ser considerada
un procedimiento intermedio entre la tabla de frecuencias y el gráfico. Fue creada por Tukey en 1977
(citado por Botella, 1993:59) y presenta, entre otras, las siguientes ventajas: a) permite conocer cada
puntuación individual (a diferencia de la tabla de frecuencias por intervalos, donde desaparecen en ellos);
y b) puede ser considerada un „gráfico‟ si hacemos girar 90° el listado de puntuaciones o datos.
A continuación se describe la forma de construir un diagrama de tallo y hojas, tomando como ejemplo la
siguiente distribución de datos ordenados:
32-33-37-42-46-49-51-54-55-57-58-61-63-63-65-68-71-72-73-73-73-75-77-77-78-83-85-85-91-93
Tallo Hojas Procedimiento para realizar el diagrama de tallo y hojas
a) Se construye una tabla como la de la izquierda con dos columnas: tallos y
hojas.
b) Se identifican cuáles son los valores extremos: 32 y 93.
c) Se consideran los primeros dígitos de cada valor: 3 y 9.
d) En la columna “tallos” se colocan los números desde el 3 hasta el 9.
e) En la columna “hojas” se colocan los segundos dígitos de cada valor que
empiece con 3, con 4, con 5, etc.
3 237
4 269
5 14578
6 13358
7 123335778
8 355
9 13
Girando la tabla obtenida 90° hacia la izquierda, se obtendrá algo similar a un gráfico de barras, que
muestra por ejemplo que la mayor concentración de valores es la que comienza con 7.
Una utilidad adicional del diagrama de tallo y hojas es que permite comparar visualmente dos variables,
es decir, dos conjuntos de datos en los análisis de correlación, como puede apreciarse en el siguiente
ejemplo:
Hojas (Grupo control) Tallo Hojas (Grupo experimental)
87655 1 9
44322110 2 124
876655 3 5667788899
111000 4 00023344
5 555
Visualmente es posible darse una idea de los resultados del experimento: los datos del grupo
experimental tienden a concentrarse en los valores altos, y los del grupo de control en los valores bajos.
Pictograma
Es una representación gráfica en la cual se utilizan dibujos. Por ejemplo, en el siguiente pictograma cada
cara puede representar 100 personas:
Sector circular
Representación gráfica de forma circular donde cada porción de la „torta‟ representa una frecuencia. Para
confeccionarlo se parte de una tabla de frecuencias donde están especificadas las frecuencias en grados
(f°), las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas
(f).
Por ejemplo, si 825 es a 360°, entonces 310 es igual a 360° x 310 dividido por 825, lo cual da un
resultado de 135°. Por lo tanto, para representar la frecuencia 310 deberá trazarse un ángulo de 135°.
Estos valores pueden verse en el ejemplo siguiente, donde se han representado dos sectores circulares
distintos, uno para varones y otro para mujeres:
x
(patología)
Sexo Total f°
(varones)
f°
(mujeres)Varones Mujeres
Angina 310 287 597 135° 113°
Bronquitis 297 429 726 130° 169°
Sarampión 123 120 243 54° 47°
Otras 95 80 175 41° 31°
Total 825 916 1691 360° 360°
Para realizar estos sectores se traza un ángulo de por ejemplo 130° y dentro de coloca la palabra
“bronquitis”, y así sucesivamente.
El círculo para mujeres es algo mayor que el círculo para hombres, porque en la muestra hay más
mujeres que hombres. Para lograr estos tamaños debe calcularse el radio. Por ejemplo, si se ha elegido
un radio masculino de 4 cm, el radio femenino puede calcularse mediante la fórmula siguiente:
El radio femenino es igual al radio masculino multiplicado por la raíz cuadrada del n femenino, resultado
que se dividirá por la raíz cuadrada del n masculino, donde n = tamaño de la muestra de cada sexo. Si el
radio masculino es 4 cm, con esta fórmula se obtendrá un radio femenino de 4,22 cm.
Diagrama de barras
Representación gráfica donde cada barra representa una frecuencia parcial. En el eje de las ordenadas se
indican las frecuencias absolutas, y en el eje de absisas se representan los valores de la variable x. De
esta manera, las barras „más altas‟ tienen mayor frecuencia.
Varones
Mujeres
100 personas
Varones
Mujeres
Bronquitis
Angina
Saram
pión
Otras
Bronquitis
Angina Saram
pión
Otras
Existen diferentes tipos de diagramas de barras, de los cuales se ilustran tres: las barras simples, las
barras superpuestas y las barras adyacentes. Los dos últimos tipos dan información sobre dos variables
al mismo tiempo, que son sexo y estado civil en los ejemplos que siguen:
Las barras también pueden disponerse horizontalmente.
Mediante el diagrama de barras pueden representarse variables cualitativas y cuantitativas discretas.
Histograma de Pearson
Utilizado para representar variables cuantitativas continuas agrupadas en intervalos, este gráfico se
compone de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el
ejemplo siguiente, se presenta la tabla de frecuencias por intervalos y su histograma correspondiente:
x (longitud) f
1-1.99 3
2-2.99 5
3-3.99 2
Total 10
f
25
20
15
10
5
Barras simples
f
25
20
15
10
5
Solteros Casados Separados
x
Barras superpuestas
f
25
20
15
10
5
Solteros Casados Separados x
Barras adyacentes
Solteros Casados Separados x
Adolescentes
Adultos
Como pude apreciarse, en las absisas se indican los límites inferiores de los intervalos.
Cuando los intervalos no son iguales, en lugar de indicar las frecuencias absolutas pueden indicarse las
alturas (h). Esta última se obtiene dividiendo la frecuencia parcial por el tamaño del intervalo
correspondiente.
Polígono de frecuencias
Es un gráfico de líneas rectas que unen puntos, siendo cada punto la intersección del punto medio del
intervalo (indicado en las absisas) y la frecuencia correspondiente. Tomando el ejemplo anterior, el
polígono de frecuencias sería el siguiente:
Un polígono de frecuencias puede obtenerse también a partir del histograma correspondiente. Para ello
basta con indicar los puntos medios de cada línea horizontal superior de cada barra del histograma, y
luego unirlos con líneas rectas.
Otra alternativa para este tipo de diagrama es el polígono de frecuencias acumuladas, donde se indican
las frecuencias acumuladas en lugar de las frecuencias habituales.
Ojiva de Galton
Gráfico en el cual se consignan en las ordenadas las frecuencias acumuladas y en las absisas los límites
superiores de cada intervalo (aunque también pueden indicarse los puntos medios de cada intervalo). Por
ejemplo:
x (longitud) f F
1-1.99 3 3
2-2.99 5 8
3-3.99 2 10
Total 10
f
5
4
3
2
1
1 2 3 4
x
f
5
4
3
2
1
1.5 2.5 3.5 punto medio (xm)
La ojiva de Galton también puede representar frecuencias acumuladas decrecientes.
2.4 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE POSICIÓN
Los datos individuales pueden ser sintetizados mediante medidas de posición, medidas de dispersión
(ambas se llaman medidas estadísticas), medidas de asimetría y medidas de curtosis. En este ítem se
describen las medidas de posición.
Definición
Las medidas de posición pueden ser definidas de diversas formas (4). En esta nota proponemos la
siguiente definición: Las medidas de posición son datos estadísticos que intentan representar un conjunto
de datos individuales respecto de una variable.
Esta definición se refiere a tres cuestiones:
1) Son medidas estadísticas, es decir, no son medidas individuales. Una medida de posición representa a
todo un conjunto de datos, y no son los datos individuales. Por ejemplo, un promedio de edades
representa a todas las edades del grupo, y no es la edad individual de uno de sus miembros, aunque
pueda coincidir numéricamente con ella. Así, si el promedio de edades es 20 años y una de las personas
del grupo tiene 20 años, el primer dato es una medida estadística y el segundo una medida individual.
En otros términos, las medidas estadísticas no describen individuos, sino poblaciones o muestras. Por
ejemplo, no tiene sentido explicar que una persona es anciana porque vive en una población cuyo
promedio de edad es 70 años.
2) Son medidas representativas, es decir, intentan representar y sintetizar a todas las medidas
individuales. El conjunto de todas las medidas individuales puede recibir diversos nombres, tales como
muestra y población, con lo cual tiene sentido afirmar proposiciones tales como „una medida de posición
representa una muestra o una población‟.
Por ejemplo, es posible representar las notas obtenidas por un grupo de alumnos de diversas maneras:
a) El promedio de las notas es de 7.35 puntos (en este caso usamos una medida de posición llamada
media aritmética).
b) La mitad de los alumnos ha obtenido una nota superior a 6,5 puntos (en este caso utilizamos otra
medida de posición llamada mediana).
c) La nota que más se ha repetido fue 7 puntos (en este caso usamos la medida de posición llamada
modo).
La pregunta acerca de cuál de las tres medidas de posición representa „mejor‟ al conjunto de datos
individuales es el problema de la representatividad de la medida de posición, y la estadística suministra,
F
10
9
8
7
6
5
4
3
2
1
1.99 2.99 3.99 lím superior (Ls)
como se verá, diversos criterios para evaluar la mejor forma de representar un cierto número de datos
individuales.
3) Son medidas que miden una variable, es decir, algún atributo o propiedad de los objetos. En el
ejemplo anterior la variable medida es el rendimiento académico, pero también pueden obtenerse
medidas de posición representativas de un conjunto de edades, de profesiones, de clases sociales, de
puntuaciones de un test, de cantidad de dientes, etc.
De otra manera: no tiene sentido decir que una medida de posición represente un conjunto de personas,
pero sí tiene sentido decir que representan las edades de un conjunto de personas.
Características de las principales medidas de posición
Las medidas de posición pueden ser de tendencia central y de tendencia no central. Las primeras “se
refieren a los valores de la variable que suelen estar en el centro de la distribución” (Kohan, 1994:69).
Por ejemplo: la media aritmética, la mediana y el modo son las más conocidas, pero también está la
media aritmética ponderada (útil cuando hay valores que se repiten y que requieren atención diferencial),
la media geométrica (Kohan, 1994:71-72), la media armónica, la media antiarmónica, la media
cuadrática, la media cúbica, etc.
Las medidas de posición no centrales son los cuartiles, deciles y percentiles (Kohan, 1994:79), que
reciben genéricamente el nombre de cuantiles o fractiles (5).
De acuerdo a Botella (1993:99), las medidas de posición no centrales son datos o valores que ocupan
una posición especial en la serie de datos. Cuando una medida de posición es un dato que ocupa un lugar
central, la llamamos medida de tendencia central.
En el siguiente cuadro se especifican las definiciones y características principales de las medidas de
posición.
Medida Definición Características
MODO Es el dato o
valor que más
se repite, o
sea, el de
mayor
frecuencia.
Resulta útil si hay muchos datos repetidos (altas frecuencias).
Puede calcularse cuando hay valores muy extremos.
El modo muestral no es un estimador suficiente del modo poblacional
porque no incluye todos los datos.
En distribuciones multimodales es posible que la muestra no sea
homogénea, y que esté constituída por varios estratos.
Es posible convertir una distribución multimodal en una modal
reorganizando los intervalos.
Si una distribución no tiene modo, podría obtenerse reorganizando los
datos en intervalos.
MEDIANA Es el dato o
valor que
divide por la
mitad la serie
de datos
ordenados
creciente o
decrecienteme
nte, es decir,
es el valor
central de la
serie.
Es la medida más útil en escalas ordinales siempre que los valores
centrales sean iguales.
No está influenciada por los valores extremos (por ello por ejemplo
puede aplicarse desconociendo estos o sea cuando hay límites
superiores o inferiores abiertos).
Puede usarse cuando hay intervalos abiertos, siempre que el orden de
la mediana no se corresponda con ellos.
Es útil cuando unos pocos datos difieren mucho del resto.
No es útil si hay muchos datos repetidos (altas frecuencias).
La mediana muestral no es un estimador suficiente de la mediana
poblacional porque no incluye todos los datos.
Es útil es distribuciones muy asimétricas (extremos no compensados).
La mediana coincide con el Q2 (cuartil 2), el D5 (decil 5) y el P50
(percentil 50) (8).
MEDIA
ARITMÉTICA
Es el promedio
aritmético de
todos los
datos o
valores.
Está influenciada por los valores extremos (por ejemplo, no puede
utilizarse cuando hay valores extremos desconocidos o intervalos
abiertos, salvo que estos puedan cerrarse).
No conviene cuando los valores extremos son muy altos o muy bajos.
Es útil en distribuciones simétricas (con extremos compensados).
No puede usarse en escalas nominales ni ordinales.
Es siempre superior a la media geométrica y a la media armónica.
La media muestral es un estimador suficiente de la media poblacional
porque incluye todos los datos.
No necesariamente coincide con alguno de los valores.
La media aritmética tiene varios otras propiedades (7).
CUANTIL Es el dato o
valor que
divide la serie
ordenada de
Es útil cuando hay gran cantidad de valores.
Puede también utilizarse como medida de dispersión.
Suelen utilizarse los cuartiles, los deciles y los percentiles.
datos en
partes iguales.
-Cuartiles Valores que
dividen la
serie en
cuatro partes
iguales.
Tres cuartiles dividen la serie en cuatro partes iguales.
-Deciles Valores que
dividen la
serie en diez
partes iguales.
Nueve deciles dividen la serie en diez partes iguales.
-Percentiles Valores que
dividen la
serie en cien
partes iguales.
Noventa y nueve percentiles dividen la serie en cien partes iguales.
También se llaman centiles.
Relación entre modo, mediana y media aritmética.- a) La experiencia indica que la relación entre estas
tres medidas es:
Modo = (3 . Mediana) – (2 . Media aritmética). Esta relación es conocida como la fórmula de Pearson. b)
Cuanto más simétrica es una distribución (por ejemplo en una curva normal), más tienden a coincidir los
valores de las tres medidas.
Cálculo analítico de las medidas de posición: fórmulas
Para calcular una determinada medida de posición puede haber diversas fórmulas. La elección de la
fórmula adecuada dependerá de la forma en que estén organizados los datos individuales.
En principio, los datos pueden estar organizados de cuatro maneras:
1) Datos desordenados. Por ejemplo, las edades de un grupo de cuatro personas son 17, 29, 17 y 14.
Cuando se recolecta información, generalmente se obtienen datos desordenados, frente a lo cual
convendrá ordenarlos.
2) Datos ordenados. Por ejemplo, las edades del mismo grupo de personas son 14, 17, 17 y 29, si hemos
decidido ordenarlas en forma creciente, aunque también podemos ordenarlas decrecientemente.
3) Datos agrupados por frecuencia. Por ejemplo, hay dos edades de 17 años, una edad de 14 años y una
edad de 29 años. O, lo que es lo mismo, la frecuencia de la edad 17 es 2, y la frecuencia de las restantes
edades es 1.
4) Datos agrupados por intervalos. Por ejemplo, hay 3 edades comprendidas en el intervalo 14-17 años,
y una edad comprendida en el intervalo 18-29 años.
La estadística va agrupando los datos siguiendo el orden anterior. Cuanto más avance en este proceso,
más habrá logrado sintetizar y organizar los datos individuales.
En el siguiente cuadro se sintetizan las diversas reglas o fórmulas para calcular las medidas de posición,
según como estén organizados los datos individuales y según los niveles de medición que admiten.
Nótese que en algunos casos no es posible especificar ninguna fórmula, y entonces el cálculo se hará
siguiendo la regla indicada para los mismos. Por ejemplo: “para calcular el modo de un conjunto de datos
ordenados, debe buscarse el dato o valor que más se repite” (6).
Cálculo de medidas de posición según los niveles de medición que admiten y según la forma de organización de los datos individuales.
Preparado por: Pablo Cazau
Medida de
posición
Nivel de
medición
Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos
Modo Nominal Valor que más se repite Valor con la mayor frecuencia ------------
Ordinal Valor que más se repite Valor con la mayor frecuencia ------------
Cuantitativo Valor que más se repite Valor con la mayor frecuencia f - fant
Mo = Li + ---------------------- . a
(f - fant) + (f- fpos)
Mediana Ordinal Valor central de la serie
ordenada de valores
Valor que corresponde a la frecuencia acumulada n/2 ------------
Cuantitativo Valor central de la serie
ordenada de valores
Valor que corresponde a la frecuencia acumulada n/2 n/2 - Fant
Mn = Li + ---------------------- . a
f
Media
aritmética
Cuantitativo x
X = -----
n
x.f)
X = ---------
n
xm.f)
X = ---------
n
Cuartil Cuantitativo Valores que dividen la serie
en cuatro partes iguales.
Por tanto, hay 3 cuartiles: Q1,
Q2 y Q3
Valor que corresponde a la frecuencia acumulada t.n/4, expresión
llamada cuartil de orden o Q
0
(1)
Donde t puede valer 1, 2 o 3.
Por tanto, hay 3 cuartiles: Q1, Q2 y Q3
t.n/4 - Fant
Qt = Li + ---------------- . a
f
Decil Cuantitativo Valores que dividen la serie
en diez partes iguales.
Por tanto, hay 9 deciles:
desde el D1 hasta el D9
Valor que corresponde a la frecuencia acumulada t.n/10, expresión
llamada decil de orden o D
0
(1)
Donde t puede valer entre 1 y 9.
Por tanto, hay 9 deciles: desde el D1 hasta el D9
t.n/10 - Fant
Dt = Li + ---------------- . a
f
Percentil Cuantitativo Valores que dividen la serie
en cien parte iguales.
Por tanto, hay 99 percentiles:
desde el P1 hasta el P99
Valor que corresponde a la frecuencia acumulada t.n/100, expresión
llamada percentil de orden o P
0
(1)
Donde t puede valer entre 1 y 99.
Por tanto, hay 99 percentiles: desde el P1 hasta el P99
t.n/100 - Fant
Pt = Li + ---------------- . a
f
(1) Si no puede identificarse unívocamente una frecuencia acumulada, y por tanto un valor determinado de x, puede ser calculada por interpolación. En realidad, los cuantiles se
utilizan preferentemente cuando los datos están agrupados por intervalos.
A continuación, se suministran ejemplos de cómo calcular cada medida de posición teniendo
en cuenta las reglas y fórmulas del esquema anterior.
a) Cálculo del modo para datos ordenados (niveles nominal, ordinal y cuantitativo)
Nivel nominal: perro, perro, gato, gato, gato, gato (por tanto, el modo es gato)
Nivel ordinal: grande, grande, mediano, mediano, mediano, chico, chico, chico, chico (por
tanto, el modo es chico)
Nivel cuantitativo: 6, 6, 7, 7, 7, 7, 8, 9, 10, 10, 11 (por tanto, el modo es 7)
b) Cálculo del modo para datos agrupados en frecuencia (niveles nominal, ordinal y
cuantitativo)
Nivel nominal Nivel ordinal Nivel cuantitativo
x (religión) f
Católicos 56
Protestantes 78
Judíos 45
Budistas 24
Otros 31
x (dureza) f
Muy duro 18
Duro 8
Intermedio 13
Blando 16
Muy blando 7
x (edad) f
30 años 6
31 años 14
32 años 19
33 años 24
34 años 15
El modo es “Protestantes” El modo es “Muy duro” El modo es “33” años
Como puede verse, el modo es el valor de la variable x que está más repetido.
c) Cálculo del modo para datos agrupados por intervalos (nivel cuantitativo)
x (cantidad piezas dentarias) f
10-18 6
19-27 8
28-36 24
37-45 2
n=40
Una vez confeccionada la tabla de frecuencias por intervalos, se procede en dos pasos:
a) Se identifica cuál es el intervalo de mayor frecuencia. En este caso, es 28-36.
b) Se aplica la fórmula correspondiente:
f - fant
Mo = Li + ---------------------- . a
(f - fant) + (f- fpos)
24 - 8
Mo = 28 + ---------------------- . 8 = 31.37 piezas dentarias
(24 - 8) + (24 - 2)
d) Cálculo de la mediana para datos ordenados (niveles ordinal y cuantitativo)
Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden
descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos,
el central es la mediana. Si hay un número par, la mediana es el promedio de los dos datos
centrales.
Ejemplos para el nivel ordinal:
Número impar de datos: alto, alto, alto, alto, medio, medio, medio, medio, medio, medio,
bajo (por tanto, la mediana es = medio).
Número par de datos: En el nivel ordinal no puede calcularse un promedio si los dos valores
centrales son distintos. Si los dos valores centrales son iguales, ese es el valor de la
mediana.
Ejemplos para el nivel cuantitativo:
Número impar de datos: 13, 13, 13, 14, 14, 17, 18, 19, 19 (por tanto, la mediana es 14)
Número par de datos: 11, 11, 12, 13, 14, 15, 16, 18, 18, 18 (por tanto, la mediana es el
promedio entre 14 y 15, o sea 14.5).
e) Cálculo de la mediana para datos agrupados por frecuencia (niveles ordinal y
cuantitativo)
x (días) f F
1 7 7
2 9 16
3 14 30
4 10 40
5 2 42
n = 42
La variable es aquí cantidad de días de posoperatorio.
El procedimiento es el siguiente:
a) Se calcula la mediana de orden:
Mn0
= n/2 = 42/2 = 21
b) Se identifica cuál es el valor de x que corresponde a la frecuencia acumulada que contiene
el valor 21:
Dicha frecuencia acumulada es 30, y, por lo tanto Mn = 3 días
f) Cálculo de la mediana para datos agrupados por intervalos (nivel cuantitativo)
x f F
0-3 8 8
3-6 10 18
6-9 11 29
9-12 12 41
12-15 9 50
15-18 7 57
18-21 6 63
21-24 5 68
n = 68
Nótese que para calcular la mediana se precisa información sobre frecuencias acumuladas,
razón por la cual se ha agregado la columna respectiva.
Se procede en dos pasos:
a) Se identifica cuál es el intervalo que debe ser considerado, para lo cual se calcula la
mediana de orden:
Mn0
= n/2 = 68/2 = 34
Tomando en cuenta las frecuencias acumuladas, el valor 34 entra en la frecuencia
acumulada 41, y, por lo tanto, el intervalo a considerar será 9-12.
b) Se aplica la fórmula de mediana:
n/2 - Fant
Mn = Li + ---------------------- . a
f
34 - 29
Mn = 9 + ---------------------- . 3 = 10.25
12
Téngase presente que si la variable fuera discreta y medible sólo en números enteros, sería
Mn = 10.
Si la variable fuese cantidad de materias aprobadas, el alumno con 10 materias aprobadas
está en el lugar central de la serie, es decir, habría un 50% de compañeros con menos
materias aprobadas y un 50% con más materias aprobadas.
g) Cálculo de la media aritmética para datos ordenados (nivel cuantitativo)
Dados los siguientes dados ordenados: 2-2-3-4-4-4-5-5-6-7-8-10
Se puede calcular la media aritmética aplicando la fórmula:
x
X = -----
n
X = ---------------------------------------- = --------- = 5
12 12
h) Cálculo de la media aritmética para datos agrupados por frecuencia (nivel
cuantitativo)
x (edad) f f . x
18 3 54
19 1 19
20 2 40
23 4 42
25 2 50
26 2 52
28 2 56
n = 16 363
Nótese que para el cálculo de la media aritmética se ha agregado una columna con los
productos de x . f.
Se aplica la fórmula de media aritmética:
x.f) 54+19+40+42+50+52+56 363
X = --------- = ----------------------------------- = -------- = 22.68 años = 23 años.
n 16 16
i) Cálculo de la media aritmética para datos agrupados por intervalos (nivel
cuantitativo)
x f xm xm.f
0-3 8 1.5 12
3-6 10 4.5 45
6-9 11 7.5 82.5
9-12 12 10.5 126
12-15 9 13.5 121.5
15-18 7 16.5 115.5
18-21 6 19.5 117.6
21-24 5 22.5 112.5
n = 68 732.5
Nótese que para el cálculo de la media aritmética se ha agregado una columna con los
puntos medios de los intervalos y otra con los productos de las frecuencias por los puntos
medios.
Se aplica la fórmula de media aritmética:
xm.f) 732.5
X = ------------- = ---------- = 10.77
n 68
El método corto y el método clave son dos métodos alternativos para calcular la media
aritmética, siendo el último sólo aplicable cuando el tamaño de los intervalos es constante.
De acuerdo al método corto, la media aritmética se calcula sumando al punto medio del
intervalo de mayor frecuencia, el cociente entre la sumatoria de los productos entre cada
frecuencia y la diferencia entre el punto medio de cada intervalo menos el punto medio del
intervalo de mayor frecuencia, y la sumatoria de frecuencias (n).
De acuerdo al método clave, la media aritmética se calcula sumando al punto medio del
intervalo de mayor frecuencia, el producto entre el tamaño del intervalo y un cociente, donde
el numerador es la sumatoria de los productos entre las frecuencias y el llamado intervalo
unitario (que resulta de dividir la diferencia entre cada punto medio y el punto medio del
intervalo de mayor frecuencia, por el tamaño del intervalo), y donde el denominador es la
sumatoria de frecuencias (n).
j) Cálculo del cuantil para datos ordenados (nivel cuantitativo)
1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9
Si en la serie anterior resaltamos los tres valores que la dividen en cuatro partes iguales,
esos valores serán los cuartiles Q1, Q2 y Q3:
1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9
Q1 = 2
Q2 = 3
Q3 = 6
Sin embargo, es más práctico agrupar los datos por frecuencias o por intervalos, a los
efectos del cálculo de los cuantiles (cuartiles, deciles o percentiles).
k) Cálculo del cuantil para datos agrupados por frecuencia (nivel cuantitativo)
x (edad) f F
18 3 3
19 1 4
20 2 6
23 4 10
25 2 12
26 2 14
28 2 16
n = 16
Se pueden calcular, por ejemplo, Q1, Q2 y Q3.
El primer paso consiste en averiguar los respectivos cuartiles de orden.
Para Q1 es Q
0
= t.n/4 = 1.16/4 = 4
Para Q2 es Q
0
= t.n/4 = 2.16/4 = 8
Para Q3 es Q
0
= t.n/4 = 3.16/4 = 12
El segundo y último paso consiste en identificar el valor de x correspondiente al cuartil de
orden respectivo.
Q1 = 4
Q2 = Está entre 20 y 23
Q3 = 25
l) Cálculo del cuantil para datos agrupados por intervalos (nivel cuantitativo)
x (puntaje) f F
0-10 1 1
10-20 3 4
20-30 5 9
30-40 6 15
40-50 10 25
50-60 12 37
60-70 13 50
70-80 9 59
80-90 4 63
90-100 3 66
n = 66
Se pueden calcular, por ejemplo, Q3, D7 y P45.
El primer paso consiste en averiguar los cuantiles de orden:
Para Q3 es Q
0
= t.n/4 = 3.66/4 = 49.5
Para D7 es D
0
= t.n/10 = 7.66/10 = 46.2
Para P45 es P
0
= t.n/100 = 45.66/100 = 29,7
El segundo paso consiste en identificar el intervalo que corresponde al cuantil de orden en la
columna de frecuencias acumuladas:
El valor 49.5 corresponde al intervalo 60-70
El valor 46.2 corresponde al intervalo 60-70
El valor 29.7 corresponde al intervalo 50-60
El tercer y último paso consiste en aplicar la fórmula basándose en la información del
intervalo identificado. Si la fórmula pide el dato de la frecuencia acumulada anterior y esta
no existe, se coloca 0 (cero).
En el ejemplo del cálculo del D7, se aplica la siguiente fórmula:
t.n/10 - Fant
Dt = Li + ------------------- . a
f
46.2 - 37
D7 = 60 + ---------------- . 11 = 67.78
13
Cálculo visual de las medidas de posición: gráficos
Es posible utilizar un procedimiento gráfico para calcular ciertas medidas de posición, tales
como el modo y la mediana. Por ejemplo, el modo se puede calcular a partir de un
histograma. La mediana también puede calcularse con un histograma, aunque lo más
habitual es hacerlo mediante una ojiva.
a) Cálculo del modo mediante un histograma
Una vez construido el histograma a partir de una tabla de datos agrupados por intervalos:
1) Se considera el rectángulo de mayor frecuencia (mayor altura).
2) Dentro del mismo se trazan dos rectas como está indicado en el gráfico siguiente.
3) Por la intersección de ambas rectas se traza una recta perpendicular al eje de absisas.
4) El punto del eje de las absisas por donde pasa la recta perpendicular corresponde al modo
(en el ejemplo, el modo es 4.80).
b) Cálculo de la mediana mediante una ojiva
En este caso pueden utilizarse dos procedimientos:
1) Una vez trazada la ojiva, a) se ubica en el eje de las ordenadas a la mediana de orden
(Mn
0
); b) por la mediana se orden se traza una recta paralela al eje x hasta que intersecte
la ojiva; c) por este punto de intersección se traza una recta paralela al eje y hasta que
intersecte el eje x. En este punto estará ubicada la mediana.
2) Se trazan en el mismo eje de coordenadas las ojivas creciente y decreciente de la misma
distribución de datos. Luego, a) se traza una recta paralela al eje y que pase por la
intersección de ambas ojivas y por algún punto del eje x; b) el punto del eje x por donde
pasa dicha recta corresponde a la mediana.
Criterios de elección de medidas de posición
1) La elección de una medida de posición debe tener en cuenta el nivel de medición de la
variable que se mide:
Nivel nominal Nivel ordinal Nivel cuantitativo
Modo SI SI SI
Mediana NO SI. Siempre y cuando
los dos valores centrales
con n = par sean
iguales. En caso
contrario usar el Modo.
SI
Media
aritmética
NO NO SI Cuando no haya valores
extremos alejados ni valores
extremos abiertos. En caso
contrario, usar el Modo o la
Mediana (*).
Cuantiles NO NO SI
(*) Hay al menos tres situaciones donde se preferirá la mediana a la media (Botella, 1993:115): a)
cuando la variable es ordinal, b) cuando haya valores extremos que distorsionen la interpretación de la
media, y c) cuando haya intervalos abiertos, como en el caso de variables como ingresos mensuales.
2) La elección de una medida de posición debe tener en cuenta la forma en que están
organizados los datos. Por ejemplo: “en ocasiones, el azar hace que un solo elemento no
representativo se repita lo suficiente para ser el valor más frecuente del conjunto de datos.
Es por esta razón que rara vez utilizamos el modo de un conjunto de datos no agrupados
como medida de tendencia central. Por esta razón, debemos calcular el modo en datos
agrupados en una distribución de frecuencias” (Levin y Rubin, 1996).
3) La elección de una medida de posición de una muestra debe tener en cuenta el grado de
fidelidad con que representa a la medida de posición poblacional.
f
5
4
3
2
1
1 4 7 10
x
Botella (1993:114) afirma, en este sentido, que si no hay ningún argumento en contra,
siempre se preferirá la media, no sólo porque permite la utilización de otras medidas
estadísticas (por ejemplo el desvío estándar), sino porque es más representativa de la media
poblacional que el modo o la mediana con respecto al modo o la mediana poblacional.
2.5 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE DISPERSIÓN
Definición
Las medidas de dispersión, llamadas también medidas de variabilidad o de variación, son
datos estadísticos que informan acerca del grado de dispersión o variabilidad de los datos
individuales de una muestra o una población, respecto de una variable. En otras palabras,
indican el grado de homogeneidad o de heterogeneidad del conjunto de los datos. Por
ejemplo, indican cuán alejados o cuán cercanos se encuentran los datos de algún valor
central como la media aritmética: una muestra cuyos datos son 3-4-5 es menos dispersa que
una muestra cuyos datos son 1-4-7.
Algunos autores (Botella, 1993:325) han relacionado la dispersión de los datos -para los
niveles de medición nominal y ordinal- con los conceptos de entropía y de incertidumbre e
incluso han propuesto a la primera como una medida que permite cuantificar la dispersión: a
mayor dispersión de los datos, hay mayor entropía y mayor incertidumbre.
Por ejemplo, las siguientes dos muestras tienen cada una 40 sujetos que han elegido
determinados colores para representar la idea de paz:
Blanco Verde Amarillo Celeste Rosa
Muestra A: 28 3 3 3 3
Muestra B: 8 8 8 8 8
Si habría que adivinar qué color eligió determinado sujeto de la muestra A, cabría proponer
el color blanco porque fue el más elegido. En cambio, la incertidumbre aumenta si habría que
elegir lo mismo en la muestra B. En esta muestra hay más entropía, es decir, más desorden,
mientras que en la muestra A los datos están más ordenados alrededor de un valor muy
repetido, como el blanco.
La muestra B es más dispersa, es decir, más heterogénea, mientras que la muestra A es
menos dispersa, es decir, más homogénea. La homogeneidad no debe relacionarse con la
repetición de frecuencias (3-3-3-3) sino con la repetición de valores iguales o muy cercanos
entre sí (28 sujetos eligieron blanco).
Una medida de posición no alcanza para describir adecuadamente una muestra. Se obtiene
una información más precisa y completa de ella cuando además se utiliza una medida de
dispersión.
Por ejemplo, la muestra 1 de datos 3-4-5 y la muestra 2 de datos 1-4-7 tienen la misma
medida de posición: la media aritmética en ambos casos es 4. Sin embargo, se trata
evidentemente de dos muestras diferentes, por cuanto la segunda es más dispersa que la
primera, es decir, sus datos están más alejados de la media aritmética.
En la primera muestra el promedio de las desviaciones respecto de la media es 1 (de 3 a 4
hay 1, y de 5 a 4 hay 1), mientras que el promedio de las desviaciones en la segunda
muestra es 3 (de 1 a 4 hay 3, y de 7 a 4 hay 3). Por lo tanto, ambas muestras pueden
representarse de la siguiente manera:
Muestra 1: 4 + 1 (se lee 4 más/menos 1)
Muestra 2: 4 + 3 (se lee 4 más/menos 3).
Las medidas de dispersión tienen una importancia adicional porque (Levin y Rubin: 1996): a)
Proporcionan información adicional que permite juzgar la confiabilidad de la medida de
tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es
menos representativa de los datos. b) A veces resulta indispensable conocer la dispersión de
una muestra porque muestras demasiado dispersas pueden no ser útiles para poder sacar
conclusiones útiles sobre la muestra. Levin y Rubin indican que, “ya que existen problemas
característicos para datos ampliamente dispersos, debemos ser capaces de distinguir los que
presentan esa dispersión antes de abordar esos problemas”.
Características de las principales medidas de dispersión
En general, las medidas de dispersión más utilizadas sirven para la medición de variables en
el nivel cuantitativo. Seguidamente se examinarán las siguientes medidas de dispersión:
rango, desviación media, varianza, desvío estándar, desvío intercuartílico y coeficiente de
variación.
En el siguiente cuadro se especifican las definiciones y características principales de las
medidas de dispersión.
Medida Definición Características
RANGO Es la diferencia
entre los valores
máximo y mínimo
de la variable.
De uso limitado, no es una buena medida de dispersión.
Es muy sensible a los valores extremos e insensible a los valores
intermedios.
Está muy vinculada al tamaño de la muestra: es probable que la muestra
de mayor tamaño presente mayor rango aunque las poblaciones de
referencia tengan igual dispersión (Botella, 1993).
Se llama también amplitud.
DESVIACION
MEDIA
Es el promedio de
las desviaciones de
todos los valores
respecto de la
media aritmética.
Considera desviaciones absolutas, es decir, no las considera con valores
negativos (de otro modo, el promedio de las desviaciones, por un teorem
de la media aritmética, daría cero). Esto representa una dificultad de
cálculo, por lo que se utiliza la varianza.
VARIANZA Es el promedio de
los cuadrados de
las desviaciones
con respecto a la
media aritmética.
Es un valor esencialmente no negativo (10).
Matemáticamente es buena medida de dispersión, pero da valores muy
altos, por lo cual en estadística descriptiva se utiliza el desvío estándar
(9).
Se apoya en una propiedad de la media aritmética según la cual la suma
de los cuadrados de las desviaciones respecto a la media es un valor
mínimo.
La varianza permite comparar la dispersión de dos o más muestras si sus
medias aritméticas son similares (Botella, 1993).
Si se suma una constante a un conjunto de valores, la varianza no se
modifica (Botella, 1993).
Si se multiplica por una constante a un conjunto de valores, la varianza d
los nuevos valores el igual al producto de la varianza de las originales po
el cuadrado de la constante (Botella, 1993).
DESVIO
ESTÁNDAR
Es la raíz cuadrada
de la varianza (11)
Es un valor esencialmente no negativo (10).
Es la medida de dispersión más utilizada.
Se la emplea conjuntamente con la media aritmética como medida de
posición.
La raíz cuadrada permite compensar el cuadrado de la varianza.
Si se suma una constante a un conjunto de valores, el desvío estándar no
se modifica (Botella, 1993).
Si se multiplica por una constante a un conjunto de valores, el desvío
estándar de los nuevos valores el igual al producto del desvío estándar de
las originales por el cuadrado de la constante (Botella, 1993).
Se llama también desviación típica, o también desviación estándar
(Pagano, 1998:71).
DESVIO
INTER
CUARTILICO
Es la diferencia
entre el Q3 y el Q1.
Expresa el rango del 50% central de la serie de valores.
Se llama también amplitud intercuartil.
COEFICIENTE
DE
VARIACION
Es el cociente entre
el desvío estándar y
la media aritmética.
Permite comparar la dispersión de dos o más muestras con diferentes
medias aritméticas: a mayor coeficiente de variación, mayor dispersión.
No se expresa en unidades como la variable en estudio (por ejemplo, par
edad, no se expresa en años).
Puede considerarse como un índice de la representatividad de la media
aritmética: cuanto mayor es el coeficiente de variación, menos
representativa es la media (Botella, 1993).
Cálculo analítico de las medidas de dispersión: fórmulas
En este ítem se indican las fórmulas para calcular medidas de dispersión, y se suministran
ejemplos de cada caso.
Cálculo de las medidas de dispersión según la forma de organización de los datos
individuales
Preparado por: Pablo Cazau
Medida de
dispersión
Datos ordenados Datos agrupados por
frecuencia
Datos agrupados por
intervalos
Rango R = xmay - xmen R = xmay - xmen No
Desviación
media
| x – X |
Dm = ---------------
n
| x – X | . f
Dm = ------------------
n
| xm – X | . f
Dm = --------------------
n
Desvío
estándar
( x – X )2
S = ----------------
n
El segundo miembro es
a la raíz cuadrada
( x – X )2
. f
S = -------------------
n
El segundo miembro es a la raíz
cuadrada
( xm – X )2
. f
S = ----------------------
n
El segundo miembro es a la raíz
cuadrada
Varianza Es el cuadrado del
desvío estándar (S
2
)
Es el cuadrado del desvío
estándar (S
2
)
Es el cuadrado del desvío
estándar (S
2
)
Desvío
intercuartílico
DQ = Q3 – Q1 DQ = Q3 – Q1 DQ = Q3 – Q1
Coeficiente
de variación
S
CV = -----
X
S
CV = -----
X
S
CV = -----
X
Cuando hay que calcular varianza o desvío estándar poblacionales, se utiliza „n‟ en el
denominador, pero cuando se calculan las correspondientes medidas muestrales (o cuando la
muestra es muy pequeña), se utilizará „n–1‟ (12).
a) Cálculo del rango para datos ordenados y para datos agrupados por frecuencia
Se puede aplicar a estas muestras la fórmula del Rango R = xmay - xmen
Muestra 1: 80, 100, 100, 110, 120. Aquí el rango R es = 120 – 80 = 40.
Muestra 2: 30, 50, 70, 120, 180. Aquí el rango R es = 180 – 30 = 150
Como se ve, la muestra 2 es más dispersa porque tiene mayor rango.
No se puede calcular el rango para datos agrupados por intervalos porque se desconocen
cuáles son los valores máximo y mínimo.
b) Cálculo de la desviación media para datos ordenados
La serie ordenada de datos puede ser la siguiente: 2, 3, 5, 6, 7, 9, 10
Como primer paso se calcula la media aritmética:
2+3+5+6+7+9+10
X = --------------------------- = 6
7
Como segundo y último paso, se calcula la desviación media:
| x – X | |2-6| + |3-6| + |5-6| + |6-6| + |7-6| + |9-6| + |10-6|
Dm = --------------- = --------------------------------------------------------------------- = 2.29
N 7
c) Cálculo de la desviación media para datos agrupados por frecuencia
A la siguiente tabla de frecuencias (f) deberá agregarse una columna (f.x) para calcular la
media aritmética, y luego otras dos columnas (x-X) y (| x-X | . f) para calcular la desviación
media:
x f f . x | x - X | | x - X | . f
70 45 3150 35 1575
80 63 5040 25 1575
90 78 7020 15 1170
100 106 10600 5 530
110 118 12980 5 590
120 92 11040 15 1380
130 75 9750 25 1875
140 23 3220 35 115
n = 600 62800 160 8810
Primero se calcula la media aritmética:
x.f) 62800
X = --------- = ------------ = 104.66 = 105
n 600
Finalmente se calcula la desviación media:
| x – X | . f 8810
Dm = ------------------ = ------------ = 14.68
n 600
d) Cálculo de la desviación media para datos agrupados por intervalos
Se procede de la misma manera que en el caso anterior, con la diferencia que en lugar de
considerar los valores x, se consideran los puntos medios de los intervalos (xm).
e) Cálculo del desvío estándar para datos ordenados
Para la serie de valores 5, 6, 10, su media aritmética es 7. Una vez conocido este valor,
puede obtenerse el desvío estándar de la siguiente forma:
( x – X )
2
(5-7)
2
+ (6-7)
2
+ (10-7)
2
S = ------------------- = ------------------------------------ = 4.66 = 2.2
n 3
f) Cálculo del desvío estándar para datos agrupados por frecuencia
x (edad) f f . x x – X ( x – X )2
( x – X )2
. f
18 3 54 -5 25 75
19 1 19 -4 16 16
20 2 40 -3 9 18
23 4 42 0 0 0
25 2 50 +2 4 8
26 2 52 +3 9 18
28 2 56 +5 25 50
n = 16 363 185
Primero se calcula la media aritmética, que arroja un valor de X = 23.
Finalmente, se aplica la fórmula de desvío estándar:
( x – X )
2
. f 185
S = ---------------------- = ------------ = 11.56 = 3.2
n 16
Puede también utilizarse una fórmula más sencilla a los efectos del cálculo (Bancroft,
1960:80):
x
2
.f
S = ----------- - (X)
2
n
Donde el primer término del segundo miembro es a la raíz cuadrada.
g) Cálculo del desvío estándar para datos agrupados por intervalos
Se procede del mismo modo que en el caso anterior, con la diferencia que se calcula el punto
medio xm de los intervalos en lugar del valor x.
h) Cálculo de la varianza
El procedimiento es el mismo que en el caso del desvío estándar. Sólo debe tenerse presente
que la varianza es el cuadrado del desvío estándar.
i) Cálculo del desvío intercuartílico
Dada la siguiente serie, obtener el desvío intercuartílico:
x f
0-20 2
20-40 4
40-60 5
60-80 8
80-100 1
n = 20
Primero se calculan los Q3 y Q1 aplicando la fórmula explicada en medidas de posición.
Finalmente, se aplica la fórmula del desvío intercuartílico:
DQ = Q3 – Q1 = 70 – 35 = 35
Una variante es el empleo del desvío semi-intercuartílico, es decir, el desvío intercuartílico
dividido dos. Se trata de una medida de dispersión propuesta por Galton en 1889, y que
resulta recomendable cuando hay algún valor extremo que pudiera distorsionar la
representatividad de la media aritmética (Botella, 1993).
j) Cálculo del coeficiente de variación
Si una muestra tiene una media aritmética 111 y el desvío estándar 18, entonces su
coeficiente de variación es:
S 111
CV = ----- = ---------- = 0.16
X 18
Cuanto mayor es el CV, mayor es la dispersión.
También puede calcularse un coeficiente de variación porcentual, multiplicando CV por
100. En el ejemplo:
CV% = 0.16 . 100 = 16%.
Cálculo visual de las medidas de dispersión: gráficos
Botella (1993:143) menciona dos procedimientos para expresar gráficamente medidas de
dispersión: el diagrama de caja y bigotes (Tukey, 1977) y el diagrama de bigotes verticales.
Diagrama de caja y bigotes
Puede apreciarse a simple vista que la distribución de valores B es más dispersa que A no
sólo porque la diferencia entre los valores máximo y mínimo (rango) es mayor, sino también
porque lo es la diferencia entre los cuartiles primero y tercero.
Diagrama de bigotes verticales
El gráfico representa las medias aritméticas de nivel de ansiedad de diversos cursos de
alumnos. En cada media aritmética se han trazado bigotes verticales que representan los
respectivos desvíos estándar. Puede entonces apreciarse, por ejemplo, que a medida que
aumenta la media aritmética, tiende también a aumentar el desvío estándar.
2.6 SÍNTESIS DE LOS DATOS: ASIMETRÍA Y CURTOSIS
Un conjunto de datos o distribución de datos queda exhaustivamente descrito cuando
pueden especificarse una medida de posición, una medida de dispersión, un índice de
asimetría y un índice de curtosis. Las medidas de asimetría y curtosis se refieren a la „forma‟
de la distribución y, aunque no son tan importantes como las medidas de posición y
dispersión y son muy poco utilizadas, aportan también información sobre la distribución de
los valores de una muestra o población.
Asimetría
La asimetría hace referencia al grado en que los datos se reparten equilibradamente por
encima y por debajo de la tendencia central (Botella, 1993:169). Por ejemplo, en la siguiente
tabla se puede apreciar que en el curso A muchos alumnos obtuvieron buenas notas, en el
curso C muchos alumnos obtuvieron bajas notas, y en el curso B están equilibrados.
x (nota) f (curso A) f (curso B) f (curso C)
10 5 2 1
75 80 85 90 95 100 105 110 115 120 125 130
A
B
Xmín Xmáx
XmáxXmín
Q1 Q3
Q1 Q3
Nivel de
ansiedad
4° 5° 6° 7° 8°
Curso
9 10 5 2
8 15 8 3
7 22 10 6
6 16 15 8
5 12 20 12
4 8 15 16
3 6 10 22
2 3 8 15
1 2 5 10
0 1 2 5
n = 100 n = 100 n = 100
Representando las tres distribuciones de datos con curvas en un gráfico con las frecuencias
en las ordenadas y los valores de x en las absisas, se obtiene lo siguiente:
Han sido propuestos diversos índices de asimetría para cuantificar el grado de asimetría de
una distribución de datos. De entre ellos pueden citarse los siguientes (Botella, 1993:170):
Indice de
asimetría media-
modo
Indice de asimetría
media-mediana
(Kohan, 1994:93)
Indice de asimetría
de Pearson
Indice de asimetría
intercuartílico
Es la distancia
entre la media y el
modo, medido en
desvíos estándar:
X - Mo
As = -------------
S
Es la distancia entre
la media y la
mediana multiplicada
por tres, medida en
desvíos estándar:
X - Mn
As= -------------
S
Es el promedio de los
valores z elevados al
cubo (donde z es el
cociente entre la
diferencia entre x y
la media aritmética,
y el desvío
estándar).
Es el cociente entre la
diferencia Q3-Q2 y Q2-
Q1, y la diferencia Q3-
Q1
Los tres índices se interpretan de manera similar: si resultan ser números negativos, la curva
será asimétrica hacia la derecha, y si dan resultados positivos, la curva será asimétrica a la
izquierda. El resultado 0 (cero) indicará asimetría nula (simetría perfecta).
Existen otros muchos tipos de curvas: parabólicas, hiperbólicas, bimodales, etc, pero una
forma usual es la curva simétrica, llamada también curva normal o campana de Gauss.
Curtosis
Curso A Curso CCurso B
Media Modo Modo MediaMedia
Modo
Asimetría
negativa
(curva hacia
la derecha)
Asimetría
cero
Asimetría
positiva
(curva hacia
la izquierda)
La curtosis hace referencia a la forma de la curva de la distribución de datos en tanto muy
aguda (mayor apuntamiento o mayor curtosis: leptocúrtica) o muy aplanada (menor
apuntamiento o menor curtosis: platicúrtica).
Del mismo modo que sucede con la asimetría, también se han propuesto diversos índices de
curtosis. Si el índice es positivo, su apuntamiento es mayor que el de una distribución normal
y la curva será leptocúrtica, y si es negativo, su apuntamiento es menor y la curva será
platicúrtica (Botella, 1993).
NOTAS
(1) Según Botella (1993:49) la “distribución de frecuencias es un instrumento diseñado para cumplir
tres funciones: a) proporcionar una reorganización y ordenación racional de los datos recogidos; b)
ofrecer la información necesaria para hacer representaciones gráficas; y c) facilitar los cálculos
necesarios para obtener los estadísticos muestrales”.
(2) Cuando se confecciona una tabla de frecuencias por intervalos con la intención de elaborar gráficos o
medidas estadísticas a partir de ella, deben asumirse ciertos supuestos que implican un margen de
error, pero que son imprescindibles. Estos supuestos, llamados supuestos de concentración
intraintervalo, son dos. a) El supuesto de concentración en el punto medio del intervalo, según el cual
todos los valores de la variable son el mismo, a saber, el punto medio del intervalo. b) El supuesto de
distribución homogénea, según el cual “los valores incluidos en un intervalo se reparten con absoluta
uniformidad en su interior. Es decir, que si en un intervalo hay cinco observaciones [valores observados
en la variable] aceptaremos que sus valores son los que tendríamos si partiéramos al intervalo en cinco
subintervalos de igual amplitud y asignáramos a cada individuo el punto medio de un subintervalo”
(Botella, 1993:56).
(3) Hay quienes recurren a la fórmula de Sturges para calcular la cantidad de intervalos que resulta
deseable tomar en función del tamaño de la muestra. Esta fórmula es: Número de intervalos = 1 + (log
n / log 2), donde n designa el tamaño de la muestra. Por ejemplo, aplicando la fórmula para n = 40, la
cantidad deseable de intervalos es 6.3, con lo cual podrán elegirse entre 6 o 7 intervalos. Una vez
determinada la cantidad de intervalos, sólo resta dividir el tamaño de la muestra por 6 o 7, de lo que
resultará el tamaño de cada intervalo.
(4) Por ejemplo, las medidas de posición son aquellas que “caracterizan la posición de un grupo respecto
de una variable” (Kohan, 1994:69). Otras definiciones se refieren a la utilidad de estas medidas, y
entonces por ejemplo se definen como “índices diseñados especialmente para revelar la situación de una
puntuación con respecto a un grupo, utilizando a éste como marco de referencia” (Botella, 1993:83).
(5) Estrictamente hablando, ciertos cuantiles como el cuartil 2, el decil 5 y el percentil 50 resultan ser
medidas de tendencia central, ya que coinciden con la mediana.
(6) Estrictamente, dato y valor no son sinónimos, aunque aquí se emplearán indistintamente ambas
expresiones. El valor es uno de los componentes del dato: los otros dos son la unidad de análisis y la
variable.
(7) Botella (1993:105-111) describe seis propiedades de la media aritmética: 1) La suma de las
diferencias de n puntuaciones de la media aritmética, o puntuaciones diferenciales, es igual a cero. 2) La
suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es menor que
con respecto a cualquier otro valor. 3) Si sumamos una constante a un conjunto de puntuaciones, la
media aritmética quedará aumentada en esa misma constante. 4) Si multiplicamos una constante a un
conjunto de puntuaciones, la media aritmética quedará multiplicada por esa misma constante. 5) La
media total de un grupo de puntuaciones, cuando se conocen los tamaños y medias de varios subgrupos
hechos a partir del grupo total, mutuamente exclusivos y exhaustivos, puede obtenerse ponderando las
medias parciales a partir de los tamaños de los subgrupos en que han sido calculadas. 6) Una variable
Leptocúrtica PlaticúrticaMesocúrtica
definida como la combinación lineal de otras variables tiene como media la misma combinación lineal de
las medias de las variables intervinientes en su definición.
(8) Equivalencias entre cuantiles (Botella, 1993:89):
Cuartiles Deciles Percentiles
D1 P10
D2 P20
Q1 P25
D3 P30
D4 P40
Q2 D5 P50
D6 P60
D7 P70
Q3 P75
D8 P80
D9 P90
(9) “Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no son
intuitivamente claras o fáciles de interpretar. Por esta razón, tenemos que hacer un cambio significativo
en la varianza para calcular una medida útil de la desviación, que sea menos confusa. Esta medida se
conoce como la desviación estándar, y es la raíz cuadrada de la varianza. La desviación estándar,
entonces, está en las mismas unidades que los datos originales” (Levin y Rubin, 1996). La varianza
como tal se utiliza más frecuentemente en estadística inferencial (Pagano, 1998:77).
(10) “La raíz cuadrada de un número positivo puede ser tanto positiva como negativa. Cuando tomamos
la raíz cuadrada de la varianza para calcular la desviación estándar, los estadísticos solamente
consideran la raíz cuadrada positiva” (Levin y Rubin, 1996).
(11) La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están
localizados los valores de una distribución de frecuencias con relación a la media. El teorema de
Chebyshev dice que no importa qué forma tenga la distribución, al menos 75% de los valores caen
dentro de + 2 desviaciones estándar a partir de la media de la distribución, y al menos 89% de los
valores caen dentro de + 3 desviaciones estándar a partir de la media.
Con más precisión:
Aproximadamente 68% de los valores de la población cae dentro de + 1 desviación estándar a partir de
la media.
Aproximadamente 95% de los valores estará dentro de + 2 desviaciones estándar a partir de la media.
Aproximadamente 99% de los valores estará en el intervalo que va desde tres desviaciones estándar por
debajo de la media hasta tres desviaciones estándar por arriba de la media (Levin y Rubin, 1996).
(12) Esto se debe a que “los especialistas en estadística pueden demostrar que si tomamos muchas
muestras de una población dada, si encontramos la varianza de la muestra para cada muestra y
promediamos los resultados, entonces este promedio no tiende a tomar el valor de la varianza de la
población, a menos que tomemos n–1 como denominador de los cálculos” (Levin y Rubin, 1996).
(13) El concepto de distribución de frecuencias es uno de los más básicos de la estadística descriptiva, y
hace referencia a un conjunto de valores de una variable ordenados de acuerdo con sus frecuencias. Las
distribuciones de frecuencias pueden expresarse en forma de tablas, gráficos, medidas de posición,
medidas de dispersión, de asimetría y de curtosis. Estas últimas cuatro medidas pueden considerarse
propiedades o características básicas de una distribución frecuencial.
CAPÍTULO 3: PROBABILIDAD Y CURVA NORMAL
La curva normal es uno de los temas fundamentales de la estadística que utiliza la
información provista por la estadística descriptiva y permite el paso a la estadística
inferencial en el sentido de proveer una herramienta para obtener conclusiones respecto de
la población. La comprensión de este tema exige un conocimiento mínimo de la teoría de la
probabilidad.
3.1 EL CONCEPTO DE PROBABILIDAD
Se entiende por probabilidad el grado de posibilidad de ocurrencia de un determinado
acontecimiento. Dicha probabilidad puede calcularse en forma teórica o empírica, a partir de
las llamadas probabilidad clásica y frecuencial, respectivamente. El concepto de probabilidad
ha demostrado ser de importante utilidad en ciertos enfoques sistémicos, especialmente en
los ámbitos de la termodinámica y la teoría de la información.
1. Concepto de probabilidad.- Entendida como medida de la posibilidad de la ocurrencia de
un determinado acontecimiento, la probabilidad abarca un espectro que se extiende desde la
certeza (el acontecimiento ocurrirá con total seguridad), hasta la imposibilidad (es imposible
que el acontecimiento ocurra), pasando por todos los grados intermedios (es muy probable
que ocurra, es medianamente probable, es poco probable, etc).
Por ejemplo, el suceso 'obtener un número entre 1 y 6 tirando un dado' equivale a la
certeza; el suceso 'obtener un 7 arrojando un dado' equivale a la imposibilidad; y el suceso
'obtener un 2 arrojando un dado' equivale a uno de los grados intermedios de probabilidad.
Es habitual representar el grado de probabilidad mediante un número que puede variar entre
1 (certeza) y 0 (imposibilidad). La probabilidad puede entonces valer 1, 0, 0.50, 0.80, etc.
Por ejemplo, una probabilidad de 0.1 es muy baja, y una probabilidad de 0.98 muy alta. Una
probabilidad intermedia es 0.50 o también, si la expresamos en términos de porcentajes
corriendo la coma dos lugares hacia la derecha, obtenemos una probabilidad del 50 por
ciento. Tal el caso de obtener una cara arrojando una moneda.
2. Probabilidad clásica y probabilidad frecuencial.- Si bien existen diferentes teorías y
enfoques acerca de la probabilidad, explicaremos a continuación los dos planteos más
habituales, siguiendo un ordenamiento histórico e incluso sistemático: el clásico y el
frecuencial. En última instancia, se trata de dos modos diferentes de calcular la probabilidad
de la ocurrencia de un fenómeno.
a) Probabilidad clásica.- Suele también denominarse probabilidad teórica o a priori, y se
define como el cociente entre el número de casos favorables y el número de casos
equiprobables posibles. Aclaremos esta aparentemente engorrosa definición.
Sabemos que un dado tiene seis caras, numeradas del uno al seis. La probabilidad de
obtener la cara tres, por ejemplo, es de un sexto, es decir de un caso favorable (porque hay
una sola cara con el tres) sobre seis casos equiprobables y posibles (caras 1-2-3-4-5-6).
Aplicando la definición de probabilidad, es:
Casos favorables 1
p= ----------------------------------------------------- = 0.1666
Casos equiprobables posibles 6
Para poder calcular esta probabilidad necesitamos, obviamente, conocer todos los casos
posibles (requisito de exhaustividad), pero además debemos saber que todos esos casos
posibles tienen la misma probabilidad de salir (requisito de equiprobabilidad), vale decir,
debemos tener la suficiente seguridad de que ninguna cara tendrá mayor o menor
probabilidad de salir que otra cara cualquiera, como puede ocurrir, por ejemplo, con los
dados 'cargados'.
Una aclaración respecto de la expresión 'casos favorables'. Debemos evitar aqui la
connotación subjetiva del término. Un caso favorable es simplemente un caso del cual
queremos conocer la probabilidad de su ocurrencia. Puede incluso tratarse de un terremoto o
una enfermedad, aunque estos eventos no sean 'favorables' desde otro punto de vista más
subjetivo.
Respecto de la expresión 'casos equiprobables posibles', esta alude al hecho antes indicado
de que para calcular una probabilidad en sentido clásico, deben cumplirse los dos requisitos
de exhaustividad y equiprobabilidad.
Puede suceder, en efecto, que alguno de estos requisitos no se cumpla. 1) Exhaustividad:
Este requisito puede no cumplirse en dos casos. Primero, puede ocurrir que al arrojar un
dado, este quede parado en equilibrio sobre alguno de sus vértices o aristas. Como
posibilidad existe, pero es remotísima. Debido a que esta posibilidad es muy baja, a los
efectos prácticos la consideramos nula y seguimos aplicando la definición clásica de
probabilidad, como si todos los casos posibles fueran, como en el caso del dado, solamente
seis. Segundo, puede ocurrir que no sepamos cuántas caras tiene el dado (en la situación
anterior sí sabíamos esta cantidad, descartando las alternativas remotas), aún cuando
sepamos que todas tienen la misma probabilidad de salir. En este caso, al desconocer el
número de casos posibles, la definición clásica de probabilidad resulta inaplicable,
quedándonos la opción de aplicar la probabilidad frecuencial. 2) Equiprobabilidad: Este
requisito puede no cumplirse cuando el dado está 'cargado' lo que hace que, por ejemplo, el
tres tenga mayores probabilidades de salir que el cuatro. En este caso, podemos calcular la
probabilidad mediante la probabilidad frecuencial.
En síntesis hasta aquí: cuando ninguno de estos requisitos, o ambos, no pueden cumplirse,
nos queda aún la opción de calcular la probabilidad en forma empírica, lo que nos lleva al
tema de la llamada probabilidad frecuencial.
b) Probabilidad frecuencial.- Suele también denominarse probabilidad empírica o a posteriori,
y es definible como el cociente entre el números de casos favorables y el número de casos
observados. En un ejemplo, supongamos que no conocemos cuántas caras tiene un dado (es
decir desconocemos la cantidad de casos posibles), y queremos averiguar qué probabilidad
tiene de salir el uno. Obviamente no podemos decir 'un sexto' o 'uno sobre seis' porque no
sabemos cuántas caras tiene el dado. Para hacer este cálculo decidimos hacer un
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica
Fundamentos de estadistica

Más contenido relacionado

La actualidad más candente

métodos estadísticos y distribución de frecuencias
métodos estadísticos  y distribución de frecuencias métodos estadísticos  y distribución de frecuencias
métodos estadísticos y distribución de frecuencias lauramelisa6
 
Exposicion estadistica inferencial spss
Exposicion estadistica inferencial spssExposicion estadistica inferencial spss
Exposicion estadistica inferencial spssgabrielanataly
 
Estadística inferencial 2012
Estadística inferencial 2012Estadística inferencial 2012
Estadística inferencial 2012aumcjoe
 
Tema 1.1 introudcción a la estadística
Tema 1.1 introudcción a la estadísticaTema 1.1 introudcción a la estadística
Tema 1.1 introudcción a la estadísticaanthonymaule
 
Estadística
Estadística Estadística
Estadística julicom
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptivacatherine4ad
 
Guia del curso estadistica
Guia del curso  estadisticaGuia del curso  estadistica
Guia del curso estadisticaEdith Llanos
 
Estudios estadisticos
Estudios estadisticosEstudios estadisticos
Estudios estadisticosAmy Robles
 

La actualidad más candente (16)

Estadistica sebas
Estadistica sebasEstadistica sebas
Estadistica sebas
 
métodos estadísticos y distribución de frecuencias
métodos estadísticos  y distribución de frecuencias métodos estadísticos  y distribución de frecuencias
métodos estadísticos y distribución de frecuencias
 
Analisis
Analisis Analisis
Analisis
 
estadistica inferencial
estadistica inferencialestadistica inferencial
estadistica inferencial
 
Trabajo de tecnologia #2
Trabajo de tecnologia #2Trabajo de tecnologia #2
Trabajo de tecnologia #2
 
Exposicion estadistica inferencial spss
Exposicion estadistica inferencial spssExposicion estadistica inferencial spss
Exposicion estadistica inferencial spss
 
Estadística inferencial 2012
Estadística inferencial 2012Estadística inferencial 2012
Estadística inferencial 2012
 
Tema 1.1 introudcción a la estadística
Tema 1.1 introudcción a la estadísticaTema 1.1 introudcción a la estadística
Tema 1.1 introudcción a la estadística
 
Estadística
Estadística Estadística
Estadística
 
EstadíStica Inferencial Y Conceptos BáSicos
EstadíStica Inferencial Y Conceptos BáSicosEstadíStica Inferencial Y Conceptos BáSicos
EstadíStica Inferencial Y Conceptos BáSicos
 
Trabajo dany
 Trabajo dany Trabajo dany
Trabajo dany
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
Guia del curso estadistica
Guia del curso  estadisticaGuia del curso  estadistica
Guia del curso estadistica
 
Estudios estadisticos
Estudios estadisticosEstudios estadisticos
Estudios estadisticos
 
Nos
NosNos
Nos
 
Tecnologia
TecnologiaTecnologia
Tecnologia
 

Similar a Fundamentos de estadistica

Metodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuenciasMetodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuenciasEmmanuelSantos11
 
Metodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuenciasMetodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuenciasAngelicaAguado2
 
Metodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuenciasMetodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuenciassalomepereaquintero
 
TP1 COMISION 2 CORTEZ- FUENTES-JARA.pdf
TP1 COMISION 2  CORTEZ- FUENTES-JARA.pdfTP1 COMISION 2  CORTEZ- FUENTES-JARA.pdf
TP1 COMISION 2 CORTEZ- FUENTES-JARA.pdfFannyRaquelJara
 
CONCEPTOS DE PROGRAMACIÓN, MÉTODOS ESTADÍSTICOS.
CONCEPTOS  DE PROGRAMACIÓN, MÉTODOS ESTADÍSTICOS.CONCEPTOS  DE PROGRAMACIÓN, MÉTODOS ESTADÍSTICOS.
CONCEPTOS DE PROGRAMACIÓN, MÉTODOS ESTADÍSTICOS.THETINTER
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfjuanjopinilloes2102
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfsofiaMnera
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfMarianaMolinaZapata
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfMarianaMolinaZapata
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxNextKiller
 
Estadística (1)
Estadística (1)Estadística (1)
Estadística (1)KarmenDP
 
Importancia de la estadística en la investigación científica
Importancia de la estadística en la investigación científicaImportancia de la estadística en la investigación científica
Importancia de la estadística en la investigación científicaCarlos Leon
 
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdfESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdfedgar carpio
 
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdfESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdfedgar carpio
 

Similar a Fundamentos de estadistica (20)

Metodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuenciasMetodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuencias
 
Metodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuenciasMetodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuencias
 
Metodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuenciasMetodos estadisticos y distribucion de frecuencias
Metodos estadisticos y distribucion de frecuencias
 
David 37
David 37David 37
David 37
 
David 37
David 37David 37
David 37
 
TP1 COMISION 2 CORTEZ- FUENTES-JARA.pdf
TP1 COMISION 2  CORTEZ- FUENTES-JARA.pdfTP1 COMISION 2  CORTEZ- FUENTES-JARA.pdf
TP1 COMISION 2 CORTEZ- FUENTES-JARA.pdf
 
CONCEPTOS DE PROGRAMACIÓN, MÉTODOS ESTADÍSTICOS.
CONCEPTOS  DE PROGRAMACIÓN, MÉTODOS ESTADÍSTICOS.CONCEPTOS  DE PROGRAMACIÓN, MÉTODOS ESTADÍSTICOS.
CONCEPTOS DE PROGRAMACIÓN, MÉTODOS ESTADÍSTICOS.
 
Q1d
Q1dQ1d
Q1d
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..pdf
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS..docx
 
Estadística (1)
Estadística (1)Estadística (1)
Estadística (1)
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Q1
Q1Q1
Q1
 
Importancia de la estadística en la investigación científica
Importancia de la estadística en la investigación científicaImportancia de la estadística en la investigación científica
Importancia de la estadística en la investigación científica
 
Metodos estadisticos
Metodos estadisticosMetodos estadisticos
Metodos estadisticos
 
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdfESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
 
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdfESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
ESTADISTICA DESCRIPTIVA SALUD PUBLICA 22.pdf
 

Más de linajimenez30

Iemo gf, fse2020.02 - 05 invitacion publica proceso contractual (v20200812) p...
Iemo gf, fse2020.02 - 05 invitacion publica proceso contractual (v20200812) p...Iemo gf, fse2020.02 - 05 invitacion publica proceso contractual (v20200812) p...
Iemo gf, fse2020.02 - 05 invitacion publica proceso contractual (v20200812) p...linajimenez30
 
Reconozco mi entorno i.e marina orth
Reconozco mi entorno i.e marina orthReconozco mi entorno i.e marina orth
Reconozco mi entorno i.e marina orthlinajimenez30
 
Tema 3 a el dinero y el presupuesto
Tema 3 a el dinero y el presupuestoTema 3 a el dinero y el presupuesto
Tema 3 a el dinero y el presupuestolinajimenez30
 
Tema 7 rasgos del trabajo en equipo realce alto
Tema 7 rasgos del trabajo en equipo realce altoTema 7 rasgos del trabajo en equipo realce alto
Tema 7 rasgos del trabajo en equipo realce altolinajimenez30
 
Tema 7 rasgos del trabajo en equipo
Tema 7 rasgos del trabajo en equipoTema 7 rasgos del trabajo en equipo
Tema 7 rasgos del trabajo en equipolinajimenez30
 
El mercado y los clientes nivel e
El mercado y los clientes nivel eEl mercado y los clientes nivel e
El mercado y los clientes nivel elinajimenez30
 
Fisica movimiento rectilineo uniforme
Fisica movimiento rectilineo uniformeFisica movimiento rectilineo uniforme
Fisica movimiento rectilineo uniformelinajimenez30
 
Clei 6 fisica definicion movimiento circular uniforme
Clei 6 fisica definicion movimiento circular uniformeClei 6 fisica definicion movimiento circular uniforme
Clei 6 fisica definicion movimiento circular uniformelinajimenez30
 
Tema 5 a la importancia de asumir responsabilidades
Tema 5 a la importancia de asumir responsabilidadesTema 5 a la importancia de asumir responsabilidades
Tema 5 a la importancia de asumir responsabilidadeslinajimenez30
 
Tema 1 a_la planeación
Tema 1 a_la planeaciónTema 1 a_la planeación
Tema 1 a_la planeaciónlinajimenez30
 
Tema b clientes y mercado
Tema b clientes y mercadoTema b clientes y mercado
Tema b clientes y mercadolinajimenez30
 
Tema 1 a las necesidades humanas
Tema 1 a las necesidades humanasTema 1 a las necesidades humanas
Tema 1 a las necesidades humanaslinajimenez30
 
Limpieza y ensamblar una pc (1)
Limpieza y ensamblar una pc (1)Limpieza y ensamblar una pc (1)
Limpieza y ensamblar una pc (1)linajimenez30
 
Definicion y alcances del emprendimiento social
Definicion y alcances del emprendimiento socialDefinicion y alcances del emprendimiento social
Definicion y alcances del emprendimiento sociallinajimenez30
 

Más de linajimenez30 (20)

Iemo gf, fse2020.02 - 05 invitacion publica proceso contractual (v20200812) p...
Iemo gf, fse2020.02 - 05 invitacion publica proceso contractual (v20200812) p...Iemo gf, fse2020.02 - 05 invitacion publica proceso contractual (v20200812) p...
Iemo gf, fse2020.02 - 05 invitacion publica proceso contractual (v20200812) p...
 
Colaborando ando
Colaborando andoColaborando ando
Colaborando ando
 
Reconozco mi entorno i.e marina orth
Reconozco mi entorno i.e marina orthReconozco mi entorno i.e marina orth
Reconozco mi entorno i.e marina orth
 
Tema 3 a el dinero y el presupuesto
Tema 3 a el dinero y el presupuestoTema 3 a el dinero y el presupuesto
Tema 3 a el dinero y el presupuesto
 
Ejer tema1-d37
Ejer tema1-d37Ejer tema1-d37
Ejer tema1-d37
 
Estudio de mercado
Estudio de mercadoEstudio de mercado
Estudio de mercado
 
Tema 7 rasgos del trabajo en equipo realce alto
Tema 7 rasgos del trabajo en equipo realce altoTema 7 rasgos del trabajo en equipo realce alto
Tema 7 rasgos del trabajo en equipo realce alto
 
Tema 7 rasgos del trabajo en equipo
Tema 7 rasgos del trabajo en equipoTema 7 rasgos del trabajo en equipo
Tema 7 rasgos del trabajo en equipo
 
El mercado y los clientes nivel e
El mercado y los clientes nivel eEl mercado y los clientes nivel e
El mercado y los clientes nivel e
 
Conjuntos
ConjuntosConjuntos
Conjuntos
 
Fisica movimiento rectilineo uniforme
Fisica movimiento rectilineo uniformeFisica movimiento rectilineo uniforme
Fisica movimiento rectilineo uniforme
 
Clei 6 fisica definicion movimiento circular uniforme
Clei 6 fisica definicion movimiento circular uniformeClei 6 fisica definicion movimiento circular uniforme
Clei 6 fisica definicion movimiento circular uniforme
 
Tema 5 a la importancia de asumir responsabilidades
Tema 5 a la importancia de asumir responsabilidadesTema 5 a la importancia de asumir responsabilidades
Tema 5 a la importancia de asumir responsabilidades
 
Tema 1 a_la planeación
Tema 1 a_la planeaciónTema 1 a_la planeación
Tema 1 a_la planeación
 
Tema b clientes y mercado
Tema b clientes y mercadoTema b clientes y mercado
Tema b clientes y mercado
 
Tema 1 a las necesidades humanas
Tema 1 a las necesidades humanasTema 1 a las necesidades humanas
Tema 1 a las necesidades humanas
 
5 plan mercadeo
5 plan mercadeo5 plan mercadeo
5 plan mercadeo
 
Estudio de mercado
Estudio de mercadoEstudio de mercado
Estudio de mercado
 
Limpieza y ensamblar una pc (1)
Limpieza y ensamblar una pc (1)Limpieza y ensamblar una pc (1)
Limpieza y ensamblar una pc (1)
 
Definicion y alcances del emprendimiento social
Definicion y alcances del emprendimiento socialDefinicion y alcances del emprendimiento social
Definicion y alcances del emprendimiento social
 

Último

5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADOJosé Luis Palma
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxJUANSIMONPACHIN
 
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxOscarEduardoSanchezC
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...JAVIER SOLIS NOYOLA
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfDannyTola1
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Baker Publishing Company
 
Procesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxProcesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxMapyMerma1
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfAlfredoRamirez953210
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteJuan Hernandez
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDUgustavorojas179704
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOweislaco
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 

Último (20)

Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADODECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
DECÁGOLO DEL GENERAL ELOY ALFARO DELGADO
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
 
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdfTema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
 
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
LA ECUACIÓN DEL NÚMERO PI EN LOS JUEGOS OLÍMPICOS DE PARÍS. Por JAVIER SOLIS ...
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdf
 
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...Análisis de la Implementación de los Servicios Locales de Educación Pública p...
Análisis de la Implementación de los Servicios Locales de Educación Pública p...
 
Procesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptxProcesos Didácticos en Educación Inicial .pptx
Procesos Didácticos en Educación Inicial .pptx
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
 
Unidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parteUnidad II Doctrina de la Iglesia 1 parte
Unidad II Doctrina de la Iglesia 1 parte
 
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDUFICHA DE MONITOREO Y ACOMPAÑAMIENTO  2024 MINEDU
FICHA DE MONITOREO Y ACOMPAÑAMIENTO 2024 MINEDU
 
Sesión La luz brilla en la oscuridad.pdf
Sesión  La luz brilla en la oscuridad.pdfSesión  La luz brilla en la oscuridad.pdf
Sesión La luz brilla en la oscuridad.pdf
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 

Fundamentos de estadistica

  • 3. Prefacio Capítulo 1: Introducción a la estadística 1.1 Definición y utilidad de la estadística 1.2 Clasificaciones de la estadística 1.3 Población y muestra 1.4 Estructura del dato 1.5 La medición Capítulo 2: Estadística descriptiva 2.1 Generalidades 2.2 Ordenamiento y agrupación de los datos: matrices y tablas 2.3 Visualización de los datos: gráficos 2.4 Síntesis de los datos: medidas estadísticas de posición 2.5 Síntesis de los datos: medidas estadísticas de dispersión 2.6 Síntesis de los datos: asimetría y curtosis Notas Capítulo 3: Probabilidad y curva normal 3.1 El concepto de probabilidad 3.2 Definición y características de la curva normal 3.3 Puntajes brutos y puntajes estandarizados 3.4 Aplicaciones de la curva normal Notas Capítulo 4: Correlación y regresión 4.1 Introducción 4.2 El análisis de correlación 4.3 Cálculo gráfico de la correlación 4.4 Cálculo analítico de la correlación 4.5 Un ejemplo: construcción y validación de tests 4.6 El análisis de regresión 4.7 Cálculo analítico de la regresión 4.8 Cálculo gráfico de la correlación Notas Capítulo 5: Estadística inferencial 5.1 Introducción 5.2 Estimación de parámetros 5.3 Prueba de hipótesis 5.4 Ejemplos de pruebas de hipótesis 5.5 El concepto de significación estadística Notas Referencias bibliográficas Otras fuentes consultadas Anexos ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUÍA ANEXO 2: TABLA DE ÁREAS BAJO LA CURVA NORMAL ESTANDARIZADA Tabla 1 – Áreas desde z hacia la izquierda Tabla 2 – Áreas desde z = 0 hacia la izquierda o hacia la derecha ANEXO 3: TABLA DE LA DISTRIBUCIÓN t Fundamentos de estadística Pablo Cazau PREFACIO
  • 4. El presente texto fue pensado como un manual de consulta para alumnos de diversas carreras universitarias de grado y posgrado que cursan asignaturas donde se enseña la estadística como herramienta de la metodología de la investigación científica. Se brinda aquí un panorama general e introductorio de los principales temas de una disciplina que opera en dos grandes etapas: la estadística descriptiva y la estadística inferencial. También se desarrollan los conceptos de probabilidad y curva normal, básicos para la comprensión de la estadística inferencial, y los conceptos de correlación y regresión vinculados, respectivamente, con las etapas descriptiva e inferencial. Pablo Cazau. Licenciado en Psicología y Profesor de Enseñanza Media y Superior en Psicología (UBA). Buenos Aires, Enero 2006. Todos los derechos reservados
  • 5. CAPÍTULO 1: INTRODUCCION A LA ESTADISTICA 1.1 DEFINICIÓN Y UTILIDAD DE LA ESTADÍSTICA La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos. Por ejemplo, la estadística interviene cuando se quiere conocer el estado sanitario de un país, a través de ciertos parámetros como la tasa de morbilidad o mortalidad de la población. En este caso la estadística describe la muestra en términos de datos organizados y resumidos, y luego infiere conclusiones respecto de la población. Por ejemplo, aplicada a la investigación científica, hace inferencias cuando emplea medios matemáticos para establecer si una hipótesis debe o no ser rechazada. La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada en física, química, biología, medicina, astronomía, psicología, sociología, lingüística, demografía, etc. Cuando en cualquiera de estas disciplinas se trata de establecer si una hipótesis debe o no ser rechazada, no siempre es indispensable la estadística inferencial. Por ejemplo, si sobre 60 veces que se mira un dado, sale un dos 10 veces, no se requiere la estadística para rechazar la hipótesis “el dado está cargado”. Si sale un dos en 58 ocasiones sobre 60, tampoco se necesita la estadística para aceptar la hipótesis “el dado está cargado”. Pero, ¿qué ocurre si el número dos sale 20, 25 o 30 veces? En estos casos de duda, la estadística interviene para determinar hasta qué cantidad de veces se considerará rechazada la hipótesis (o bien desde qué cantidad de veces se la considerará aceptada). En otras palabras, la estadística interviene cuando debe determinarse si los datos obtenidos son debidos al azar o son el resultado de un dado cargado. Otro ejemplo. Si una persona adivina el color (rojo o negro) de las cartas en un 50% de los casos, se puede rechazar la hipótesis “la persona es adivina”. Si, en cambio, acierta en el 99% de los casos el color de las cartas, se puede aceptar la mencionada hipótesis. Los casos de duda corresponden a porcentajes de acierto intermedios, como el 60%, el 70%, etc., en cuyos casos debe intervenir la estadística para despejarlos. La importancia de la estadística en la investigación científica radica en que la gran mayoría de las investigaciones son „casos de duda‟. 1.2 CLASIFICACIONES DE LA ESTADÍSTICA Existen varias formas de clasificar los estudios estadísticos. 1) Según la etapa.- Hay una estadística descriptiva y una estadística inferencial. La primera etapa se ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen la muestra (por ejemplo, conclusiones con respecto a la población). Tanto la estadística descriptiva como la estadística inferencial se ocupan de obtener datos nuevos. La diferencia radica en que la estadística descriptiva procede a resumir y organizar esos datos para facilitar su análisis e interpretación, y la estadística inferencial procede a formular estimaciones y probar hipótesis acerca de la población a partir de esos datos resumidos y obtenidos de la muestra. Puesto que estas últimas operaciones llevarán siempre a conclusiones que tienen algún grado de probabilidad, la teoría de la probabilidad constituye una de sus herramientas principales. Téngase presente que en sí misma la teoría de la probabilidad no forma parte de la estadística porque es otra rama diferente de la matemática, pero es utilizada por la estadística como instrumento para lograr sus propios objetivos. La estadística descriptiva también incluye –explícita o implícitamente- consideraciones probabilísticas, aunque no resultan ser tan importantes como en la estadística inferencial. Por ejemplo, la elección de un determinado estadístico para caracterizar una muestra (modo, mediana o media aritmética) se funda sobre ciertas consideraciones implícitas acerca de cuál de ellos tiene más probabilidades de representar significativamente el conjunto de los datos que se intenta resumir. Tanto la estadística descriptiva como la inferencial implican, entonces, el análisis de datos. “Si se realiza un análisis con el fin de describir o caracterizar los datos que han sido reunidos, entonces estamos en el área de la estadística descriptiva… Por otro lado, la estadística inferencial no se refiere a la simple descripción de los datos obtenidos, sino que abarca las técnicas que nos permiten utilizar los datos muestrales para inferir u obtener conclusiones sobre las poblaciones de las cuales fueron extraídos dichos datos” (Pagano, 1998:19). Kohan, por su parte, sintetiza así su visión de las diferencias entre ambos tipos de estadística: “Si estudiamos una característica de un grupo, sea en una población o en una muestra, por ejemplo talla, peso, edad, cociente intelectual, ingreso mensual, etc, y lo describimos sin sacar de ello conclusiones estamos en la etapa de la estadística descriptiva. Si estudiamos en una muestra una característica cualquiera e inferimos, a partir de los resultados obtenidos en la muestra, conclusiones sobre la población correspondiente, estamos haciendo estadística inductiva o inferencial, y como estas inferencias no pueden ser exactamente ciertas, aplicamos el lenguaje probabilístico para sacar las conclusiones” (Kohan, 1994:25). Kohan emplea la palabra inductiva porque las inferencias realizadas en este tipo de estadística son razonamientos inductivos, modernamente definidos como razonamientos cuya conclusión es sólo probable.
  • 6. 2) Según la cantidad de variables estudiada.- Desde este punto de vista hay una estadística univariada (estudia una sola variable, como por ejemplo la inteligencia), una estadística bivariada (estudia la relación entre dos variables, como por ejemplo inteligencia y alimentación), y una estadística multivariada (estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad y la alimentación con la inteligencia). El siguiente esquema ilustra la relación entre dos clasificaciones de la estadística: descriptiva / inferencial y univariada / bivariada. La estadística descriptiva se ocupa de muestras, y la estadística inferencial infiere características de la población a partir de muestras. A su vez, ambas etapas de la estadística pueden estudiar una variable por vez o la relación entre dos o más variables. Por ejemplo, a) en el caso de la estadística univariada, el cálculo de medidas de posición y dispersión en una muestra corresponde a la estadística descriptiva, mientras que la prueba de la media corresponde a la estadística inferencial; b) en el caso de la estadística bivariada, el análisis de correlación de variables en una muestra corresponde estrictamente hablando a la estadística descriptiva, mientras que el análisis de regresión o las pruebas de hipótesis para coeficientes de correlación (Kohan N, 1994:234) corresponden a la estadística inferencial. 3) Según el tiempo considerado.- Si se considera a la estadística descriptiva, se distingue la estadística estática o estructural, que describe la población en un momento dado (por ejemplo la tasa de nacimientos en determinado censo), y la estadística dinámica o evolutiva, que describe como va cambiando la población en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos). 1.3 POBLACIÓN Y MUESTRA Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente definir de cuáles datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadístico se llama población. No debe confundirse la población en sentido demográfico y la población en sentido estadístico. La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país, todas las ratas de una ciudad), mientras que una población en sentido estadístico es un conjunto de datos referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de un país, el color de todas las ratas de una ciudad). Incluso una población en sentido estadístico no tiene porqué referirse a muchos individuos. Una población estadística puede ser también el conjunto de calificaciones obtenidas por un individuo a lo largo de sus estudios universitarios. En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales, según que correspondan a muchas personas o a una sola, y también según que hayan sido recolectados en un instante de tiempo determinado, o bien a lo largo del tiempo. De muchos individuos De un solo individuo En un instante de tiempo Notas de todos los alumnos en el primer parcial de tal mes y tal año. Notas de un solo alumno en el primer parcial de las materias que POBLACION MUESTRA Parámetros x1 x2 xn Estadísticos x1 y1 x  y x  y Una variable Dos (o más) variables
  • 7. cursa en ese momento. A lo largo del tiempo Notas de todos los alumnos durante los 6 años de carrera. Notas de un alumno a lo largo de los 6 años de carrera. Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin embargo, en la mayoría de los casos no es posible hacerlo por razones de esfuerzo, tiempo y dinero, razón por la cual se extrae, de la población, una muestra, mediante un procedimiento llamado muestreo. Se llama muestra a un subconjunto de la población, y que puede o no ser representativa de la misma. Por ejemplo, si la población es el conjunto de todas las edades de los estudiantes de la provincia de Buenos Aires, una muestra podría ser el conjunto de edades de 2000 estudiantes de la provincia de Buenos Aires tomados al azar. 1.4 ESTRUCTURA DEL DATO Los datos son la materia prima con que trabaja la estadística, del mismo modo que la madera es la materia prima con que trabaja el carpintero. Así como este procesa o transforma la madera para obtener un producto útil, así también el estadístico procesa o transforma los datos para obtener información útil. Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto está en recoger la madera o los datos más adecuados a los objetivos del trabajo a realizar. De una manera general, puede definirse técnicamente dato como una categoría asignada a una variable de una unidad de análisis. Por ejemplo, “Luis tiene 1.70 metros de estatura” es un dato, donde „Luis‟ es la unidad de análisis, „estatura‟ es la variable, y „1.70 metros‟ es la categoría asignada. Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de análisis, una variable y una categoría. La unidad de análisis es el elemento del cual se predica una propiedad y característica. Puede ser una persona, una familia, un animal, una sustancia química, o un objeto como una dentadura o una mesa. La variable es la característica, propiedad o atributo que se predica de la unidad de análisis. Por ejemplo puede ser la edad para una persona, el grado de cohesión para una familia, el nivel de aprendizaje alcanzado para un animal, el peso específico para una sustancia química, el nivel de „salud‟ para una dentadura, y el tamaño para una mesa. Pueden entonces también definirse población estadística (o simplemente población) como el conjunto de datos acerca de unidades de análisis (individuos, objetos) en relación a una misma característica, propiedad o atributo (variable). Sobre una misma población demográfica pueden definirse varias poblaciones de datos, una para cada variable. Por ejemplo, en el conjunto de habitantes de un país (población demográfica), puede definirse una población referida a la variable edad (el conjunto de edades de los habitantes), a la variable ocupación (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones de sexo de los habitantes). La categoría es cada una de las posibles variaciones de una variable. Categorías de la variable sexo son masculino y femenino, de la variable ocupación pueden ser arquitecto, médico, etc, y de la variable edad pueden ser 10 años, 11 años, etc. Cuando la variable se mide cuantitativamente, es decir cuando se expresa numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye también una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de piezas dentarias, centímetros, etc. El valor es, entonces, cada una de las posibles variaciones de una variable cuantitativa. Datos individuales y datos estadísticos.- Un dato individual es un dato de un solo individuo, mientras que un dato estadístico es un dato de una muestra o de una población en su conjunto. Por ejemplo, la edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o población de personas es un dato estadístico. Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede ser 37 años, y el promedio de edades de la muestra donde está incluído Juan es 23 años. Por esta razón un dato estadístico nada dice respecto de los individuos, porque solamente describe la muestra o población. Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por ejemplo, el promedio de ingresos mensuales de las personas de una muestra), mientras que los datos estadísticos descriptores de una población suelen llamarse parámetros (por ejemplo, el promedio de ingresos mensuales de las personas de una población) (Kohan N, 1994:143). 1.5 LA MEDICIÓN Los datos se obtienen a través un proceso llamado medición. Desde este punto de vista, puede definirse medición como el proceso por el cual asignamos una categoría (o un valor) a una variable, para determinada unidad de análisis. Ejemplo: cuando decimos que Martín es varón, estamos haciendo una medición, porque estamos asignando una categoría (varón) a una variable (sexo) para una unidad de análisis (Martín).
  • 8. A veces se ha definido medir como comparar, lo cual puede referirse a diversos tipos de comparación: 1) comparar una cantidad con otra tomada como unidad Sentido clásico de comparación); 2) comparar dos categorías de una misma variable en el mismo sujeto y distinto tiempo; 3) comparar dos categorías de una misma variable en distintos sujetos al mismo tiempo; y 4) categorías de variables distintas (debe usarse puntaje estandarizado), en el mismo sujeto o en sujetos distintos. Se pueden hacer mediciones con mayor o menor grado de precisión. Cuanto más precisa sea la medición, más información nos suministra sobre la variable y, por tanto, sobre la unidad de análisis. No es lo mismo decir que una persona es alta, a decir que mide 1,83 metros. Los diferentes grados de precisión o de contenido informativo de una medición se suelen caracterizar como niveles de medición. Típicamente se definen cuatro niveles de medición, y en cada uno de ellos la obtención del dato o resultado de la medición será diferente: Ejemplos de datos en diferentes niveles de medición Nivel de medición Nivel nominal Nivel ordinal Nivel cuantitativo discreto Nivel cuantitativo continuo DATO Martín es electricista Elena terminó la secundaria Juan tiene 32 dientes María tiene 70 pulsaciones por minuto Unidad de análisis Martín Elena Juan María Variable Oficio Nivel de instrucción Cantidad de piezas dentarias Frecuencia cardíaca Categoría o valor Electricista Secundaria completa 32 70 Unidad de medida ------------- ------------ Diente Pulsaciones por minuto En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de análisis (Martín es electricista). En el nivel ordinal, medir significa asignar un atributo a una unidad de análisis cuyas categorías pueden ser ordenadas en una serie creciente o decreciente (la categoría „secundaria completa‟ puede ordenarse en una serie, pues está entre „secundaria incompleta‟ y „universitaria incompleta‟). En el nivel cuantitativo, medir significa además asignar un atributo a una unidad de análisis de modo tal que la categoría asignada permita saber „cuánto‟ mayor o menor es respecto de otra categoría, es decir, especifica la distancia o intervalo entre categorías (por ejemplo, la categoría 70 es el doble de la categoría 35). Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas. Una variable discreta es aquella en la cual, dados dos valores consecutivos, no puede adoptar ningún valor intermedio (por ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes). En cambio, una variable es continua cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles). Algunas veces una misma variable puede ser considerada como discreta o continua. Por ejemplo, la variable peso es discreta si solamente interesan los pesos sin valores intermedios (50 kg, 51 kg, etc), mientras que será continua si interesan también los valores intermedios (50,3 kg, 50,35 kg, 50,357 kg, etc). Obviamente, al considerar una variable como continua se obtendrá mayor precisión, es decir, mayor información. La precisión es una cualidad importante de la medición. Se pueden hacer mediciones más precisas y menos precisas, o tan precisas como lo permita el instrumento de medición. El primer nivel de medición es el menos preciso, y el último el más preciso. Por ejemplo, una mujer puede estar interesada en „medir‟ el amor de su pareja, para lo cual podrá interrogarla solicitándole diferentes grados de precisión: ¿me querés? (nivel nominal), ¿me querés más que a la otra? (nivel ordinal), ¿Cuánto me querés, del 1 al 10? (nivel cuantitativo). De la misma manera, diferentes grados de precisión para la variable temperatura pueden ser: A es un objeto caliente (nivel nominal), A es más caliente que B (nivel ordinal), A tiene 25 grados Celsius (nivel cuantitativo). Los ejemplos del amor y de la temperatura ilustran también el hecho de que una variable puede en principio medirse en cualquiera de los niveles de medición. Los niveles de medición pueden también ser clasificados de acuerdo a un criterio diferente, que afecta específicamente a los dos últimos. Así, los niveles de medición pueden ser clasificados como nominal, ordinal, de intervalos iguales y de cocientes o razones. Más allá de sus diferentes propiedades matemáticas, el nivel de intervalos iguales incluye un cero relativo o arbitrario, mientras que el nivel de cocientes o razones incluye un cero absoluto o real. Un cero absoluto o real representa la ausencia „real‟ de la variable (cero metros implica ausencia de longitud), mientras que un cero relativo o arbitrario no (cero grado centígrados no implica ausencia de temperatura).
  • 9. Existen ciertas variables a las cuales no puede asignársele un „cero real‟, por cuanto no se considera que esa variable pueda estar ausente en la realidad. Tal es el caso de la ansiedad o la inteligencia: nadie, por menos ansioso o por menos inteligente que sea, puede tener ansiedad o inteligencia nulas. CAPÍTULO 2: ESTADÍSTICA DESCRIPTIVA 2.1 GENERALIDADES El propósito fundamental de la estadística descriptiva es resumir y organizar una gran cantidad de datos referentes a una muestra (lo más habitual) o a una población. Se supone que los datos resumidos y organizados permiten describir adecuadamente la muestra o la población a los efectos de conocerla y, eventualmente, utilizarlos en la estadística inferencial para obtener conclusiones a partir de ellos. Para resumir y organizar los datos se utilizan diferentes procedimientos, llamados técnicas descriptivas: la matriz de datos permite ordenarlos, las tablas de frecuencias (o tablas de distribución de frecuencias) permiten agruparlos, los gráficos permiten visualizarlos, y las medidas estadísticas y las medidas de asimetría y curtosis permiten resumirlos reduciéndolos a un solo dato. Secuencia para organizar y resumir datos individuales A medida que se van utilizando estos procedimientos, los datos van quedando cada vez más resumidos y organizados. El empleo de dichos procedimientos propios de la estadística descriptiva sigue un orden determinado, como puede apreciarse en el siguiente esquema: Como puede verse: a) Los datos quedan recolectados mediante entrevistas, cuestionarios, tests, etc. b) Los datos quedan ordenados mediante una matriz de datos (lo cual permite resumir la información en unas pocas páginas). c) Los datos quedan agrupados mediante tablas de frecuencias (lo cual permite resumir la información en una sola página). d) Los datos quedan visualizados mediante gráficos. e) Los datos quedan sintetizados mediante las medidas estadísticas y otras (lo cual permite resumir la información en uno o dos renglones). Puede entonces decirse que, mediante una matriz de datos, una tabla de frecuencias (1), un gráfico o con medidas estadísticas, etc, la muestra o la población (conjuntos de datos) puede quedar adecuadamente descrita. Estas sucesivas abstracciones estadísticas implican: a) la reducción del espacio físico donde queda guardada la nueva información, y b) la desaparición de considerable información irrelevante. Debe distinguirse el fin o propósito perseguido (por ejemplo ordenar los datos), del medio utilizado para ello, que e la técnica descriptiva (por ejemplo, la matriz de datos). 2.2 ORDENAMIENTO Y AGRUPACIÓN DE LOS DATOS: MATRICES Y TABLAS Una vez que los datos han sido recolectados, se procede a continuación a ordenarlos en una matriz de datos y luego a agruparlos en una tabla de frecuencias. DATOS RECOLECTADOS (entrevistas, cuestionarios, tests, etc) DATOS ORDENADOS (matriz de datos) DATOS AGRUPADOS POR FRECUENCIA (tabla de frecuencias) DATOS AGRUPADOS POR INTERVALOS (tabla de frecuencias por intervalos) DATOS VISUALIZADOS (gráficos) DATOS SINTETIZADOS (medidas estadísticas y medidas de asimetría y curtosis)
  • 10. La forma de ordenarlos y agruparlos dependerá del tipo de variable considerada. Por ejemplo, si son datos relativos a variables cualitativas (niveles de medición nominal y ordinal), no podremos utilizar tablas de frecuencias por intervalos. El siguiente cuadro indica de qué manera se pueden ordenar y agrupar los datos según cada nivel de medición de la variable: Ejemplos de organización de los datos según el nivel de medición Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos Nivel nominal (Ejemplo: variable religión) Matriz de datos Sujeto x (religión) Juan Católica Pedro Católica María Judía Antonio Protestante Luis Protestante José Protestante Tabla de frecuencias x (religión) f Católica 2 Judía 1 Protestante 3 n = 6 f = frecuencia n = tamaño de la muestra Nivel ordinal (Ejemplo: variable clase social) Matriz de datos Sujeto x (clase social) Juan Alta Pedro Media María Media Antonio Media Luis Baja José Baja Tabla de frecuencias x (clase social) f Alta 1 Media 3 Baja 2 n = 6 f = frecuencia n = tamaño de la muestra Nivel cuantitativo (Ejemplo: variable edad) Matriz de datos Sujeto x (edad) Juan 15 Pedro 15 María 15 Antonio 16 Luis 16 José 16 Ana 16 Gabriela 16 Susana 17 Martín 17 Sergio 17 Pablo 17 Daniel 17 Graciela 17 Daniela 17 Beatriz 17 Oscar 18 Felipe 18 Alberto 18 Mónica 19 Marta 19 Mariana 20 Tabla de frecuencias x (edad) f 15 3 16 5 17 8 18 3 19 2 20 1 n = 22 f = frecuencia n = tamaño de la muestra Tabla de frecuencias por intervalos x (edad) f 15-16 8 17-18 11 19-20 3 n = 22 f = frecuencia n = tamaño de la muestra Una vez confeccionada la matriz de datos, se procede luego a resumir aún más esta información mediante una tabla de frecuencias o, si cabe, en una tabla de frecuencias por intervalos. Una tabla de este último tipo se justifica cuando la tabla de frecuencias original es demasiado grande y por tanto de difícil manejo para procesar la información. Sea de la forma que fuere, los datos ordenados según sus frecuencias suelen denominarse distribución de frecuencias (13). Las tablas de frecuencias contienen tres elementos importantes: las frecuencias, el tamaño de la muestra y los intervalos (en este último caso sólo para variables cuantitativas).
  • 11. a) Frecuencia.- La frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por ejemplo: la frecuencia 2 indica que el dato „católico‟ se repite dos veces, la frecuencia 3 que el dato “clase media” se repite tres veces, y la frecuencia 8 que el dato “17 años” se repite ocho veces. A veces resulta necesario expresar las frecuencias de otra manera, como puede apreciarse en la siguiente tabla ilustrativa: Tipos de frecuencias que pueden indicarse en una tabla de frecuencias x (edad) f f% F F% fr Fr 15 3 15% 3 15% 0.15 0.15 16 7 35% 10 50% 0.35 0.50 17 8 40% 18 90% 0.40 0.90 18 2 10% 20 100% 0.10 1 n = 20 n = 100% ------ ------ n = 1 ------ Frecuencia absoluta (f).- Es la cantidad de datos que se repiten. Por ejemplo, la frecuencia 3 indica que hay tres personas de 15 años. La suma de todas las frecuencias absolutas equivale al tamaño de la muestra. Frecuencia porcentual (f%).- Es el porcentaje de datos que se repiten. Por ejemplo, la frecuencia porcentual 15% indica que el 15% de la muestra tiene la edad de 15 años. La suma de todas las frecuencias porcentuales es 100%. Frecuencia acumulada (F).- Es el resultado de haber sumado las frecuencias anteriores. Por ejemplo, la frecuencia acumulada 10 resulta de sumar 7+3, e indica la cantidad de veces que se repiten las edades 16 y 15. La última de todas las frecuencias acumuladas, que en el ejemplo es 20, debe coincidir con el tamaño de la muestra. Frecuencia acumulada porcentual (F%).- Es el porcentaje de las frecuencias acumuladas. Frecuencia relativa (fr).- A veces también llamada proporción, es el cociente entre la frecuencia de un dato x y la frecuencia total o tamaño de la muestra. En la práctica, el tamaño de la muestra se considera como 1, a diferencia del tamaño de la muestra en la frecuencia porcentual, que se considera 100%. Frecuencia relativa acumulada (Fr).- Es el resultado de haber sumado las frecuencias relativas anteriores. Por ejemplo: la frecuencia relativa 0.90 indica que en 0.90 casos sobre 1 las edades están comprendidas entre 15 y 17 años. Frecuencias parciales y frecuencia total.- Tanto las frecuencias absolutas como las porcentuales o las relativas pueden ser frecuencias parciales o una frecuencia total, siendo ésta última la suma de todas frecuencias parciales. Las frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia total, y sirven para establecer comparaciones entre muestras distintas. Por ejemplo, si en una muestra de 1000 hombres, solo votaron 200, y en una muestra de 600 mujeres solo votaron 200 mujeres, en términos de frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos, es decir 200, pero en „proporción‟, las mujeres votaron más (la tercera parte del total) que los hombres (la quinta parte del total). Esta información se obtiene al convertir las frecuencias absolutas en frecuencias porcentuales o en frecuencias relativas (o proporciones). 2) Tamaño de la muestra.- Otro concepto importante es el tamaño de la muestra (n), que designa la cantidad total de datos. Obviamente, la suma de todas las frecuencias f debe dar como resultado el tamaño n de la muestra, por lo que el tamaño de la muestra coincide con la frecuencia total. 3) Intervalos.- Un intervalo, también llamado intervalo de clase, es cada uno de los grupos de valores ubicados en una fila en una tabla de frecuencias. Por ejemplo el intervalo 15-16 significa que en esa fila se están considerando las edades de 15 a 16 años. La frecuencia correspondiente a un intervalo es igual a la suma de frecuencias de los valores en él incluídos (2). Los intervalos presentan algunas características, que son las siguientes: Tamaño del intervalo (a).- También llamado amplitud o anchura del intervalo, es la cantidad de valores de la variable que se consideran conjuntamente en ese intervalo. Por ejemplo, el intervalo 15-16 años tiene una amplitud de 2, puesto que se consideran dos valores: 15 y 16. En otro ejemplo, el intervalo 20- 25 años tiene una amplitud de 6, puesto que se consideran seis valores. En general, puede calcularse el tamaño de un intervalo restando el límite superior y el inferior y sumando al resultado el número 1. Por ejemplo, 25 menos 20 da 5, y sumándole 1 da 6. Los ejemplos indicados corresponden a variables discretas, lo que significa que no podrán encontrarse valores intermedios entre dos intervalos. Por ejemplo, entre los intervalos 15-16 y 17-18 no se encontrarán valores intermedios entre 16 y 17 años. Téngase presente que: a) preferiblemente los intervalos deben tener un tamaño constante, de manera tal que no se pueden considerar como intervalos 15-16 y 17-20, porque tienen diferentes tamaños; y b) los intervalos han de ser mutuamente excluyentes, de manera tal que cuando se trata de variables discretas, no pueden definirse los intervalos 15-16 y 16-17, porque el valor 16 años está en ambos intervalos y no se podrá saber con seguridad en qué intervalo ubicar dicho valor.
  • 12. El problema se puede presentar con las variables continuas, donde, por definición, podría aparecer algún valor intermedio entre dos intervalos. Por ejemplo, si se considera la variable continua „ingresos mensuales‟ y se consideran en ella los intervalos 1000-2000 dólares y 3000-4000 dólares, puede ocurrir que un dato obtenido de la realidad sea 2500 dólares, con lo cual no podrá ser registrado en ningún intervalo. En tal caso se deberían reorganizar los intervalos como 1000-2999 dólares y 3000-4999 dólares, con lo cual el problema estaría resuelto. Desde ya, puede ocurrir que aparezca un ingreso mensual de 2999,50 dólares, en cuyo caso en principio deberían reorganizarse nuevamente los intervalos como 1000-2999,50 dólares y 2999,51-4999 dólares. La forma de reorganizar los intervalos dependerá entonces del grado de precisión que pretenda el investigador o del grado de precisión del instrumento de medición disponible. Límites del intervalo.- Todo intervalo debe quedar definido por dos límites: un límite inferior y un límite superior. Estos límites, a su vez, pueden ser aparentes o reales (Pagano, 1998:38-39). Considérese el siguiente ejemplo: Límites aparentes Límites reales 95-99 94.5-99.5 90-94 89.5-94.5 85-89 84.5-89.5 80-84 79.5-84.5 75-79 74.5-79.5 Si la variable considerada es discreta, carecerá de sentido la distinción entre límites reales o aparentes. Si se conviene que los valores que la variable puede adoptar son números enteros, se considerarán solamente los intervalos 95-99, 90-94, etc. Estos intervalos son en rigor reales, porque expresan los valores „reales‟ que puedan haber, que no son fraccionarios. Sólo en el caso de las variables continuas adquiere sentido la distinción entre límites reales y aparentes. Si la variable es continua, deberían tenerse en cuenta los límites reales. Por ejemplo, si un valor resulta ser 94.52, entonces será ubicado en el intervalo 94.5-99.5. Sin embargo, aún en estos casos, lo usual es omitir los límites reales y presentar sólo los límites aparentes (Pagano, 1998:39). En todo caso, los límites reales se utilizan a veces cuando se intenta transformar la tabla de frecuencias por intervalos en un gráfico. En principio, en ningún caso deberá haber una superposición de valores, como en el caso de los intervalos 20-21 y 21-22, donde el valor 21 está incluído en ambos intervalos, violándose así la regla de la mutua exclusión. Si acaso se presentara esta situación, o bien podrá ser adjudicada a un error del autor de la tabla, o bien deberá traducírsela como 20-20.99 y 21-22.99. Punto medio del intervalo (xm).- Es el valor que resulta de la semisuma de los límites superior e inferior, es decir, el punto medio del intervalo se calcula sumando ambos límites y dividiendo el resultado por dos. Por ejemplo, el punto medio del intervalo 15-20 es 17.5. El punto medio del intervalo sirve para calcular la media aritmética. Intervalos abiertos y cerrados.- Idealmente, todos los intervalos deberían ser cerrados, es decir, deberían estar especificados un límite superior y uno inferior de manera definida. Sin embargo, en algunos casos se establecen también intervalos abiertos, donde uno de los límites queda sin definir. En el siguiente ejemplo, ‟18 o menos‟ y ‟29 o más‟ son intervalos abiertos. Obviamente, en este tipo de distribución los intervalos dejan de ser de tamaño constante. Intervalos 18 o menos 19-23 24-28 29 o más Cantidad de intervalos.- La cantidad de intervalos es inversamente proporcional al tamaño de los mismos: cuanto menor tamaño tienen los intervalos, más numerosos serán. El solo hecho de emplear intervalos supone una cierta pérdida de la información. Por ejemplo, si se considera el intervalo 15-18 años, quedará sin saber cuántas personas de 16 años hay. Para reducir esta incertidumbre, podría establecerse un intervalo menor (15-16 años), pero con ello habrá aumentado la cantidad de intervalos hasta un punto donde la información se procesará de manera más difícil. Consiguientemente, al agrupar los datos hay que resolver el dilema entre perder información y presentar los datos de manera sencilla (Pagano R, 1998:37) (Botella, 1993:54), es decir, encontrar el justo equilibrio entre el tamaño de los intervalos y su cantidad. En la práctica, por lo general (Pagano, 1998:37) se consideran de 10 a 20 intervalos, ya que la experiencia indica que esa cantidad de intervalos funciona bien con la mayor parte de las distribuciones de datos (3). Se pueden sintetizar algunas reglas importantes para la construcción de intervalos de la siguiente manera:
  • 13. a) Los intervalos deben ser mutuamente excluyentes. b) Cada intervalo debe incluir el mismo número de valores (constancia de tamaño). c) La cantidad de intervalos debe ser exhaustiva (todos los valores deben poder ser incluídos en algún intervalo). d) El intervalo superior debe incluir el mayor valor observado (Botella, 1993:54). e) El intervalo inferior debe incluir al menor valor observado (Botella, 1993:54). f) En variables continuas, es aconsejable expresar los límites aparentes de los intervalos, que los límites reales. 2.3 VISUALIZACIÓN DE LOS DATOS: GRÁFICOS Una vez que los datos han sido organizados en tablas de frecuencias, es posible seguir avanzando organizándolos, desde allí, de otras maneras diferentes y con distintos propósitos. Una de estas maneras es la utilización de representaciones gráficas, algunas de las cuales son aptas para representar variables cualitativas (niveles nominal y ordinal) y otras para variables cuantitativas. Al tratarse de esquemas visuales, los gráficos permiten apreciar de un „golpe de vista‟ la información obtenida. Diagrama de tallo y hojas Esta técnica de visualización de datos es aquí mencionada en primer lugar porque puede ser considerada un procedimiento intermedio entre la tabla de frecuencias y el gráfico. Fue creada por Tukey en 1977 (citado por Botella, 1993:59) y presenta, entre otras, las siguientes ventajas: a) permite conocer cada puntuación individual (a diferencia de la tabla de frecuencias por intervalos, donde desaparecen en ellos); y b) puede ser considerada un „gráfico‟ si hacemos girar 90° el listado de puntuaciones o datos. A continuación se describe la forma de construir un diagrama de tallo y hojas, tomando como ejemplo la siguiente distribución de datos ordenados: 32-33-37-42-46-49-51-54-55-57-58-61-63-63-65-68-71-72-73-73-73-75-77-77-78-83-85-85-91-93 Tallo Hojas Procedimiento para realizar el diagrama de tallo y hojas a) Se construye una tabla como la de la izquierda con dos columnas: tallos y hojas. b) Se identifican cuáles son los valores extremos: 32 y 93. c) Se consideran los primeros dígitos de cada valor: 3 y 9. d) En la columna “tallos” se colocan los números desde el 3 hasta el 9. e) En la columna “hojas” se colocan los segundos dígitos de cada valor que empiece con 3, con 4, con 5, etc. 3 237 4 269 5 14578 6 13358 7 123335778 8 355 9 13 Girando la tabla obtenida 90° hacia la izquierda, se obtendrá algo similar a un gráfico de barras, que muestra por ejemplo que la mayor concentración de valores es la que comienza con 7. Una utilidad adicional del diagrama de tallo y hojas es que permite comparar visualmente dos variables, es decir, dos conjuntos de datos en los análisis de correlación, como puede apreciarse en el siguiente ejemplo: Hojas (Grupo control) Tallo Hojas (Grupo experimental) 87655 1 9 44322110 2 124 876655 3 5667788899 111000 4 00023344 5 555 Visualmente es posible darse una idea de los resultados del experimento: los datos del grupo experimental tienden a concentrarse en los valores altos, y los del grupo de control en los valores bajos. Pictograma Es una representación gráfica en la cual se utilizan dibujos. Por ejemplo, en el siguiente pictograma cada cara puede representar 100 personas:
  • 14. Sector circular Representación gráfica de forma circular donde cada porción de la „torta‟ representa una frecuencia. Para confeccionarlo se parte de una tabla de frecuencias donde están especificadas las frecuencias en grados (f°), las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas (f). Por ejemplo, si 825 es a 360°, entonces 310 es igual a 360° x 310 dividido por 825, lo cual da un resultado de 135°. Por lo tanto, para representar la frecuencia 310 deberá trazarse un ángulo de 135°. Estos valores pueden verse en el ejemplo siguiente, donde se han representado dos sectores circulares distintos, uno para varones y otro para mujeres: x (patología) Sexo Total f° (varones) f° (mujeres)Varones Mujeres Angina 310 287 597 135° 113° Bronquitis 297 429 726 130° 169° Sarampión 123 120 243 54° 47° Otras 95 80 175 41° 31° Total 825 916 1691 360° 360° Para realizar estos sectores se traza un ángulo de por ejemplo 130° y dentro de coloca la palabra “bronquitis”, y así sucesivamente. El círculo para mujeres es algo mayor que el círculo para hombres, porque en la muestra hay más mujeres que hombres. Para lograr estos tamaños debe calcularse el radio. Por ejemplo, si se ha elegido un radio masculino de 4 cm, el radio femenino puede calcularse mediante la fórmula siguiente: El radio femenino es igual al radio masculino multiplicado por la raíz cuadrada del n femenino, resultado que se dividirá por la raíz cuadrada del n masculino, donde n = tamaño de la muestra de cada sexo. Si el radio masculino es 4 cm, con esta fórmula se obtendrá un radio femenino de 4,22 cm. Diagrama de barras Representación gráfica donde cada barra representa una frecuencia parcial. En el eje de las ordenadas se indican las frecuencias absolutas, y en el eje de absisas se representan los valores de la variable x. De esta manera, las barras „más altas‟ tienen mayor frecuencia. Varones Mujeres 100 personas Varones Mujeres Bronquitis Angina Saram pión Otras Bronquitis Angina Saram pión Otras
  • 15. Existen diferentes tipos de diagramas de barras, de los cuales se ilustran tres: las barras simples, las barras superpuestas y las barras adyacentes. Los dos últimos tipos dan información sobre dos variables al mismo tiempo, que son sexo y estado civil en los ejemplos que siguen: Las barras también pueden disponerse horizontalmente. Mediante el diagrama de barras pueden representarse variables cualitativas y cuantitativas discretas. Histograma de Pearson Utilizado para representar variables cuantitativas continuas agrupadas en intervalos, este gráfico se compone de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el ejemplo siguiente, se presenta la tabla de frecuencias por intervalos y su histograma correspondiente: x (longitud) f 1-1.99 3 2-2.99 5 3-3.99 2 Total 10 f 25 20 15 10 5 Barras simples f 25 20 15 10 5 Solteros Casados Separados x Barras superpuestas f 25 20 15 10 5 Solteros Casados Separados x Barras adyacentes Solteros Casados Separados x Adolescentes Adultos
  • 16. Como pude apreciarse, en las absisas se indican los límites inferiores de los intervalos. Cuando los intervalos no son iguales, en lugar de indicar las frecuencias absolutas pueden indicarse las alturas (h). Esta última se obtiene dividiendo la frecuencia parcial por el tamaño del intervalo correspondiente. Polígono de frecuencias Es un gráfico de líneas rectas que unen puntos, siendo cada punto la intersección del punto medio del intervalo (indicado en las absisas) y la frecuencia correspondiente. Tomando el ejemplo anterior, el polígono de frecuencias sería el siguiente: Un polígono de frecuencias puede obtenerse también a partir del histograma correspondiente. Para ello basta con indicar los puntos medios de cada línea horizontal superior de cada barra del histograma, y luego unirlos con líneas rectas. Otra alternativa para este tipo de diagrama es el polígono de frecuencias acumuladas, donde se indican las frecuencias acumuladas en lugar de las frecuencias habituales. Ojiva de Galton Gráfico en el cual se consignan en las ordenadas las frecuencias acumuladas y en las absisas los límites superiores de cada intervalo (aunque también pueden indicarse los puntos medios de cada intervalo). Por ejemplo: x (longitud) f F 1-1.99 3 3 2-2.99 5 8 3-3.99 2 10 Total 10 f 5 4 3 2 1 1 2 3 4 x f 5 4 3 2 1 1.5 2.5 3.5 punto medio (xm)
  • 17. La ojiva de Galton también puede representar frecuencias acumuladas decrecientes. 2.4 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE POSICIÓN Los datos individuales pueden ser sintetizados mediante medidas de posición, medidas de dispersión (ambas se llaman medidas estadísticas), medidas de asimetría y medidas de curtosis. En este ítem se describen las medidas de posición. Definición Las medidas de posición pueden ser definidas de diversas formas (4). En esta nota proponemos la siguiente definición: Las medidas de posición son datos estadísticos que intentan representar un conjunto de datos individuales respecto de una variable. Esta definición se refiere a tres cuestiones: 1) Son medidas estadísticas, es decir, no son medidas individuales. Una medida de posición representa a todo un conjunto de datos, y no son los datos individuales. Por ejemplo, un promedio de edades representa a todas las edades del grupo, y no es la edad individual de uno de sus miembros, aunque pueda coincidir numéricamente con ella. Así, si el promedio de edades es 20 años y una de las personas del grupo tiene 20 años, el primer dato es una medida estadística y el segundo una medida individual. En otros términos, las medidas estadísticas no describen individuos, sino poblaciones o muestras. Por ejemplo, no tiene sentido explicar que una persona es anciana porque vive en una población cuyo promedio de edad es 70 años. 2) Son medidas representativas, es decir, intentan representar y sintetizar a todas las medidas individuales. El conjunto de todas las medidas individuales puede recibir diversos nombres, tales como muestra y población, con lo cual tiene sentido afirmar proposiciones tales como „una medida de posición representa una muestra o una población‟. Por ejemplo, es posible representar las notas obtenidas por un grupo de alumnos de diversas maneras: a) El promedio de las notas es de 7.35 puntos (en este caso usamos una medida de posición llamada media aritmética). b) La mitad de los alumnos ha obtenido una nota superior a 6,5 puntos (en este caso utilizamos otra medida de posición llamada mediana). c) La nota que más se ha repetido fue 7 puntos (en este caso usamos la medida de posición llamada modo). La pregunta acerca de cuál de las tres medidas de posición representa „mejor‟ al conjunto de datos individuales es el problema de la representatividad de la medida de posición, y la estadística suministra, F 10 9 8 7 6 5 4 3 2 1 1.99 2.99 3.99 lím superior (Ls)
  • 18. como se verá, diversos criterios para evaluar la mejor forma de representar un cierto número de datos individuales. 3) Son medidas que miden una variable, es decir, algún atributo o propiedad de los objetos. En el ejemplo anterior la variable medida es el rendimiento académico, pero también pueden obtenerse medidas de posición representativas de un conjunto de edades, de profesiones, de clases sociales, de puntuaciones de un test, de cantidad de dientes, etc. De otra manera: no tiene sentido decir que una medida de posición represente un conjunto de personas, pero sí tiene sentido decir que representan las edades de un conjunto de personas. Características de las principales medidas de posición Las medidas de posición pueden ser de tendencia central y de tendencia no central. Las primeras “se refieren a los valores de la variable que suelen estar en el centro de la distribución” (Kohan, 1994:69). Por ejemplo: la media aritmética, la mediana y el modo son las más conocidas, pero también está la media aritmética ponderada (útil cuando hay valores que se repiten y que requieren atención diferencial), la media geométrica (Kohan, 1994:71-72), la media armónica, la media antiarmónica, la media cuadrática, la media cúbica, etc. Las medidas de posición no centrales son los cuartiles, deciles y percentiles (Kohan, 1994:79), que reciben genéricamente el nombre de cuantiles o fractiles (5). De acuerdo a Botella (1993:99), las medidas de posición no centrales son datos o valores que ocupan una posición especial en la serie de datos. Cuando una medida de posición es un dato que ocupa un lugar central, la llamamos medida de tendencia central. En el siguiente cuadro se especifican las definiciones y características principales de las medidas de posición. Medida Definición Características MODO Es el dato o valor que más se repite, o sea, el de mayor frecuencia. Resulta útil si hay muchos datos repetidos (altas frecuencias). Puede calcularse cuando hay valores muy extremos. El modo muestral no es un estimador suficiente del modo poblacional porque no incluye todos los datos. En distribuciones multimodales es posible que la muestra no sea homogénea, y que esté constituída por varios estratos. Es posible convertir una distribución multimodal en una modal reorganizando los intervalos. Si una distribución no tiene modo, podría obtenerse reorganizando los datos en intervalos. MEDIANA Es el dato o valor que divide por la mitad la serie de datos ordenados creciente o decrecienteme nte, es decir, es el valor central de la serie. Es la medida más útil en escalas ordinales siempre que los valores centrales sean iguales. No está influenciada por los valores extremos (por ello por ejemplo puede aplicarse desconociendo estos o sea cuando hay límites superiores o inferiores abiertos). Puede usarse cuando hay intervalos abiertos, siempre que el orden de la mediana no se corresponda con ellos. Es útil cuando unos pocos datos difieren mucho del resto. No es útil si hay muchos datos repetidos (altas frecuencias). La mediana muestral no es un estimador suficiente de la mediana poblacional porque no incluye todos los datos. Es útil es distribuciones muy asimétricas (extremos no compensados). La mediana coincide con el Q2 (cuartil 2), el D5 (decil 5) y el P50 (percentil 50) (8). MEDIA ARITMÉTICA Es el promedio aritmético de todos los datos o valores. Está influenciada por los valores extremos (por ejemplo, no puede utilizarse cuando hay valores extremos desconocidos o intervalos abiertos, salvo que estos puedan cerrarse). No conviene cuando los valores extremos son muy altos o muy bajos. Es útil en distribuciones simétricas (con extremos compensados). No puede usarse en escalas nominales ni ordinales. Es siempre superior a la media geométrica y a la media armónica. La media muestral es un estimador suficiente de la media poblacional porque incluye todos los datos. No necesariamente coincide con alguno de los valores. La media aritmética tiene varios otras propiedades (7). CUANTIL Es el dato o valor que divide la serie ordenada de Es útil cuando hay gran cantidad de valores. Puede también utilizarse como medida de dispersión. Suelen utilizarse los cuartiles, los deciles y los percentiles.
  • 19. datos en partes iguales. -Cuartiles Valores que dividen la serie en cuatro partes iguales. Tres cuartiles dividen la serie en cuatro partes iguales. -Deciles Valores que dividen la serie en diez partes iguales. Nueve deciles dividen la serie en diez partes iguales. -Percentiles Valores que dividen la serie en cien partes iguales. Noventa y nueve percentiles dividen la serie en cien partes iguales. También se llaman centiles. Relación entre modo, mediana y media aritmética.- a) La experiencia indica que la relación entre estas tres medidas es: Modo = (3 . Mediana) – (2 . Media aritmética). Esta relación es conocida como la fórmula de Pearson. b) Cuanto más simétrica es una distribución (por ejemplo en una curva normal), más tienden a coincidir los valores de las tres medidas. Cálculo analítico de las medidas de posición: fórmulas Para calcular una determinada medida de posición puede haber diversas fórmulas. La elección de la fórmula adecuada dependerá de la forma en que estén organizados los datos individuales. En principio, los datos pueden estar organizados de cuatro maneras: 1) Datos desordenados. Por ejemplo, las edades de un grupo de cuatro personas son 17, 29, 17 y 14. Cuando se recolecta información, generalmente se obtienen datos desordenados, frente a lo cual convendrá ordenarlos. 2) Datos ordenados. Por ejemplo, las edades del mismo grupo de personas son 14, 17, 17 y 29, si hemos decidido ordenarlas en forma creciente, aunque también podemos ordenarlas decrecientemente. 3) Datos agrupados por frecuencia. Por ejemplo, hay dos edades de 17 años, una edad de 14 años y una edad de 29 años. O, lo que es lo mismo, la frecuencia de la edad 17 es 2, y la frecuencia de las restantes edades es 1. 4) Datos agrupados por intervalos. Por ejemplo, hay 3 edades comprendidas en el intervalo 14-17 años, y una edad comprendida en el intervalo 18-29 años. La estadística va agrupando los datos siguiendo el orden anterior. Cuanto más avance en este proceso, más habrá logrado sintetizar y organizar los datos individuales. En el siguiente cuadro se sintetizan las diversas reglas o fórmulas para calcular las medidas de posición, según como estén organizados los datos individuales y según los niveles de medición que admiten. Nótese que en algunos casos no es posible especificar ninguna fórmula, y entonces el cálculo se hará siguiendo la regla indicada para los mismos. Por ejemplo: “para calcular el modo de un conjunto de datos ordenados, debe buscarse el dato o valor que más se repite” (6).
  • 20. Cálculo de medidas de posición según los niveles de medición que admiten y según la forma de organización de los datos individuales. Preparado por: Pablo Cazau Medida de posición Nivel de medición Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos Modo Nominal Valor que más se repite Valor con la mayor frecuencia ------------ Ordinal Valor que más se repite Valor con la mayor frecuencia ------------ Cuantitativo Valor que más se repite Valor con la mayor frecuencia f - fant Mo = Li + ---------------------- . a (f - fant) + (f- fpos) Mediana Ordinal Valor central de la serie ordenada de valores Valor que corresponde a la frecuencia acumulada n/2 ------------ Cuantitativo Valor central de la serie ordenada de valores Valor que corresponde a la frecuencia acumulada n/2 n/2 - Fant Mn = Li + ---------------------- . a f Media aritmética Cuantitativo x X = ----- n x.f) X = --------- n xm.f) X = --------- n Cuartil Cuantitativo Valores que dividen la serie en cuatro partes iguales. Por tanto, hay 3 cuartiles: Q1, Q2 y Q3 Valor que corresponde a la frecuencia acumulada t.n/4, expresión llamada cuartil de orden o Q 0 (1) Donde t puede valer 1, 2 o 3. Por tanto, hay 3 cuartiles: Q1, Q2 y Q3 t.n/4 - Fant Qt = Li + ---------------- . a f Decil Cuantitativo Valores que dividen la serie en diez partes iguales. Por tanto, hay 9 deciles: desde el D1 hasta el D9 Valor que corresponde a la frecuencia acumulada t.n/10, expresión llamada decil de orden o D 0 (1) Donde t puede valer entre 1 y 9. Por tanto, hay 9 deciles: desde el D1 hasta el D9 t.n/10 - Fant Dt = Li + ---------------- . a f Percentil Cuantitativo Valores que dividen la serie en cien parte iguales. Por tanto, hay 99 percentiles: desde el P1 hasta el P99 Valor que corresponde a la frecuencia acumulada t.n/100, expresión llamada percentil de orden o P 0 (1) Donde t puede valer entre 1 y 99. Por tanto, hay 99 percentiles: desde el P1 hasta el P99 t.n/100 - Fant Pt = Li + ---------------- . a f (1) Si no puede identificarse unívocamente una frecuencia acumulada, y por tanto un valor determinado de x, puede ser calculada por interpolación. En realidad, los cuantiles se utilizan preferentemente cuando los datos están agrupados por intervalos.
  • 21. A continuación, se suministran ejemplos de cómo calcular cada medida de posición teniendo en cuenta las reglas y fórmulas del esquema anterior. a) Cálculo del modo para datos ordenados (niveles nominal, ordinal y cuantitativo) Nivel nominal: perro, perro, gato, gato, gato, gato (por tanto, el modo es gato) Nivel ordinal: grande, grande, mediano, mediano, mediano, chico, chico, chico, chico (por tanto, el modo es chico) Nivel cuantitativo: 6, 6, 7, 7, 7, 7, 8, 9, 10, 10, 11 (por tanto, el modo es 7) b) Cálculo del modo para datos agrupados en frecuencia (niveles nominal, ordinal y cuantitativo) Nivel nominal Nivel ordinal Nivel cuantitativo x (religión) f Católicos 56 Protestantes 78 Judíos 45 Budistas 24 Otros 31 x (dureza) f Muy duro 18 Duro 8 Intermedio 13 Blando 16 Muy blando 7 x (edad) f 30 años 6 31 años 14 32 años 19 33 años 24 34 años 15 El modo es “Protestantes” El modo es “Muy duro” El modo es “33” años Como puede verse, el modo es el valor de la variable x que está más repetido. c) Cálculo del modo para datos agrupados por intervalos (nivel cuantitativo) x (cantidad piezas dentarias) f 10-18 6 19-27 8 28-36 24 37-45 2 n=40 Una vez confeccionada la tabla de frecuencias por intervalos, se procede en dos pasos: a) Se identifica cuál es el intervalo de mayor frecuencia. En este caso, es 28-36. b) Se aplica la fórmula correspondiente: f - fant Mo = Li + ---------------------- . a (f - fant) + (f- fpos) 24 - 8 Mo = 28 + ---------------------- . 8 = 31.37 piezas dentarias (24 - 8) + (24 - 2) d) Cálculo de la mediana para datos ordenados (niveles ordinal y cuantitativo) Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos, el central es la mediana. Si hay un número par, la mediana es el promedio de los dos datos centrales. Ejemplos para el nivel ordinal: Número impar de datos: alto, alto, alto, alto, medio, medio, medio, medio, medio, medio, bajo (por tanto, la mediana es = medio). Número par de datos: En el nivel ordinal no puede calcularse un promedio si los dos valores centrales son distintos. Si los dos valores centrales son iguales, ese es el valor de la mediana. Ejemplos para el nivel cuantitativo:
  • 22. Número impar de datos: 13, 13, 13, 14, 14, 17, 18, 19, 19 (por tanto, la mediana es 14) Número par de datos: 11, 11, 12, 13, 14, 15, 16, 18, 18, 18 (por tanto, la mediana es el promedio entre 14 y 15, o sea 14.5). e) Cálculo de la mediana para datos agrupados por frecuencia (niveles ordinal y cuantitativo) x (días) f F 1 7 7 2 9 16 3 14 30 4 10 40 5 2 42 n = 42 La variable es aquí cantidad de días de posoperatorio. El procedimiento es el siguiente: a) Se calcula la mediana de orden: Mn0 = n/2 = 42/2 = 21 b) Se identifica cuál es el valor de x que corresponde a la frecuencia acumulada que contiene el valor 21: Dicha frecuencia acumulada es 30, y, por lo tanto Mn = 3 días f) Cálculo de la mediana para datos agrupados por intervalos (nivel cuantitativo) x f F 0-3 8 8 3-6 10 18 6-9 11 29 9-12 12 41 12-15 9 50 15-18 7 57 18-21 6 63 21-24 5 68 n = 68 Nótese que para calcular la mediana se precisa información sobre frecuencias acumuladas, razón por la cual se ha agregado la columna respectiva. Se procede en dos pasos: a) Se identifica cuál es el intervalo que debe ser considerado, para lo cual se calcula la mediana de orden: Mn0 = n/2 = 68/2 = 34 Tomando en cuenta las frecuencias acumuladas, el valor 34 entra en la frecuencia acumulada 41, y, por lo tanto, el intervalo a considerar será 9-12. b) Se aplica la fórmula de mediana: n/2 - Fant Mn = Li + ---------------------- . a f 34 - 29 Mn = 9 + ---------------------- . 3 = 10.25 12 Téngase presente que si la variable fuera discreta y medible sólo en números enteros, sería Mn = 10. Si la variable fuese cantidad de materias aprobadas, el alumno con 10 materias aprobadas está en el lugar central de la serie, es decir, habría un 50% de compañeros con menos materias aprobadas y un 50% con más materias aprobadas.
  • 23. g) Cálculo de la media aritmética para datos ordenados (nivel cuantitativo) Dados los siguientes dados ordenados: 2-2-3-4-4-4-5-5-6-7-8-10 Se puede calcular la media aritmética aplicando la fórmula: x X = ----- n X = ---------------------------------------- = --------- = 5 12 12 h) Cálculo de la media aritmética para datos agrupados por frecuencia (nivel cuantitativo) x (edad) f f . x 18 3 54 19 1 19 20 2 40 23 4 42 25 2 50 26 2 52 28 2 56 n = 16 363 Nótese que para el cálculo de la media aritmética se ha agregado una columna con los productos de x . f. Se aplica la fórmula de media aritmética: x.f) 54+19+40+42+50+52+56 363 X = --------- = ----------------------------------- = -------- = 22.68 años = 23 años. n 16 16 i) Cálculo de la media aritmética para datos agrupados por intervalos (nivel cuantitativo) x f xm xm.f 0-3 8 1.5 12 3-6 10 4.5 45 6-9 11 7.5 82.5 9-12 12 10.5 126 12-15 9 13.5 121.5 15-18 7 16.5 115.5 18-21 6 19.5 117.6 21-24 5 22.5 112.5 n = 68 732.5 Nótese que para el cálculo de la media aritmética se ha agregado una columna con los puntos medios de los intervalos y otra con los productos de las frecuencias por los puntos medios. Se aplica la fórmula de media aritmética: xm.f) 732.5 X = ------------- = ---------- = 10.77 n 68
  • 24. El método corto y el método clave son dos métodos alternativos para calcular la media aritmética, siendo el último sólo aplicable cuando el tamaño de los intervalos es constante. De acuerdo al método corto, la media aritmética se calcula sumando al punto medio del intervalo de mayor frecuencia, el cociente entre la sumatoria de los productos entre cada frecuencia y la diferencia entre el punto medio de cada intervalo menos el punto medio del intervalo de mayor frecuencia, y la sumatoria de frecuencias (n). De acuerdo al método clave, la media aritmética se calcula sumando al punto medio del intervalo de mayor frecuencia, el producto entre el tamaño del intervalo y un cociente, donde el numerador es la sumatoria de los productos entre las frecuencias y el llamado intervalo unitario (que resulta de dividir la diferencia entre cada punto medio y el punto medio del intervalo de mayor frecuencia, por el tamaño del intervalo), y donde el denominador es la sumatoria de frecuencias (n). j) Cálculo del cuantil para datos ordenados (nivel cuantitativo) 1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9 Si en la serie anterior resaltamos los tres valores que la dividen en cuatro partes iguales, esos valores serán los cuartiles Q1, Q2 y Q3: 1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9 Q1 = 2 Q2 = 3 Q3 = 6 Sin embargo, es más práctico agrupar los datos por frecuencias o por intervalos, a los efectos del cálculo de los cuantiles (cuartiles, deciles o percentiles). k) Cálculo del cuantil para datos agrupados por frecuencia (nivel cuantitativo) x (edad) f F 18 3 3 19 1 4 20 2 6 23 4 10 25 2 12 26 2 14 28 2 16 n = 16 Se pueden calcular, por ejemplo, Q1, Q2 y Q3. El primer paso consiste en averiguar los respectivos cuartiles de orden. Para Q1 es Q 0 = t.n/4 = 1.16/4 = 4 Para Q2 es Q 0 = t.n/4 = 2.16/4 = 8 Para Q3 es Q 0 = t.n/4 = 3.16/4 = 12 El segundo y último paso consiste en identificar el valor de x correspondiente al cuartil de orden respectivo. Q1 = 4 Q2 = Está entre 20 y 23 Q3 = 25 l) Cálculo del cuantil para datos agrupados por intervalos (nivel cuantitativo) x (puntaje) f F 0-10 1 1 10-20 3 4 20-30 5 9 30-40 6 15 40-50 10 25
  • 25. 50-60 12 37 60-70 13 50 70-80 9 59 80-90 4 63 90-100 3 66 n = 66 Se pueden calcular, por ejemplo, Q3, D7 y P45. El primer paso consiste en averiguar los cuantiles de orden: Para Q3 es Q 0 = t.n/4 = 3.66/4 = 49.5 Para D7 es D 0 = t.n/10 = 7.66/10 = 46.2 Para P45 es P 0 = t.n/100 = 45.66/100 = 29,7 El segundo paso consiste en identificar el intervalo que corresponde al cuantil de orden en la columna de frecuencias acumuladas: El valor 49.5 corresponde al intervalo 60-70 El valor 46.2 corresponde al intervalo 60-70 El valor 29.7 corresponde al intervalo 50-60 El tercer y último paso consiste en aplicar la fórmula basándose en la información del intervalo identificado. Si la fórmula pide el dato de la frecuencia acumulada anterior y esta no existe, se coloca 0 (cero). En el ejemplo del cálculo del D7, se aplica la siguiente fórmula: t.n/10 - Fant Dt = Li + ------------------- . a f 46.2 - 37 D7 = 60 + ---------------- . 11 = 67.78 13 Cálculo visual de las medidas de posición: gráficos Es posible utilizar un procedimiento gráfico para calcular ciertas medidas de posición, tales como el modo y la mediana. Por ejemplo, el modo se puede calcular a partir de un histograma. La mediana también puede calcularse con un histograma, aunque lo más habitual es hacerlo mediante una ojiva. a) Cálculo del modo mediante un histograma Una vez construido el histograma a partir de una tabla de datos agrupados por intervalos: 1) Se considera el rectángulo de mayor frecuencia (mayor altura). 2) Dentro del mismo se trazan dos rectas como está indicado en el gráfico siguiente. 3) Por la intersección de ambas rectas se traza una recta perpendicular al eje de absisas. 4) El punto del eje de las absisas por donde pasa la recta perpendicular corresponde al modo (en el ejemplo, el modo es 4.80).
  • 26. b) Cálculo de la mediana mediante una ojiva En este caso pueden utilizarse dos procedimientos: 1) Una vez trazada la ojiva, a) se ubica en el eje de las ordenadas a la mediana de orden (Mn 0 ); b) por la mediana se orden se traza una recta paralela al eje x hasta que intersecte la ojiva; c) por este punto de intersección se traza una recta paralela al eje y hasta que intersecte el eje x. En este punto estará ubicada la mediana. 2) Se trazan en el mismo eje de coordenadas las ojivas creciente y decreciente de la misma distribución de datos. Luego, a) se traza una recta paralela al eje y que pase por la intersección de ambas ojivas y por algún punto del eje x; b) el punto del eje x por donde pasa dicha recta corresponde a la mediana. Criterios de elección de medidas de posición 1) La elección de una medida de posición debe tener en cuenta el nivel de medición de la variable que se mide: Nivel nominal Nivel ordinal Nivel cuantitativo Modo SI SI SI Mediana NO SI. Siempre y cuando los dos valores centrales con n = par sean iguales. En caso contrario usar el Modo. SI Media aritmética NO NO SI Cuando no haya valores extremos alejados ni valores extremos abiertos. En caso contrario, usar el Modo o la Mediana (*). Cuantiles NO NO SI (*) Hay al menos tres situaciones donde se preferirá la mediana a la media (Botella, 1993:115): a) cuando la variable es ordinal, b) cuando haya valores extremos que distorsionen la interpretación de la media, y c) cuando haya intervalos abiertos, como en el caso de variables como ingresos mensuales. 2) La elección de una medida de posición debe tener en cuenta la forma en que están organizados los datos. Por ejemplo: “en ocasiones, el azar hace que un solo elemento no representativo se repita lo suficiente para ser el valor más frecuente del conjunto de datos. Es por esta razón que rara vez utilizamos el modo de un conjunto de datos no agrupados como medida de tendencia central. Por esta razón, debemos calcular el modo en datos agrupados en una distribución de frecuencias” (Levin y Rubin, 1996). 3) La elección de una medida de posición de una muestra debe tener en cuenta el grado de fidelidad con que representa a la medida de posición poblacional. f 5 4 3 2 1 1 4 7 10 x
  • 27. Botella (1993:114) afirma, en este sentido, que si no hay ningún argumento en contra, siempre se preferirá la media, no sólo porque permite la utilización de otras medidas estadísticas (por ejemplo el desvío estándar), sino porque es más representativa de la media poblacional que el modo o la mediana con respecto al modo o la mediana poblacional. 2.5 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE DISPERSIÓN Definición Las medidas de dispersión, llamadas también medidas de variabilidad o de variación, son datos estadísticos que informan acerca del grado de dispersión o variabilidad de los datos individuales de una muestra o una población, respecto de una variable. En otras palabras, indican el grado de homogeneidad o de heterogeneidad del conjunto de los datos. Por ejemplo, indican cuán alejados o cuán cercanos se encuentran los datos de algún valor central como la media aritmética: una muestra cuyos datos son 3-4-5 es menos dispersa que una muestra cuyos datos son 1-4-7. Algunos autores (Botella, 1993:325) han relacionado la dispersión de los datos -para los niveles de medición nominal y ordinal- con los conceptos de entropía y de incertidumbre e incluso han propuesto a la primera como una medida que permite cuantificar la dispersión: a mayor dispersión de los datos, hay mayor entropía y mayor incertidumbre. Por ejemplo, las siguientes dos muestras tienen cada una 40 sujetos que han elegido determinados colores para representar la idea de paz: Blanco Verde Amarillo Celeste Rosa Muestra A: 28 3 3 3 3 Muestra B: 8 8 8 8 8 Si habría que adivinar qué color eligió determinado sujeto de la muestra A, cabría proponer el color blanco porque fue el más elegido. En cambio, la incertidumbre aumenta si habría que elegir lo mismo en la muestra B. En esta muestra hay más entropía, es decir, más desorden, mientras que en la muestra A los datos están más ordenados alrededor de un valor muy repetido, como el blanco. La muestra B es más dispersa, es decir, más heterogénea, mientras que la muestra A es menos dispersa, es decir, más homogénea. La homogeneidad no debe relacionarse con la repetición de frecuencias (3-3-3-3) sino con la repetición de valores iguales o muy cercanos entre sí (28 sujetos eligieron blanco). Una medida de posición no alcanza para describir adecuadamente una muestra. Se obtiene una información más precisa y completa de ella cuando además se utiliza una medida de dispersión. Por ejemplo, la muestra 1 de datos 3-4-5 y la muestra 2 de datos 1-4-7 tienen la misma medida de posición: la media aritmética en ambos casos es 4. Sin embargo, se trata evidentemente de dos muestras diferentes, por cuanto la segunda es más dispersa que la primera, es decir, sus datos están más alejados de la media aritmética. En la primera muestra el promedio de las desviaciones respecto de la media es 1 (de 3 a 4 hay 1, y de 5 a 4 hay 1), mientras que el promedio de las desviaciones en la segunda muestra es 3 (de 1 a 4 hay 3, y de 7 a 4 hay 3). Por lo tanto, ambas muestras pueden representarse de la siguiente manera: Muestra 1: 4 + 1 (se lee 4 más/menos 1) Muestra 2: 4 + 3 (se lee 4 más/menos 3). Las medidas de dispersión tienen una importancia adicional porque (Levin y Rubin: 1996): a) Proporcionan información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos. b) A veces resulta indispensable conocer la dispersión de una muestra porque muestras demasiado dispersas pueden no ser útiles para poder sacar conclusiones útiles sobre la muestra. Levin y Rubin indican que, “ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de distinguir los que presentan esa dispersión antes de abordar esos problemas”. Características de las principales medidas de dispersión
  • 28. En general, las medidas de dispersión más utilizadas sirven para la medición de variables en el nivel cuantitativo. Seguidamente se examinarán las siguientes medidas de dispersión: rango, desviación media, varianza, desvío estándar, desvío intercuartílico y coeficiente de variación. En el siguiente cuadro se especifican las definiciones y características principales de las medidas de dispersión. Medida Definición Características RANGO Es la diferencia entre los valores máximo y mínimo de la variable. De uso limitado, no es una buena medida de dispersión. Es muy sensible a los valores extremos e insensible a los valores intermedios. Está muy vinculada al tamaño de la muestra: es probable que la muestra de mayor tamaño presente mayor rango aunque las poblaciones de referencia tengan igual dispersión (Botella, 1993). Se llama también amplitud. DESVIACION MEDIA Es el promedio de las desviaciones de todos los valores respecto de la media aritmética. Considera desviaciones absolutas, es decir, no las considera con valores negativos (de otro modo, el promedio de las desviaciones, por un teorem de la media aritmética, daría cero). Esto representa una dificultad de cálculo, por lo que se utiliza la varianza. VARIANZA Es el promedio de los cuadrados de las desviaciones con respecto a la media aritmética. Es un valor esencialmente no negativo (10). Matemáticamente es buena medida de dispersión, pero da valores muy altos, por lo cual en estadística descriptiva se utiliza el desvío estándar (9). Se apoya en una propiedad de la media aritmética según la cual la suma de los cuadrados de las desviaciones respecto a la media es un valor mínimo. La varianza permite comparar la dispersión de dos o más muestras si sus medias aritméticas son similares (Botella, 1993). Si se suma una constante a un conjunto de valores, la varianza no se modifica (Botella, 1993). Si se multiplica por una constante a un conjunto de valores, la varianza d los nuevos valores el igual al producto de la varianza de las originales po el cuadrado de la constante (Botella, 1993). DESVIO ESTÁNDAR Es la raíz cuadrada de la varianza (11) Es un valor esencialmente no negativo (10). Es la medida de dispersión más utilizada. Se la emplea conjuntamente con la media aritmética como medida de posición. La raíz cuadrada permite compensar el cuadrado de la varianza. Si se suma una constante a un conjunto de valores, el desvío estándar no se modifica (Botella, 1993). Si se multiplica por una constante a un conjunto de valores, el desvío estándar de los nuevos valores el igual al producto del desvío estándar de las originales por el cuadrado de la constante (Botella, 1993). Se llama también desviación típica, o también desviación estándar (Pagano, 1998:71). DESVIO INTER CUARTILICO Es la diferencia entre el Q3 y el Q1. Expresa el rango del 50% central de la serie de valores. Se llama también amplitud intercuartil. COEFICIENTE DE VARIACION Es el cociente entre el desvío estándar y la media aritmética. Permite comparar la dispersión de dos o más muestras con diferentes medias aritméticas: a mayor coeficiente de variación, mayor dispersión. No se expresa en unidades como la variable en estudio (por ejemplo, par edad, no se expresa en años). Puede considerarse como un índice de la representatividad de la media aritmética: cuanto mayor es el coeficiente de variación, menos representativa es la media (Botella, 1993). Cálculo analítico de las medidas de dispersión: fórmulas En este ítem se indican las fórmulas para calcular medidas de dispersión, y se suministran ejemplos de cada caso.
  • 29. Cálculo de las medidas de dispersión según la forma de organización de los datos individuales Preparado por: Pablo Cazau Medida de dispersión Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos Rango R = xmay - xmen R = xmay - xmen No Desviación media | x – X | Dm = --------------- n | x – X | . f Dm = ------------------ n | xm – X | . f Dm = -------------------- n Desvío estándar ( x – X )2 S = ---------------- n El segundo miembro es a la raíz cuadrada ( x – X )2 . f S = ------------------- n El segundo miembro es a la raíz cuadrada ( xm – X )2 . f S = ---------------------- n El segundo miembro es a la raíz cuadrada Varianza Es el cuadrado del desvío estándar (S 2 ) Es el cuadrado del desvío estándar (S 2 ) Es el cuadrado del desvío estándar (S 2 ) Desvío intercuartílico DQ = Q3 – Q1 DQ = Q3 – Q1 DQ = Q3 – Q1 Coeficiente de variación S CV = ----- X S CV = ----- X S CV = ----- X Cuando hay que calcular varianza o desvío estándar poblacionales, se utiliza „n‟ en el denominador, pero cuando se calculan las correspondientes medidas muestrales (o cuando la muestra es muy pequeña), se utilizará „n–1‟ (12). a) Cálculo del rango para datos ordenados y para datos agrupados por frecuencia Se puede aplicar a estas muestras la fórmula del Rango R = xmay - xmen Muestra 1: 80, 100, 100, 110, 120. Aquí el rango R es = 120 – 80 = 40. Muestra 2: 30, 50, 70, 120, 180. Aquí el rango R es = 180 – 30 = 150 Como se ve, la muestra 2 es más dispersa porque tiene mayor rango. No se puede calcular el rango para datos agrupados por intervalos porque se desconocen cuáles son los valores máximo y mínimo. b) Cálculo de la desviación media para datos ordenados La serie ordenada de datos puede ser la siguiente: 2, 3, 5, 6, 7, 9, 10 Como primer paso se calcula la media aritmética: 2+3+5+6+7+9+10 X = --------------------------- = 6 7 Como segundo y último paso, se calcula la desviación media: | x – X | |2-6| + |3-6| + |5-6| + |6-6| + |7-6| + |9-6| + |10-6| Dm = --------------- = --------------------------------------------------------------------- = 2.29 N 7 c) Cálculo de la desviación media para datos agrupados por frecuencia A la siguiente tabla de frecuencias (f) deberá agregarse una columna (f.x) para calcular la media aritmética, y luego otras dos columnas (x-X) y (| x-X | . f) para calcular la desviación media: x f f . x | x - X | | x - X | . f 70 45 3150 35 1575
  • 30. 80 63 5040 25 1575 90 78 7020 15 1170 100 106 10600 5 530 110 118 12980 5 590 120 92 11040 15 1380 130 75 9750 25 1875 140 23 3220 35 115 n = 600 62800 160 8810 Primero se calcula la media aritmética: x.f) 62800 X = --------- = ------------ = 104.66 = 105 n 600 Finalmente se calcula la desviación media: | x – X | . f 8810 Dm = ------------------ = ------------ = 14.68 n 600 d) Cálculo de la desviación media para datos agrupados por intervalos Se procede de la misma manera que en el caso anterior, con la diferencia que en lugar de considerar los valores x, se consideran los puntos medios de los intervalos (xm). e) Cálculo del desvío estándar para datos ordenados Para la serie de valores 5, 6, 10, su media aritmética es 7. Una vez conocido este valor, puede obtenerse el desvío estándar de la siguiente forma: ( x – X ) 2 (5-7) 2 + (6-7) 2 + (10-7) 2 S = ------------------- = ------------------------------------ = 4.66 = 2.2 n 3 f) Cálculo del desvío estándar para datos agrupados por frecuencia x (edad) f f . x x – X ( x – X )2 ( x – X )2 . f 18 3 54 -5 25 75 19 1 19 -4 16 16 20 2 40 -3 9 18 23 4 42 0 0 0 25 2 50 +2 4 8 26 2 52 +3 9 18 28 2 56 +5 25 50 n = 16 363 185 Primero se calcula la media aritmética, que arroja un valor de X = 23. Finalmente, se aplica la fórmula de desvío estándar: ( x – X ) 2 . f 185 S = ---------------------- = ------------ = 11.56 = 3.2 n 16 Puede también utilizarse una fórmula más sencilla a los efectos del cálculo (Bancroft, 1960:80): x 2 .f S = ----------- - (X) 2 n Donde el primer término del segundo miembro es a la raíz cuadrada.
  • 31. g) Cálculo del desvío estándar para datos agrupados por intervalos Se procede del mismo modo que en el caso anterior, con la diferencia que se calcula el punto medio xm de los intervalos en lugar del valor x. h) Cálculo de la varianza El procedimiento es el mismo que en el caso del desvío estándar. Sólo debe tenerse presente que la varianza es el cuadrado del desvío estándar. i) Cálculo del desvío intercuartílico Dada la siguiente serie, obtener el desvío intercuartílico: x f 0-20 2 20-40 4 40-60 5 60-80 8 80-100 1 n = 20 Primero se calculan los Q3 y Q1 aplicando la fórmula explicada en medidas de posición. Finalmente, se aplica la fórmula del desvío intercuartílico: DQ = Q3 – Q1 = 70 – 35 = 35 Una variante es el empleo del desvío semi-intercuartílico, es decir, el desvío intercuartílico dividido dos. Se trata de una medida de dispersión propuesta por Galton en 1889, y que resulta recomendable cuando hay algún valor extremo que pudiera distorsionar la representatividad de la media aritmética (Botella, 1993). j) Cálculo del coeficiente de variación Si una muestra tiene una media aritmética 111 y el desvío estándar 18, entonces su coeficiente de variación es: S 111 CV = ----- = ---------- = 0.16 X 18 Cuanto mayor es el CV, mayor es la dispersión. También puede calcularse un coeficiente de variación porcentual, multiplicando CV por 100. En el ejemplo: CV% = 0.16 . 100 = 16%. Cálculo visual de las medidas de dispersión: gráficos Botella (1993:143) menciona dos procedimientos para expresar gráficamente medidas de dispersión: el diagrama de caja y bigotes (Tukey, 1977) y el diagrama de bigotes verticales. Diagrama de caja y bigotes
  • 32. Puede apreciarse a simple vista que la distribución de valores B es más dispersa que A no sólo porque la diferencia entre los valores máximo y mínimo (rango) es mayor, sino también porque lo es la diferencia entre los cuartiles primero y tercero. Diagrama de bigotes verticales El gráfico representa las medias aritméticas de nivel de ansiedad de diversos cursos de alumnos. En cada media aritmética se han trazado bigotes verticales que representan los respectivos desvíos estándar. Puede entonces apreciarse, por ejemplo, que a medida que aumenta la media aritmética, tiende también a aumentar el desvío estándar. 2.6 SÍNTESIS DE LOS DATOS: ASIMETRÍA Y CURTOSIS Un conjunto de datos o distribución de datos queda exhaustivamente descrito cuando pueden especificarse una medida de posición, una medida de dispersión, un índice de asimetría y un índice de curtosis. Las medidas de asimetría y curtosis se refieren a la „forma‟ de la distribución y, aunque no son tan importantes como las medidas de posición y dispersión y son muy poco utilizadas, aportan también información sobre la distribución de los valores de una muestra o población. Asimetría La asimetría hace referencia al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central (Botella, 1993:169). Por ejemplo, en la siguiente tabla se puede apreciar que en el curso A muchos alumnos obtuvieron buenas notas, en el curso C muchos alumnos obtuvieron bajas notas, y en el curso B están equilibrados. x (nota) f (curso A) f (curso B) f (curso C) 10 5 2 1 75 80 85 90 95 100 105 110 115 120 125 130 A B Xmín Xmáx XmáxXmín Q1 Q3 Q1 Q3 Nivel de ansiedad 4° 5° 6° 7° 8° Curso
  • 33. 9 10 5 2 8 15 8 3 7 22 10 6 6 16 15 8 5 12 20 12 4 8 15 16 3 6 10 22 2 3 8 15 1 2 5 10 0 1 2 5 n = 100 n = 100 n = 100 Representando las tres distribuciones de datos con curvas en un gráfico con las frecuencias en las ordenadas y los valores de x en las absisas, se obtiene lo siguiente: Han sido propuestos diversos índices de asimetría para cuantificar el grado de asimetría de una distribución de datos. De entre ellos pueden citarse los siguientes (Botella, 1993:170): Indice de asimetría media- modo Indice de asimetría media-mediana (Kohan, 1994:93) Indice de asimetría de Pearson Indice de asimetría intercuartílico Es la distancia entre la media y el modo, medido en desvíos estándar: X - Mo As = ------------- S Es la distancia entre la media y la mediana multiplicada por tres, medida en desvíos estándar: X - Mn As= ------------- S Es el promedio de los valores z elevados al cubo (donde z es el cociente entre la diferencia entre x y la media aritmética, y el desvío estándar). Es el cociente entre la diferencia Q3-Q2 y Q2- Q1, y la diferencia Q3- Q1 Los tres índices se interpretan de manera similar: si resultan ser números negativos, la curva será asimétrica hacia la derecha, y si dan resultados positivos, la curva será asimétrica a la izquierda. El resultado 0 (cero) indicará asimetría nula (simetría perfecta). Existen otros muchos tipos de curvas: parabólicas, hiperbólicas, bimodales, etc, pero una forma usual es la curva simétrica, llamada también curva normal o campana de Gauss. Curtosis Curso A Curso CCurso B Media Modo Modo MediaMedia Modo Asimetría negativa (curva hacia la derecha) Asimetría cero Asimetría positiva (curva hacia la izquierda)
  • 34. La curtosis hace referencia a la forma de la curva de la distribución de datos en tanto muy aguda (mayor apuntamiento o mayor curtosis: leptocúrtica) o muy aplanada (menor apuntamiento o menor curtosis: platicúrtica). Del mismo modo que sucede con la asimetría, también se han propuesto diversos índices de curtosis. Si el índice es positivo, su apuntamiento es mayor que el de una distribución normal y la curva será leptocúrtica, y si es negativo, su apuntamiento es menor y la curva será platicúrtica (Botella, 1993). NOTAS (1) Según Botella (1993:49) la “distribución de frecuencias es un instrumento diseñado para cumplir tres funciones: a) proporcionar una reorganización y ordenación racional de los datos recogidos; b) ofrecer la información necesaria para hacer representaciones gráficas; y c) facilitar los cálculos necesarios para obtener los estadísticos muestrales”. (2) Cuando se confecciona una tabla de frecuencias por intervalos con la intención de elaborar gráficos o medidas estadísticas a partir de ella, deben asumirse ciertos supuestos que implican un margen de error, pero que son imprescindibles. Estos supuestos, llamados supuestos de concentración intraintervalo, son dos. a) El supuesto de concentración en el punto medio del intervalo, según el cual todos los valores de la variable son el mismo, a saber, el punto medio del intervalo. b) El supuesto de distribución homogénea, según el cual “los valores incluidos en un intervalo se reparten con absoluta uniformidad en su interior. Es decir, que si en un intervalo hay cinco observaciones [valores observados en la variable] aceptaremos que sus valores son los que tendríamos si partiéramos al intervalo en cinco subintervalos de igual amplitud y asignáramos a cada individuo el punto medio de un subintervalo” (Botella, 1993:56). (3) Hay quienes recurren a la fórmula de Sturges para calcular la cantidad de intervalos que resulta deseable tomar en función del tamaño de la muestra. Esta fórmula es: Número de intervalos = 1 + (log n / log 2), donde n designa el tamaño de la muestra. Por ejemplo, aplicando la fórmula para n = 40, la cantidad deseable de intervalos es 6.3, con lo cual podrán elegirse entre 6 o 7 intervalos. Una vez determinada la cantidad de intervalos, sólo resta dividir el tamaño de la muestra por 6 o 7, de lo que resultará el tamaño de cada intervalo. (4) Por ejemplo, las medidas de posición son aquellas que “caracterizan la posición de un grupo respecto de una variable” (Kohan, 1994:69). Otras definiciones se refieren a la utilidad de estas medidas, y entonces por ejemplo se definen como “índices diseñados especialmente para revelar la situación de una puntuación con respecto a un grupo, utilizando a éste como marco de referencia” (Botella, 1993:83). (5) Estrictamente hablando, ciertos cuantiles como el cuartil 2, el decil 5 y el percentil 50 resultan ser medidas de tendencia central, ya que coinciden con la mediana. (6) Estrictamente, dato y valor no son sinónimos, aunque aquí se emplearán indistintamente ambas expresiones. El valor es uno de los componentes del dato: los otros dos son la unidad de análisis y la variable. (7) Botella (1993:105-111) describe seis propiedades de la media aritmética: 1) La suma de las diferencias de n puntuaciones de la media aritmética, o puntuaciones diferenciales, es igual a cero. 2) La suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es menor que con respecto a cualquier otro valor. 3) Si sumamos una constante a un conjunto de puntuaciones, la media aritmética quedará aumentada en esa misma constante. 4) Si multiplicamos una constante a un conjunto de puntuaciones, la media aritmética quedará multiplicada por esa misma constante. 5) La media total de un grupo de puntuaciones, cuando se conocen los tamaños y medias de varios subgrupos hechos a partir del grupo total, mutuamente exclusivos y exhaustivos, puede obtenerse ponderando las medias parciales a partir de los tamaños de los subgrupos en que han sido calculadas. 6) Una variable Leptocúrtica PlaticúrticaMesocúrtica
  • 35. definida como la combinación lineal de otras variables tiene como media la misma combinación lineal de las medias de las variables intervinientes en su definición. (8) Equivalencias entre cuantiles (Botella, 1993:89): Cuartiles Deciles Percentiles D1 P10 D2 P20 Q1 P25 D3 P30 D4 P40 Q2 D5 P50 D6 P60 D7 P70 Q3 P75 D8 P80 D9 P90 (9) “Para la varianza, las unidades son el cuadrado de las unidades de los datos. Estas unidades no son intuitivamente claras o fáciles de interpretar. Por esta razón, tenemos que hacer un cambio significativo en la varianza para calcular una medida útil de la desviación, que sea menos confusa. Esta medida se conoce como la desviación estándar, y es la raíz cuadrada de la varianza. La desviación estándar, entonces, está en las mismas unidades que los datos originales” (Levin y Rubin, 1996). La varianza como tal se utiliza más frecuentemente en estadística inferencial (Pagano, 1998:77). (10) “La raíz cuadrada de un número positivo puede ser tanto positiva como negativa. Cuando tomamos la raíz cuadrada de la varianza para calcular la desviación estándar, los estadísticos solamente consideran la raíz cuadrada positiva” (Levin y Rubin, 1996). (11) La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están localizados los valores de una distribución de frecuencias con relación a la media. El teorema de Chebyshev dice que no importa qué forma tenga la distribución, al menos 75% de los valores caen dentro de + 2 desviaciones estándar a partir de la media de la distribución, y al menos 89% de los valores caen dentro de + 3 desviaciones estándar a partir de la media. Con más precisión: Aproximadamente 68% de los valores de la población cae dentro de + 1 desviación estándar a partir de la media. Aproximadamente 95% de los valores estará dentro de + 2 desviaciones estándar a partir de la media. Aproximadamente 99% de los valores estará en el intervalo que va desde tres desviaciones estándar por debajo de la media hasta tres desviaciones estándar por arriba de la media (Levin y Rubin, 1996). (12) Esto se debe a que “los especialistas en estadística pueden demostrar que si tomamos muchas muestras de una población dada, si encontramos la varianza de la muestra para cada muestra y promediamos los resultados, entonces este promedio no tiende a tomar el valor de la varianza de la población, a menos que tomemos n–1 como denominador de los cálculos” (Levin y Rubin, 1996). (13) El concepto de distribución de frecuencias es uno de los más básicos de la estadística descriptiva, y hace referencia a un conjunto de valores de una variable ordenados de acuerdo con sus frecuencias. Las distribuciones de frecuencias pueden expresarse en forma de tablas, gráficos, medidas de posición, medidas de dispersión, de asimetría y de curtosis. Estas últimas cuatro medidas pueden considerarse propiedades o características básicas de una distribución frecuencial. CAPÍTULO 3: PROBABILIDAD Y CURVA NORMAL La curva normal es uno de los temas fundamentales de la estadística que utiliza la información provista por la estadística descriptiva y permite el paso a la estadística inferencial en el sentido de proveer una herramienta para obtener conclusiones respecto de la población. La comprensión de este tema exige un conocimiento mínimo de la teoría de la probabilidad. 3.1 EL CONCEPTO DE PROBABILIDAD Se entiende por probabilidad el grado de posibilidad de ocurrencia de un determinado acontecimiento. Dicha probabilidad puede calcularse en forma teórica o empírica, a partir de las llamadas probabilidad clásica y frecuencial, respectivamente. El concepto de probabilidad ha demostrado ser de importante utilidad en ciertos enfoques sistémicos, especialmente en los ámbitos de la termodinámica y la teoría de la información. 1. Concepto de probabilidad.- Entendida como medida de la posibilidad de la ocurrencia de un determinado acontecimiento, la probabilidad abarca un espectro que se extiende desde la certeza (el acontecimiento ocurrirá con total seguridad), hasta la imposibilidad (es imposible que el acontecimiento ocurra), pasando por todos los grados intermedios (es muy probable que ocurra, es medianamente probable, es poco probable, etc).
  • 36. Por ejemplo, el suceso 'obtener un número entre 1 y 6 tirando un dado' equivale a la certeza; el suceso 'obtener un 7 arrojando un dado' equivale a la imposibilidad; y el suceso 'obtener un 2 arrojando un dado' equivale a uno de los grados intermedios de probabilidad. Es habitual representar el grado de probabilidad mediante un número que puede variar entre 1 (certeza) y 0 (imposibilidad). La probabilidad puede entonces valer 1, 0, 0.50, 0.80, etc. Por ejemplo, una probabilidad de 0.1 es muy baja, y una probabilidad de 0.98 muy alta. Una probabilidad intermedia es 0.50 o también, si la expresamos en términos de porcentajes corriendo la coma dos lugares hacia la derecha, obtenemos una probabilidad del 50 por ciento. Tal el caso de obtener una cara arrojando una moneda. 2. Probabilidad clásica y probabilidad frecuencial.- Si bien existen diferentes teorías y enfoques acerca de la probabilidad, explicaremos a continuación los dos planteos más habituales, siguiendo un ordenamiento histórico e incluso sistemático: el clásico y el frecuencial. En última instancia, se trata de dos modos diferentes de calcular la probabilidad de la ocurrencia de un fenómeno. a) Probabilidad clásica.- Suele también denominarse probabilidad teórica o a priori, y se define como el cociente entre el número de casos favorables y el número de casos equiprobables posibles. Aclaremos esta aparentemente engorrosa definición. Sabemos que un dado tiene seis caras, numeradas del uno al seis. La probabilidad de obtener la cara tres, por ejemplo, es de un sexto, es decir de un caso favorable (porque hay una sola cara con el tres) sobre seis casos equiprobables y posibles (caras 1-2-3-4-5-6). Aplicando la definición de probabilidad, es: Casos favorables 1 p= ----------------------------------------------------- = 0.1666 Casos equiprobables posibles 6 Para poder calcular esta probabilidad necesitamos, obviamente, conocer todos los casos posibles (requisito de exhaustividad), pero además debemos saber que todos esos casos posibles tienen la misma probabilidad de salir (requisito de equiprobabilidad), vale decir, debemos tener la suficiente seguridad de que ninguna cara tendrá mayor o menor probabilidad de salir que otra cara cualquiera, como puede ocurrir, por ejemplo, con los dados 'cargados'. Una aclaración respecto de la expresión 'casos favorables'. Debemos evitar aqui la connotación subjetiva del término. Un caso favorable es simplemente un caso del cual queremos conocer la probabilidad de su ocurrencia. Puede incluso tratarse de un terremoto o una enfermedad, aunque estos eventos no sean 'favorables' desde otro punto de vista más subjetivo. Respecto de la expresión 'casos equiprobables posibles', esta alude al hecho antes indicado de que para calcular una probabilidad en sentido clásico, deben cumplirse los dos requisitos de exhaustividad y equiprobabilidad. Puede suceder, en efecto, que alguno de estos requisitos no se cumpla. 1) Exhaustividad: Este requisito puede no cumplirse en dos casos. Primero, puede ocurrir que al arrojar un dado, este quede parado en equilibrio sobre alguno de sus vértices o aristas. Como posibilidad existe, pero es remotísima. Debido a que esta posibilidad es muy baja, a los efectos prácticos la consideramos nula y seguimos aplicando la definición clásica de probabilidad, como si todos los casos posibles fueran, como en el caso del dado, solamente seis. Segundo, puede ocurrir que no sepamos cuántas caras tiene el dado (en la situación anterior sí sabíamos esta cantidad, descartando las alternativas remotas), aún cuando sepamos que todas tienen la misma probabilidad de salir. En este caso, al desconocer el número de casos posibles, la definición clásica de probabilidad resulta inaplicable, quedándonos la opción de aplicar la probabilidad frecuencial. 2) Equiprobabilidad: Este requisito puede no cumplirse cuando el dado está 'cargado' lo que hace que, por ejemplo, el tres tenga mayores probabilidades de salir que el cuatro. En este caso, podemos calcular la probabilidad mediante la probabilidad frecuencial. En síntesis hasta aquí: cuando ninguno de estos requisitos, o ambos, no pueden cumplirse, nos queda aún la opción de calcular la probabilidad en forma empírica, lo que nos lleva al tema de la llamada probabilidad frecuencial. b) Probabilidad frecuencial.- Suele también denominarse probabilidad empírica o a posteriori, y es definible como el cociente entre el números de casos favorables y el número de casos observados. En un ejemplo, supongamos que no conocemos cuántas caras tiene un dado (es decir desconocemos la cantidad de casos posibles), y queremos averiguar qué probabilidad tiene de salir el uno. Obviamente no podemos decir 'un sexto' o 'uno sobre seis' porque no sabemos cuántas caras tiene el dado. Para hacer este cálculo decidimos hacer un