1. 1
Introducción
-Definición de Estadística
- Estadística Descriptiva
- Estadística Inferencial
- Conceptos básicos:
• Unidad estadística
• Variable
• Población
• Muestra
• Tipos de Variables
2. 2
Definición
Estadística: es todo lo que se relacione con la recolección, procesamiento,
análisis e interpretación de datos numéricos.
La estadística se clasifica en dos categorías: descriptiva y inferencial
Estadística Descriptiva: es la presentación de datos en cuadros y
gráficas, incluye también la síntesis de ellos mediante
descripciones numéricas
Estadística Inferencial: son las técnicas que tratan de generalizaciones de
una población de datos basadas en muestras de datos de ésta
3. 3
1986 1987 1988 1989
Guatemala 6,335.2 7,084.4 7,609.2 8,458.8
El Salvador 3,952.9 4,628.1 5,473.2 5,755.4
Honduras 3,798.0 4,064.0 4,625.5 3,744.2
Nicaragua 323.6 409.4 468.4
Costa Rica 4,400.8 4,510.7 4,604.5 5,226.0
Panamá 5,145.1 5,309.7 4,551.4 4,639.3
FUENTE: SIECA, Series Estadísticas Seleccionadas, 1994.
CUADRO 1
AÑO
PAIS
CENTROAMERICA: PRODUCTO INTERNO BRUTO POR AÑO
SEGÚN PAIS
(En millones de US dólares)
Gráfico 1
Centroamérica: Producto Interno Bruto por Año
0 2000 4000 6000 8000 10000 12000
Guatemala
El Salvador
Honduras
Nicaragua
Costa Rica
Panamá
País
Millones de Dólares
1993
1992
Estadística Descriptiva
Promedio: 2.54
Moda: 3.45
Mediana: 3.05
Desviación Estándar: 1.2
Cuadros, gráficos,
descripciones
numéricas
4. 4
Población
Muestra
Generalización: con los datos
de la muestra se hacen
conclusiones sobre toda la
población
Cálculos y
descripciones sobre
la muestra
¿Por qué es necesaria la Inferencia?
Problema: en la población existe algún valor que NO podemos calcular
(desconocido) que nos interesa, por ejemplo: el peso promedio de los peces
de un lago.
Técnicas
probabilísticas
Estadística Inferencial
Valor desconocido
en la población
5. 5
Unidad Estadística : es el objeto o entidad sobre el cual se desea medir alguna
característica o atributo. Debe definirse claramente en tiempo y en espacio
Variable: es el atributo o característica a medir sobre la unidad estadística de interés. Se llama
variable porque para cada unidad estadística el valor de la medición puede variar
Conceptos Básicos
Población: es el conjunto de todas las mediciones del atributo de interés de la unidad estadística
en estudio. A un valor que se calcula con todos los datos de la población se le llama Parámetro.
Muestra: es un subconjunto de la población, a estas mediciones se les llama observaciones. A un
valor que se calcula con datos de la muestra se le llama Estimador.
6. 6
Variables
Variable Cualitativa: solamente se le asignan valores de atributos. Si-No, Bueno-Malo-Regular,
Correcto-Incorrecto, Hombre-Mujer, etc.
Variable Cuantitativa: se le pueden asignar valores numéricos. Tamaño, contenido, resultado de
un test, etc.
Variable : es una característica (magnitud, vector o número) que puede ser medida (u
observada), adoptando diferentes valores en cada uno de los casos de un estudio (para cada
unidad estadística)
Tipos de Variables
7. 7
Variable Ordinal: aquella variable que mide categorías o modalidades ordenadas. Nivel de
estudios, grado de aceptación, etc.
Variable Nominal: aquella variable que mide categorías o modalidades no ordenadas. Sexo,
Provincia de residencia, etc.
Variable Binaria: aquella variable que solamente puede asumir dos categorías. Conoce un producto
, Presencia de un enfermedad, etc.
Variables Cualitativas
8. 8
Variable Discreta: aquella variable que puede asumir solamente un número finito de
valores o un número infinito contable de valores. Número de hijos, edad en años
cumplidos, etc.
Variable Continua: aquella variable que puede asumir solamente un número infinito
no contable de valores. Temperatura, Edad real, Contenido de un recipiente, etc.
Variables Cuantitativas
Entre dos números enteros no
existe ningún otro número entero.
Entre dos números reales existen
infinitos números reales
9. 9
Estadística Descriptiva
Componentes
de un Cuadro
1986 1987 1988 1989
Guatemala 6,335.2 7,084.4 7,609.2 8,458.8
El Salvador 3,952.9 4,628.1 5,473.2 5,755.4
Honduras 3,798.0 4,064.0 4,625.5 3,744.2
Nicaragua 323.6 409.4 468.4
Costa Rica 4,400.8 4,510.7 4,604.5 5,226.0
Panamá 5,145.1 5,309.7 4,551.4 4,639.3
FUENTE: SIECA, Series Estadísticas Seleccionadas, 1994.
CUADRO 1
AÑO
PAIS
CENTROAMERICA: PRODUCTO INTERNO BRUTO POR AÑO
SEGÚN PAIS
(En millones de US dólares)
Absoluto Relativo Absoluto Relativo
Total de Hogares 627,866 100.0 656,445 100.0
Pobreza Extrema 39,095 6.2 45,146 6.9
No Satisf. las Neces. Bás. 88,831 14.1 96,331 14.7
No Pobres 499,940 79.6 514,968 78.4
FUENTE: Encuesta de Hogares de Propósitos Múltiples 1995 y 1996. Dirección
General de Estadística y Censos
TOTAL DE HOGARES COSTARRICENSES POR AÑO SEGÚN CATEGORIA DE
POBREZA
CUADRO 3
1995-1996
(Valores absolutos y relativos)
1995 1996
AÑO
CATEGORIA DE POBREZA
10. 10
Número del Cuadro: Se usa cuando dentro del documento cuando existen dos o más cuadros
Título: Es una descripción de la naturaleza, clasificación y referencia en tiempo de los datos
presentados. Debe responder a las preguntas: qué son los datos, cuándo y dónde se recolectaron,
cómo y bajo qué criterios se clasificaron
Nota Introductoria: Es una frase (entre paréntesis o guiones) se utiliza para brindar información
sobre el cuadro: Indicar unidades con que se trabaja; darle más claridad al cuadro; prevenir al
usuario de las limitaciones de la información; establecer la base sobre la que se realizan las
comparaciones
Encabezados: Son los títulos del resto de las columnas. Describen en forma general las
clasificaciones de cada columna
Cuerpo: Son las cifras o datos que se quieren presentar
Columna Matriz: Contiene la clasificación principal que se hizo de la información
Componentes de un Cuadro
11. 11
Convenciones para el título de un Cuadro
•Centrado
• Se usa la palabra SEGÚN para la clasificación primaria (la de la columna matriz)
• Se usa la palabra POR para la clasificación secundaria (la de los encabezados)
Nota al Pie: Una frase que aclara alguna cifra o clasificación, su función es más específica que la nota
introductoria. Por lo general se llama la atención sobre esta nota con números o símbolos: (*) (1) (a)
Fuente: Es una cita bibliográfica exacta del origen de los datos. Esta no se incluye si los datos
fueron obtenidos por la persona u organización que los publica
Componentes de un Cuadro
12. 12
Componentes
de un Gráfico
FUENTE: SIECA, Series Estadísticas Seleccionadas, 1994
GRAFICO 10
EVOLUCION DEL PRODUCTO INTERNO BRUTO EN COSTA RICA Y
GUATEMALA, 1986-1993
0
2000
4000
6000
8000
10000
12000
1986 1987 1988 1989 1990 1991 1992 1993
AÑO
Millones
de
Dólares
Guatemala
Costa Rica
Estadística Descriptiva
13. 13
Gráficos de barras
Son gráficos con barras rectangulares de igual ancho y de longitud determinada por la cantidad que
representa El espacio de separación entre las barras debe ser constante. Pueden ser horizontales o
verticales y se pueden utilizar valores absolutos o relativos (%). Los ejes deben iniciar en cero y la escala
deber ser continua (sin interrupciones). Existen tres tipos: Barras simples, Barras compuestas, Barras
comparativas
FUENTE: Costo de la Canasta Básica de Alimentos. Año 3, No. 4. Dirección
General de Estadística y Censos
GRAFICO 1 ESTRUCTURA DE COSTOS DE LOS GRUPOS
DE ALIMENTOS DE LA CANASTA BASICA DE ALIMENTOS.
ABRIL 1997
0 5 10 15 20 25
VARIOS
HUEVOS
RAICES
FRIJOLES
AZUCAR
GRASAS
VERDURAS
LACTEOS
CEREALES
CARNES
GRUPO
PORCENTAJE
FUENTE: USS Corporation. Annual Report. 1974
USS Corporation: Dividendos y ganancias retenidas.
1967-1974
0
100
200
300
400
500
600
700
1969 1970 1971 1972 1973 1974
Año
Millones
de
Dólares
Ganancias Retenidas
Dividendos
FUENTE: USS Corporation. Annual Report. 1974
USS Corporation: Dividendos y ganancias retenidas. 1967-
1974
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1969 1970 1971 1972 1973 1974
Año
Millones
de
Dólares
Dividendos Ganancias Retenidas
FUENTE: Gerencia de Mercadeo, Universidad Latina de Costa Rica
Grafico 6
Universidad Latina de Costa Rica: Estudiantes matriculados por
sexo, según provincia de procedencia. 1995
0 500 1000 1500 2000 2500 3000
Guanacaste
Limón
Puntarenas
Heredia
Cartago
Alajuela
San José
Provincia
Estudiantes
Hombres
Mujeres
Barras
Simples
Barras
Comparativas
Barras
Compuestas
14. 14
Gráficos de barras
Un gráfico debe ser lo suficientemente claro de forma que se explique por el mismo. Se
compone de:
Número: para identificar el gráfico se utiliza siempre que haya más de uno.
Título: debe indicar el qué, dónde, cómo, y cuándo de la información (se siguen las mismas reglas
de los títulos de los cuadros)
Fuente: indica el origen de la información utilizada, puede servir para informar al usuario el lugar
donde puede obtener mayor información al respecto.
Leyenda: cuando en un gráfico se incluyen varias series de datos, es necesario identificar cada
una de ellas mediante símbolos o leyendas.
Escala: Identifica la unidad de medida correspondiente a los valores en ambos ejes.
Nota introductoria y nota al pie: se utilizan si son necesarias y en tal caso, se sigue las mismas
reglas que en los cuadros.
Título de los ejes: se utiliza para identificar cada uno de los ejes.
15. 15
Barras Compuestas: Es un gráfico con varias barras divididas para mostrar sus
componentes. Se pueden usar cifras absolutas o relativas. Es útil para comparar los
totales de las magnitudes de las categorías y además para comparar los totales de
subcategorías ( o componentes dentro de cada categoría), pero no permite la
comparación de las magnitudes de las subcategorías.
Barras Simples: Es útil para comparar las magnitudes de las categorías. Si la variable
es cualitativa o geográfica las barras se colocan horizontalmente. Las barras se
colocan según su longitud de mayor a menor (excepto cuando hay una categoría
especial de “otros” o “varios”, que se incluye al final).
Barras Comparativas: Es un grafico con una serie de barras superpuestas que
representan los componentes de un fenómeno con el fin de comparar sus
magnitudes simultáneamente. Es útil para apreciar las magnitudes de las
subcategorías dentro de un mismo atributo, además permite comparar las
magnitudes de las subcategorías de las distintas categorías. Tiene la desventaja de
que no permite resaltar las comparaciones entre los totales de las categorías.
Gráficos de barras
16. 16
Gráfico circular: Es un gráfico en que cada componente esta representado por una
parte de un círculo. Se utiliza para destacar la importancia relativa de las categorías
dentro de un total
Gráfico lineal: Es una representación sobre un plano cartesiano, de los valores de
dos variables por medio de puntos unidos con líneas. Se utiliza principalmente para
representar series cronológicas. Permite representar varias series de datos en un
mismo gráfico.
Gráfico Circular y Gráfico Lineal Aritmético
19. 19
Distribución de Frecuencias
• Definición
• Variable Cualitativa Nominal
• Variable Cualitativa Ordinal
• Variable Cuantitativa Discreta
• Variable Cuantitativa Continua
• Histograma
• Medidas de sesgo y curtósis
• Diagrama de tallo y hojas
20. 20
Distribución de Frecuencias
La distribución de frecuencias es el primer paso para analizar un conjunto numeroso de datos.
Permite, de una forma conveniente y simple, resumirlos, ordenarlos y clasificarlos. Junto a la
distribución de frecuencias están los histogramas, polígonos de frecuencias y diagramas de tallo y
hojas que permiten visualizar las características básicas de un conjunto de datos.
La distribución de frecuencias es un conteo de la cantidad de veces que se repite un valor o la
cantidad de veces que se repiten algunos valores en una serie de categorías. Por ejemplo al
preguntarle a un grupo de mujeres sobre el número de hijos vivos, podemos contar cuántas
mujeres dijeron tener 1; cuántas 2, etc. También podríamos entrevistar a un grupo de personas
sobre sus ingresos y podríamos contar cuántos tienen ingresos entre 0 y 25 mil por semana;
cuántos tienen ingresos de más de 25 mil y hasta 50 mil; y cuántos tienen ingresos de más de
50 mil por semana.
Las distribuciones de frecuencias varían en su forma y en la técnica para elaborarlas dependiendo
del tipo de variable que se analice.
Distribución de Frecuencias
21. 21
Distribución de Frecuencias
Variable cualitativa nominal
Intención de voto de un grupo de 32 delegados para la convención del PDN de octubre de 1997:
Categoría Conteo Frecuencia
Mora ///// ///// /// 13
Vargas ///// 4
Rojas ///// // 7
González ///// /// 8
Total 32
Absoluta Relativa
fi fr %
Mora 13 40.6
González 8 25.0
Rojas 7 21.9
Vargas 4 12.5
Total 32 100.0
Frecuencia
Candidato
Tabla de Frecuencias DISTRIBUCIO DE FRECUENCIAS DE LOS VOTOS
PARA LOS PRECANDIDATOS DEL PDN
(Octubre 1997)
0
2
4
6
8
10
12
14
Mora González Rojas Vargas
Candidato
Número
de
votos
Mora Mora Rojas Mora Mora González González Mora
Vargas Rojas Mora González González Mora Mora González
Rojas Vargas Mora Vargas Rojas Mora Mora Mora
Mora González Vargas Rojas Rojas Rojas González González
22. 22
Distribución de Frecuencias
fi F F fi F F
Primaria 23 23 56 41.1 41.1 100.0
Secundaria 9 32 33 16.1 57.1 58.9
Técnico 12 44 24 21.4 78.6 42.9
Universitaria 12 56 12 21.4 100.0 21.4
Categoría
Frecuencias
Absolutas Relativas
Variable cualitativa ordinal
F1= f1
F2 = F1 + f2 ...
Fk = Fk-1 + fk
“Menos de” F
Fk= fk
Fk-1 = Fk + fk-1 ...
F1 = F2 + f1
“Más de” F
Algunas Interpretaciones: 9 personas tienen educación secundaria, 44 personas tienen educación técnica o
inferior, el 42.9% de las personas tienen educación técnica o superior
DISTRIBUCION DE FRECUENCIAS DE LOS EMPLEADOS
DE LA EMPRESA XYZ SEGUN NIVEL DE INSTRUCCION
(Octubre 1997)
0
5
10
15
20
25
Primaria Secundaria Técnico Universitario
Nivel de Insrtucción
Número
de
Empleados
Tabla de Frecuencias
Nivel de Instrucción de los Empleados de la
Empresa XYZ (Octubre 1997)
23. 23
Distribución de Frecuencias
Variable cuantitativa discreta
13 13 10 2 6
8 12 7 9 49
3 19 15 14 7
11 6 4 32 12
29 9 8 15 17
5 37 16 11 12
21 11 7 16 18
11 6 10 10 24
3 10 6 9 7
12 19 20 5 71
TRABAJADORES QUE
FALTAN A UNA FABRICA
EN 50 DIAS DE TRABAJO
Días
Categorías Frecuencia
0 - 4 4
5 - 9 15
10 - 14 16
15 - 19 8
20 - 24 3
25 o más 4
Total 50
Trabajadores
24. 24
Distribución de Frecuencias
Variable cuantitativa discreta
fi F F fi F F
0-4 4 4 50 8.0 8.0 100.0
5-9 15 19 35 30.0 38.0 70.0
10-14 16 35 19 32.0 70.0 38.0
15-19 8 43 11 16.0 86.0 22.0
20-24 3 46 8 6.0 92.0 16.0
25 o más 4 50 4 8.0 100.0 8.0
Categoría
Frecuencias
Absolutas Relativas
Algunas Interpretaciones: en 8 días (de los 50) faltaron a la fábrica entre 15 y 19 trabajadores, en 19 días faltaron
a la fábrica 9 o menos trabajadores, el 22% de los días faltaron a la fábrica 15 o más trabajadores
Tabla de Frecuencias
Trabajadores que faltan a una fábrica en 50 días de
trabajo
Días
Trabajadores
25. 25
Distribución de Frecuencias
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2
22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7
26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7
19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0
18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5
14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1
8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8
25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5
EMISION DIARIA (EN TONELADAS) DE OXIDO DE AZUFRE DE
UN PLANTA INDUSTRIAL
Variable cuantitativa continua
Inferior Superior Inferior Superior fi F F fi F F
6.2 - 9.8 6.15 - 9.85 8.00 6 6 80 7.5 7.5 100.0
9.9 - 13.5 9.85 - 13.55 11.70 10 16 74 12.5 20.0 92.5
13.6 - 17.2 13.55 - 17.25 15.40 12 28 64 15.0 35.0 80.0
17.3 - 20.9 17.25 - 20.95 19.10 24 52 52 30.0 65.0 65.0
21.0 - 24.6 20.95 - 24.65 22.80 16 68 28 20.0 85.0 35.0
24.7 - 28.3 24.65 - 28.35 26.50 8 76 12 10.0 95.0 15.0
28.4 - 32.0 28.35 - 32.05 30.20 4 80 4 5.0 100.0 5.0
Relativas
Frecuencias
Límites dados Límites reales
Punto
Medios
xi
Absolutas
Distribución de frecuencias de las emisiones diarias de óxido de azufre en una planta
industrial
(Toneladas)
80 días
Toneladas de Oxido de Azufre Días
26. 26
Distribución de Frecuencias
Inferior Superior Inferior Superior fi F F fi F F
6.2 - 9.8 6.15 - 9.85 8.00 6 6 80 7.5 7.5 100.0
9.9 - 13.5 9.85 - 13.55 11.70 10 16 74 12.5 20.0 92.5
13.6 - 17.2 13.55 - 17.25 15.40 12 28 64 15.0 35.0 80.0
17.3 - 20.9 17.25 - 20.95 19.10 24 52 52 30.0 65.0 65.0
21.0 - 24.6 20.95 - 24.65 22.80 16 68 28 20.0 85.0 35.0
24.7 - 28.3 24.65 - 28.35 26.50 8 76 12 10.0 95.0 15.0
28.4 - 32.0 28.35 - 32.05 30.20 4 80 4 5.0 100.0 5.0
Relativas
Frecuencias
Límites dados Límites reales
Punto
Medios
xi
Absolutas
Distribución de frecuencias de las emisiones diarias de óxido de azufre en una planta
industrial
(Toneladas)
Toneladas de Oxido de Azufre Días
Algunas Interpretaciones: en 24 días se presentaron emisiones de óxido de azufre entre 1.3 y 20.9 tóneladas, el
95% de los días se presentaron emision de óxido de azufre inferiores o iguales a 28.3 tóneladas, el 80% de los
días se presentaron emisiones de +oxido de azufre superiores o iguales a 13.6 tóneladas
Variable cuantitativa continua
27. 27
Distribución de Frecuencias
Histograma
Es un gráfico compuesto por una serie de rectángulos, de ancho proporcional al ancho de la clase
y de altura proporcional al total de elementos de cada clase. En consecuencia el área contenida
dentro del rectángulo (con respecto al área total) corresponde al porcentaje de la frecuencia
relativa de la clase.
28. 28
Distribución de Frecuencias: Sesgo
La distribución de una variable (y su representación mediante histogramas o curvas) puede ser
simétrica o asimétrica (sesgada)
Es sesgo mide el grado de asimetría de una distribución con respecto a su media. La asimetría
positiva indica una distribución que se extiende hacia valores más positivos. La asimetría negativa
indica una distribución que se extiende hacia valores más negativos.
3
)
2
)(
1
( s
x
x
n
n
n i
Coeficiente de Asimetría (Sesgo) =
29. 29
Distribución de Frecuencias: Curtosis
La distribución de una variable ( y su representación mediante histogramas o curvas ) puede
clasificarse de acuerdo con su altura y forma como mesocúrtica, leptocúrtica y platicúrtica. La
curtosis caracteriza la elevación o el achatamiento relativos de una distribución, comparada con la
distribución normal. Una curtosis positiva indica una distribución relativamente elevada, mientras
que una curtosis negativa indica una distribución relativamente plana.
)
3
)(
2
(
)
1
(
3
)
3
)(
2
)(
1
(
)
1
( 2
4
n
n
n
s
x
x
n
n
n
n
n i
Curtosis =
30. 30
Distribución de Frecuencias: Sesgo y Curtosis
=COEFICIENTE.ASIMETRIA(B2:B81)
Cálculo en Excel
Curtosis = -0,4983
=CURTOSIS(B2:B81)
Rango de
datos
Rango de
datos
33. 33
Distribución de Frecuencias
Diagrama de tallos y hojas
El diagrama consta de dos secciones:
• El tallo aparece en la parte izquierda quitando el último dígito. Si los datos van de 1500 a 2500,
entonces los tallos serán 150*, 151*, 152*, etc.
• Al lado derecho de cada uno, se colocan las hojas que serán el último dígito para los datos que
comienzan con el tallo correspondiente. Por ejemplo, a la derecha del tallo 23 se colocan las hojas
011235 que corresponden a los valores 230, 231, 231, 232, 233, 235
Ejemplo:
15, 45, 47, 53, 58, 58, 60, 62,
67, 74, 75, 78, 80, 80, 81, 85,
85, 85, 90, 92
Tallos: 1, 2, 3, 4, 5, 6, 7, 8, 9
1* 5
2*
3*
4* 57
5* 388
6* 27
7* 458
8* 1555
9* 2
36. 36
Medidas de Posición y Variabilidad
Medidas de Posición
•Media Aritmética
• Mediana
• Moda
Medidas de Variabilidad
• Uso de las medidas de variabilidad
• Intervalo (Rango)
• Desviación absoluta promedio
• Desviación Estándar y Variancia
• Coeficiente de variación
• Cuartiles y percentiles
37. 37
Medidas de Posición
Para una
Población
Para una Muestra
N
x
N
i
i
1
n
x
x
n
i
i
1
_
En donde:
N: el tamaño de la población
n: el tamaño de la muestra
x: variable
Ventajas: Su concepto es conocido y es intuitivamente claro, es una medida calculable, todo conjunto de datos
posee una y sólo una media, es muy útil para realizar procedimientos estadísticos
Desventajas: Está afectada por los valores extremos que no sean representativos de ellos
Su cálculo puede ser tedioso cuando hay muchos datos
Media Artimética (Media o Promedio)
38. 38
Medidas de Posición
Media Artimética (Media o Promedio)
=CONTAR(B2:B9)
=SUMA(B2:B9)
=PROMEDIO(B2:B9)
Rango: B2:B9
Cálculo en Excel
Ejemplo:
media artimética
con y sin un valor extremo
39. 39
Medidas de Posición
Es un valor del conjunto de datos que mide el elemento central: La mitad de los elementos se encuentran por
arriba y la otra mitad por debajo de él.
Si n es impar
Si n es par
Mediana
Ventajas: No se afecta por los valores extremos, es fácil de entender, es una medida calculable, se puede
obtener aún para variables ordinales
Desventajas: Los procedimientos estadísticos para tratarla son muy complejos, los datos deben estar ordenados
40. 40
Medidas de Posición
=MEDIANA(B2:B10)
n = 9 es impar
(n+1)/2 = 10/2=5
Me = es el elemento 5: x5 = 18
Ejemplo:
Mediana
con un
valor
extremo
Cálculo en Excel
n = 8 es par
n/2 = 8/2 = 4
n/2 + 1 = 4+1= 5
Me = es el promedio del 5 y 6
elementos:
(x4 + x5)/2=(16+18)/2 = 34/2= 17
Mediana
41. 41
Medidas de Posición
Moda
Es el valor que se repite más dentro de un conjunto de datos.
Ventajas : no se afecta por los valores extremos, es fácil de entender, se puede obtener aún para variables
ordinales y nominales.
Desventajas: algunas veces no existe el valor modal, otras veces la moda son todos los datos, cuando hay
varias modas es muy difíciles interpretarlas y compararlas
Una sola moda
Cálculo en Excel
Varias Modas Sin moda
=MODA(B2:B9) Error
Moda Menor
43. 43
Medidas de Posición
Relación entre las medidas de posición
• La media, la mediana y la moda son idénticas en una distribución simétrica
• La mediana puede ser la idónea en distribuciones sesgadas, ya que siempre se encuentra entre
la media y la moda, y no se afecta tanto por valores extremos y por la ocurrencia de un solo valor.
• Sin embargo no se cuenta con un criterio único para aplicar alguna de las tres medidas
Sesgo a la derecha Sesgo a la izquierda
Simétrica
44. 44
Medidas de Variabilidad
• Las medidas de variabilidad suministran información que permite juzgar la
confiabilidad de la medida de posición utilizada
• Permite reconocer la variabilidad o dispersión de los datos
Uso de las Medidas de Variabilidad
Tres curvas con el mismo promedio pero con variabilidades deferentes
45. 45
Medidas de Variabilidad
Rango (Recorrido, amplitud, intervalo)
Es la diferencia entre valor máximo M y el valor mínimo m: Rango = R = M - m
• Su utilidad es escasa.
• Solo toma en cuenta el valor mayor y el menor sin tomar en cuenta el resto de las observaciones
• Esta muy afectado por los valores extremos
=MAX(B2:B8)
=B9-B10
=MIN(B2:B8)
46. 46
Medidas de Variabilidad
En donde:
xi es la observación
x es el promedio de la muestra
µ es el promedio de la población
n es el tamaño de la muestra
N es el tamaño de la población
Para la
Muestra
Para la
Población
n
x
x
n
i
i
_
1
N
x
N
i
i
1
Desviación Absoluta Promedio
1 2 -6 6
2 4 -4 4
3 6 -2 2
4 8 0 0
5 10 2 2
6 12 4 4
7 14 6 6
Suma 56 0 24
Promedio 8
Desviación Absoluta: 24/7 = 3.4
La Desviación absoluta es el promedio
de las distancias de todos los valores con
respecto al promedio (media aritmética)
Es una mejor medida que la amplitud pues toma en cuenta todas las observaciones. Indica a que
distancia de la media se encuentra en promedio cada observación. Es muy limitado el desarrollo
teórico estadístico a partir de esta medida.
2 8 6 6
La diferencia entre dos valores en valor
absoluto es la “distancia” entre esos dos
valores: el 2 se aleja del 8 en 6 unidades
47. 47
Medidas de Variabilidad
Para la Muestra Para la Población
1
)
( 2
1
n
x
x
s
n
i
i
1
)
( 2
1
N
x
N
i
i
En donde:
x es la observación
x es el promedio de la muestra, µ es el promedio de la población
n es el tamaño de la muestra, N es el tamaño de la población
_
Desviación Estándar
• Incluye todos los valores en el cálculo.
• Permite determinar dónde se sitúan los valores en relación con su media.
• Se pueden comparar variables y sus distribuciones.
• Es muy utilizada en la inferencia estadística
• Esta afectada por valores extremos.
48. 48
Medidas de Variabilidad
Desviación Estándar
x
x
N
x
N
2
2
2
112
112
7
16
112
7
16 4
x x
x x
n
x x
n
2
2
2
112
1
112
6
18667
1
112
6
18667 4 32
.
. .
=DESVESTP(B3:B9)
=DESVEST(B3:B9)
Para la Población Para la Muestra
49. 49
Medidas de Variabilidad
Al igual que la desviación absoluta, la desviación estándar se puede interpretar como el promedio
de las distancias de cada observación con respecto a la media aritmética (o el promedio de las
diferencias de cada valor con respecto a la media)
La Desviación Estándar:
• Incluye todos los valores en el cálculo.
• Permite determinar dónde se sitúan los valores en relación con su media.
• Se pueden comparar variables y sus distribuciones.
• Es muy utilizada en la inferencia estadística
• Esta afectada por valores extremos (al igual que la media aritmética).
Desviación Estándar
50. 50
Variancia
Roberto
Castro
Z.
Para la Muestra Para la Población
Unidades en que se expresa la variancia: dado que la diferencia entre cada observación y la media
se eleva al cuadrado, las unidades en que se mide la variable también está elevada al cuadrado,
por lo que las unidades se deben expresar de esta forma. Por ejemplo: colones al cuadrado
(ingresos), años al cuadrado (edades), centímetros al cuadrado (altura), etc.
1
)
( 2
1
2
n
x
x
s
n
i
i
N
x
N
i
i
2
1
2
)
(
Medidas de Variabilidad
=VAR(B3:B9)
=VARP(B3:B9)
Para la Muestra
Para la Población
Cálculo en Excel
51. 51
Medidas de Variabilidad
Coeficiente de Variación
x
s
cv
El coeficiente de variación mide la variabilidad porcentual o relativa de un conjunto de datos con
respecto a su promedio.
Es útil para comparar la variabilidad de diferentes conjuntos de datos
CV
Para la Muestra Para la Población
52. 52
Medidas de Variabilidad
Los cuartiles dividen en cuatro partes las observaciones. El primer cuartil Q1 es un valor que deje
por debajo de él 25% de las y por encima 75% de las observaciones. El Q2 es la mediana (50%) y
Q3 deja por debajo 75% y por encima 25% de las observaciones
Cuartiles
53. 53
Medidas de Variabilidad
Los percentiles dividen en dos partes las observaciones. Por ejemplo, el percentil 20, P20, es el
valor que deja por debajo un 20% y por encima un 80% de las observaciones
Percentiles
55. 55
Medidas de Posición y Variabilidad
La información de los cuartiles se visualiza en el diagrama de caja.
La mitad central de los datos, que va desde el primer hasta el tercer cuartil, se representa
mediante un rectángulo. La mediana se identifica mediante una barra vertical dentro de esta caja.
Una línea se extiende desde el tercer cuartil hasta el valor máximo y otra línea se extiende desde
el primer cuartil hasta el mínimo
Diagrama de Caja
56. 56
Descriptive Statistics: Emisión
Variable N Mean Median TrMean StDev SE Mean Minimum Maximum Q1 Q3
Emisión 80 18,896 19,050 18,917 5,656 0,632 6,200 31,800 14,825 22,975
Estadísticas Descriptivas
Diagrama de Caja