SlideShare una empresa de Scribd logo
1 de 67
Descargar para leer sin conexión
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
73
Unidad 2: Análisis descriptivo. Parámetros y estadísti-
cos de las distribuciones de frecuencias
Introducción
En la unidad anterior se hizo mención a las etapas del método cientí-
fico y su aplicación mediante el uso de herramientas estadísticas.
Se explicaron aspectos vinculados con las tres primeras etapas: plan-
teamiento del problema, diseño, recopilación y organización de datos; se
abordaron conceptos y aplicaciones inherentes al tema y se desarrollaron
actividades mediante las cuales se ordenan los valores de una variable y se
describe su comportamiento de una manera visual en gráficos o bien de una
forma ordenada en tablas.
Ahora veremos la cuarta etapa, la de análisis, donde también se des-
criben las variables calculando medidas que permiten resumir los valores de
éstas y explicar su comportamiento en un aspecto o característica de la dis-
tribución. Cuando hablamos de aspecto o característica de la distribución
nos estamos refiriendo a posición, dispersión y forma, criterio de clasifica-
ción utilizado para definir las medidas descriptivas.
De esta manera tendremos algunos valores que describen la posición,
unos la dispersión y otros la forma del conjunto de valores de la variable.
Además, explicaremos métodos de cálculo para obtener esas medidas
como así también las ventajas y desventajas de su aplicación en cada caso.
Utilizaremos bases de datos procesadas con el software Infostat para
conectarnos con esta forma rápida de procesar y analizar información, lo
que en virtud de la tecnología existente nos permite obviar cálculos e inte-
pretar resultados estableciendo relaciones importantes entre las medidas.
Luego, estudiaremos distribuciones bidimensionales, esto es distribu-
ciones en las que intervienen dos variables y aplicaremos medidas que per-
mitan indagar sobre la asociación entre esas variables describiendo aspec-
tos relevantes de la presentación conjunta y condicional de las mismas.
1. Medidas de posición
Las Medidas de posición son aquellas que permiten describir los datos
de una serie en cuanto a su ubicación en el eje de las abscisas. Se clasifican
como de tendencia central y no central. Las medidas de tendencia central
se localizan en el centro de la distribución, mientras que las que no lo son
se localizan en otras partes de la distribución. Las medidas de tendencia
central que estudiaremos son: media aritmética, media geométrica, mediana
y modo.
Las medidas de posición que no son de tendencia central, denomina-
das cuartiles, deciles y percentiles, se localizan en cualquier otra parte de la
distribución, es decir en extremos o en un sector cercano al centro indicando
puntos específicos de la distribución como fracciones que permiten estable-
cer porcentaje de observaciones ubicadas a la izquierda y derecha de la
medida.
74
1.1 Media aritmética
Esta medida es un promedio que se utiliza como medida resumen del
conjunto de datos cuando la variable es numérica. Puede aplicarse sobre la
serie original de los datos o sobre una distribución de frecuencias.
La Media Aritmética se define como la suma de los valores de la variable
dividida por el total de datos.
A modo de ejemplo, si se cuenta con la estatura de 11 personas y, se
pretende caracterizar al grupo por la estatura media, se aplicará la definición
con lo que concluiremos que en promedio estas personas miden 1,62 m. Es
decir, una altura intermedia entre los más altos y los más bajos.
ESTATURA
1,6
1,52
1,66
1,68
1,69
1,66
1,64
1,48
1,61
1,66
1,62
En la población, el parámetro se simboliza con la letra griega , mien-
tras que en la muestra (el estadístico) será M(x) o x , si la variable se sim-
boliza con x. En cambio, se denota como M(y) ó y si la variable se simboliza
con y.
Parámetro
N
x
N
i
i

=
= 1

Tamaño de la población: N; Parámetro:  Variable: x
Estadístico
n
x
x
n
i
i

=
= 1
Tamaño de la muestra: n; media muestral x ; Variable x
Retomando el ejemplo Análisis Industrias de Córdoba (base de datos
“industrias.idb”) que fue utilizado en los ejemplos del capítulo 1, se conside-
rará la variable cuantitativa porcentaje del costo laboral en el costo total para
aclarar los conceptos aquí abordados. Vamos a tomar en cuenta la rama de
actividad a la que pertenece la empresa como factor de clasificación y cal-
cularemos, utilizando Infostat, la media aritmética de la variable para cada
rama de actividad.
Consideraremos una situación en que el municipio está interesado en
la repercusión que puede tener el costo laboral considerando la rama de
actividad con el propósito de otorgar beneficios impositivos a los sectores de
la actividad industrial que requieran de mayor cantidad de personal para su
normal funcionamiento. En consecuencia, lo primero que necesitará el mu-
nicipio es el promedio de la variable mencionada por rama de actividad.
La importancia de mar-
car la diferencia radica
en el significado de la
medida y su aplicación
para describir el com-
portamiento de la va-
riable.
Cuando se utilizan las
medidas de posición
central se analiza el
punto de equilibrio en-
tre los valores y se
busca representar el
conjunto por la me-
dida, mientras que
cuando nos referimos
a cuartiles, por ejem-
plo, se pretende desta-
car cuatro partes de la
distribución marcadas
por el 25% de las ob-
servaciones.
Media 17,82/11 = 1,62 m
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
75
En la imagen siguiente observamos la base de datos para las variables
porcentaje de costo laboral/costo total y rama de actividad. Recordemos que
se codificaron 10 ramas cuyo detalle se encuentra anexado a la base.
Utilizando el software Infostat, abriendo la base de datos "indus-
trias.idb, siguiendo el procedimiento que se detalla a continuación.
Se obtendrá una tabla resumen con la media para cada rama de
actividad, de la variable seleccionada (Tabla 1). De igual forma se pueden
calcular todas las medidas descriptivas por rama de actividad. (Ver instruc-
ciones en apoyo Infostat).
Menú Estadísticas
→ Medidas resumen
El cuadro de dialogo será el que se muestra a conti-
nuación, vemos que incorporando la variable rama de
actividad como criterio de clasificación, se obtiene la
media de la variable para cada categoría.
1. Alimentos y Bebidas
2. Textiles, Confección y Calza-
dos
3. Madera y Muebles
4. Papel e Impresiones
5. Química, Caucho y Plásticos
6. Vidrio y Minerales. no Metáli-
cos.
7. Productos Metálicos
8. Maquinaria y Equipos
9. Material de transporte
10. Otras
76
Tabla 1. Medias por rama de actividad de la variable porcentaje de costo laboral.
Actividad 1
Trabaje con la base “industrias.idb” y consultando el punto 3.21 del instruc-
tivo de infostat, asigne el nombre de cada rama en la base de datos
En la Tabla 1 se puede observar que la rama 2 (textil) es la que tiene mayor
promedio de la variable porcentaje de costo laboral sobre total. Sin embargo,
las demás ramas que le siguen en orden de magnitud, no difieren dema-
siado, presentando el menor valor la rama 4 (papel e impresiones)
Con el fin de ejemplificar de manera sencilla el cálculo de la media aritmé-
tica, a continuación, se obtendrá la media aritmética para la variable anali-
zada precedentemente, tomando la rama de actividad 4 que tiene 11 obser-
vaciones
Ejemplo 1
Los datos siguientes representan los valores del porcentaje del costo
laboral /costo total para las 11 empresas de rama 4, papel e impre-
siones.
Costos laboral / Costo total
Rama 4
25
7
40
15
20
20
10
22
30
10
3
Suma: 202
En el histograma del Gráfico 1 se puede observar la ubicación de la
media aritmética como medida de posición central.
Aplicando la fórmula de media
aritmética de la muestra, el valor
del promedio, será:
36
,
18
11
202
n
x
x
n
1
i
i
=
=
=

=
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
77
Gráfico1:
Histograma de porcentaje de costos laboral
El porcentaje promedio de los costos laborales en esta rama es
18,36%. Observando los datos vemos que hay valores del porcentaje del
costo laboral inferiores y superiores a este valor. En un punto de equilibrio
se puede representar a todos los valores, en cuanto a su posición, mediante
la cifra llamada media aritmética que en el ejemplo se refiere al porcentaje
medio del costo laboral por empresa y cuyo valor es 18,36.
A tener en cuenta:
Es interesante destacar que la Media Aritmética es un valor que des-
cribe a los datos en cuanto a su posición pero, por su fórmula de cálculo,
está afectada por valores atípicos de la variable, lo que en ciertos casos le
hace perder representatividad. Si en el ejemplo 1, el valor 40 fuere 98; la
media será:
Se observa que la media aritmética de 18,36 pasa a 23,64. Esa dife-
rencia en el valor promedio del porcentaje del costo laboral en relación al
costo total se debe a la influencia que este valor 98 tiene en la suma total de
la variable, valor que en realidad es muy diferente a los
Costos laboral / Costo total
Rama 4
25
7
98
15
20
20
10
22
30
10
3
Suma: 260
La media es 18,36
La media aritmética de la
muestra será:
64
,
23
11
260
1
=
=
=

=
n
x
x
n
i
i
78
demás, generando un promedio mayor y que no representa fielmente al
resto de los valores de la variable.
Para solucionar este inconveniente, en estas distribuciones se utiliza
otra medida de posición que es la Mediana.
• Otro aspecto de la Media Aritmética es que, al igual que todas las
medidas de posición, se expresa en la misma unidad de medida que
la variable. En este ejemplo tanto la variable x como la M(x) se ex-
presan en porcentaje.
• Cuando los datos están agrupados en una tabla de distribución de
frecuencias, el valor xi de la variable se repite ni veces. En el cálculo
de la media aritmética, cada valor distinto de la variable debe ponde-
rarse por la cantidad de veces que el mismo se repite, de la siguiente
forma:
1
k
i i
i
x n
x
n
=
=

1.1.1 Propiedades de la media aritmética
A continuación se desarrollan las propiedades de la media aritmética,
y se incluye un ejemplo numérico de serie simple, para verificar la propiedad
en cada caso.
• La Media Aritmética de una constante, es igual a la constante.
Dada xi = c, donde c es una constante.
( ) =
M c c
Aplicando la definición de media aritmética:
( )
n
M x c c
n
= =
Verificación: la variable asume el valor 3 en forma constante, para una
muestra de 4 datos. La media de x, será: 3
4
3
3
3
3
=
+
+
+
=
x por lo que el
valor 3, que es constante, será el resultado de la media aritmética de la va-
riable x.
• La Media Aritmética del producto de una constante por una va-
riable; es igual a la constante por la media de la variable.
( ) ( )
=
M c.x c.M x
Aplicando la definición de media aritmética:
( ) ( )
= =
= = =
 
1 1
n n
i i
i i
c x x
M c.x c. c.M x
n n
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
79
Verificación: x asume los valores: 10, 20, 30, 40, su media es: 25
x =
Si multiplicamos x por 2, surge x’ con los valores: 20, 40, 60, 80; siendo su
media: x ’ = 50, pero al aplicar la propiedad no será necesario recalcular to-
dos los valores de x, sólo haremos:
2 2 25 50
M( x`) .M( x ) .
= = =
• La Media Aritmética de la suma de una constante más una va-
riable es la constante más la media de la variable.
( ) ( )
+ = +
M x c M x c
Aplicando la definición de media aritmética:
( )
( )
=
+
+ =

1
n
i
i
x c
M x c
n
Distribuyendo el sumatorio:
( ) = =
+ = +
 
1 1
n n
i
i i
x c
M x c
n n
“c” es constante por lo que se estaría sumando n veces c, con lo cual se
arriba a:
( ) ( )
=
+ = + = +

1
n
i
i
x
nc
M x c M x c
n n
Verificación: x asume los valores: 10, 20, 30, 40, su media es: = 25
Si a x le sumamos la constante 3, sus nuevos valores serán: x’: 13, 23,
33, 43 y su media es '
x = 28. Al aplicar la propiedad no deberemos recal-
cular los valores de x sino que simplemente haremos:
M(x’) = M(3+x) = 3 + M(x) = 3 + 25 = 28
• La suma de las diferencias entre los valores de la variable y
su Media Aritmética es siempre nula.
( )
( )
=
− =

1
0
n
i
i
x M x
Para demostrarlo distribuimos el sumatorio:
( )
= =
− =
 
1 1
0
n n
i
i i
x M x
Extraemos ( )
M x del segundo sumatorio, ya que es constante para el
mismo:
( )
=
− =

1
0
n
i
i
x nM x
x
80
Dado que ( ) =
=
= =


1
1
n
i n
i
i
i
x
nM x n x
n
, tenemos que:
( ) ( )
− = 0
nM x nM x
Por lo tanto:
=
0 0
Al verificarse la igualdad, queda demostrada la propiedad.
Verificación: x asume los valores: 2, 4, 6 resultando la media: x = 4
Al realizar la suma de cada valor respecto de su media obtendremos:
 (xi - x ) = (2-4) + (4 - 4) + (6 - 4) = 0
Esto que matemáticamente puede demostrarse de manera
muy sencilla, significa que al ser la media un promedio centralizado,
las diferencias entre los valores ubicados a su izquierda se compen-
san con las diferencias de los valores ubicados a su derecha de modo
que la suma de todas esas diferencias arroja resultado cero.
• La suma de cuadrados respecto de la Media Aritmética es un
valor mínimo.
( )
=
= − 

2
1
n
i
i
SCx x M( x ) mí n imo
Vamos a demostrar que el mínimo se da cuando los desvíos están calcula-
dos con respecto a M(x). Para ello, planteamos una función a minimizar que
contiene una variable “w” cuyo valor queremos averiguar:
( )
=
= − =

2
1
n
i
i
f(w ) x M( x ) mí n imo
Para encontrar el mínimo de la función, obtenemos la derivada primera con
respecto a “w” y la igualamos a cero:
( )
=
= − −

1
2 1
n
i
i
f '(w ) x w ( )
Igualamos la derivada primera de w a cero.
Despejamos “w” en la igualdad a cero:
( )
=
− − =

1
2 1 0
n
i
i
x w ( )
Extraemos (–2) del sumatorio, dividimos ambos miembros por (-2) y distri-
buimos el sumatorio de forma tal que:
= =
− =
 
1 1
0
n n
i
i i
x w
Como “w” es constante con respecto al sumatorio:
( ) = 0
f´ w
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
81
=
=

1
n
i
w nw
Quedando:
=
− =

1
0
n
i
i
x nw
Por lo que, w es:
=
= =

1
n
i
i
x
w M( x)
n
Este es un punto crítico de la función. Para determinar si ese punto es un
mínimo debemos verificar si la derivada segunda es positiva. La derivada
segunda es igual a:
=
= − − =

1
2 1 2
n
i
f ''(w ) ( ) n
Como para cualquier n, la función se hace mínima en
.
Verificación: La variable x asume los valores: 20, 30 y 40; su media es: x =
30
• Si consideramos las diferencias al cuadrado con respecto a la media
que es 30, y las sumamos, obtenemos:
Scx = (20 - 30)2
+ (30 - 30)2
+ (40 - 30)2
= 200
• Si consideramos las diferencias al cuadrado respecto de un valor
cualquiera de la variable, por ejemplo 20, y las sumamos obtenemos:
( x - 20)2
= (20 - 20)2
+ (30 - 20)2
+ (40 - 20)2
= 500
• Si esto se repite para cualquier valor distinto de la media que se halle
ubicado dentro del recorrido de la variable (entre 20 y 40), la suma
será mayor que 200; ya que la Media Aritmética minimiza la suma
de cuadrados: SCx
Esta propiedad permite medir la dispersión, considerando los desvíos res-
pecto de la media aritmética, como se verá más adelante.
• La Media Aritmética de las medias de k submuestras, se obtiene
como la Media Aritmética ponderada de las medias de las sub-
muestras, siendo sus ponderaciones los tamaños de las respec-
tivas submuestras.
( )
( ) ( ) ( )
+ + +
= 1 1 2 2 h h
n .M x n .M x ... n .M x
M x
n
Donde, n1, n2,..., nh son los tamaños de las h submuestras en las que se
divide la muestra de tamaño “n”.
Esto significa que, al considerar una muestra dividida en submuestras y co-
nocer la media de la variable en estudio para cada una de ellas, la media
total será la media ponderada de las medias de las submuestras.
( ) = 
2 0
f´´ w n
( )
=
w M x
82
Para demostrarlo:
Consideremos que la suma de todas las observaciones de la muestra de n
elementos deberá coincidir con la suma de los elementos de las submues-
tras:
= = = =
= + + +
   
1 2
1 2
1 1 1 1
h
n n n
n
i i i hi
i i i i
x x x ... x
Multiplicamos y dividimos el primer término por “n” y multiplicamos y dividi-
mos cada término del segundo miembro por los respectivos tamaños n1, n2,
. . ., nh:
= = = =
= + + +
   
1 2
1 2
1 1 1 1
1 2
1 2
h
n n n
n
i i i hi
i i i i
h
h
x x x x
n n n ... n
n n n n
Dado que ( ) =
=

1
n
i
i
x
M x
n
y que ( ) =
=

1
1
1
1
1
n
i
i
x
M x
n
y así sucesivamente, reempla-
zando en (4) por sus iguales:
( ) ( ) ( ) ( )
= + + +
1 1 2 2 h h
n.M x n .M x n .M x ... n .M x
Despejando M(x):
( )
( ) ( ) ( )
+ + +
= 1 1 2 2 h h
n .M x n .M x ... n .M x
M x
n
Ejemplo 2
El ingreso medio de 500 varones es igual a $ 3200 y el ingreso medio
de 385 mujeres es de $ 2250, ambos pertenecientes a la misma po-
blación, la media general será.
885
(2250.385)
(3200.500)
X
+
= = 2786.72
El promedio es de $ 2786.72.
• En estos promedios no debe aplicarse promedio simple a menos que
la cantidad de observaciones de cada submuestra sea la misma.
Si calculamos la media de todas las empresas de la base “indus-
trias.idb” para la variable porcentaje del costo laboral, el resultado
será 30,56%, según lo que observamos en el procesamiento de
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
83
Aplicando la propiedad f de la media de las k sub muestras, a los re-
sultados presentados en Tabla 1 para cada rama de actividad se llegará al
mismo resultado: 30,56%
Comprobemos este resultado y observemos que si se calcula la media
aritmética sin considerar los tamaños de cada muestra, el resultado obvia-
mente no coincide pero además no es correcto debido a que no se está
tomando como suma de los valores del costo, el que corresponde a las 141
industrias de la muestra. El cálculo correcto se muestra en la siguiente tabla.
Tabla 2. Media de variable porcentaje de costo laboral (propiedad f).
Rama
de actividad
i
n i
x 
=
n
i 1
i
ix
n
1 17 32,18 547,06
2 15 34,2 513
3 14 33,21 464,94
4 11 18,36 201,96
5 14 32,86 460,04
6 10 27,1 271
7 15 29,33 439,95
8 17 28,9 491,3
9 16 32,31 516,96
10 12 33,58 402,96
Suma 4309,17
Actividad 2
Se ha seleccionado una muestra de pedidos de clientes, realizados en fe-
brero/2015, a una empresa que fabrica un bien “X” y se ha registrado la
cantidad de unidades solicitadas de dicho bien:
12 10 14 25 16 25 16 27 18 30 20 30 50 35
a) Determinar el valor de la media aritmética (M) y escriba una interpre-
tación de ese resultado (sin decimales).
b) El encargado de compras de la empresa considera muy importante
el promedio de la demanda para planificar los pedidos de insumo
para fabricación, sin embargo la media es un punto de equilibrio en
relación al cual habrá valores de la demanda inferiores y mayores a
él.
Para comprender una mejor comprensión de la idea de equilibrio a
que nos referimos, verifique la propiedad de media aritmética:
c) Si para el mes de marzo se espera que todos los clientes soliciten 4
unidades más del bien “X” con respecto a los pedidos de febrero,
¿cuál sería el valor de la media aritmética en el mes de marzo?
d) En otra situación, si para el mes de marzo se espera que todos los
clientes reduzcan en un 15 % el número de unidades del bien “X”
( )
 =
− 0
)
x
(
M
xi
La media aritmética de la
muestra es:
56
,
30
141
17
,
4309
1
=
=
=

=
n
x
n
x
n
i
i
i
84
solicitadas con respecto a febrero, ¿cuál sería el valor de la media
aritmética en el mes de marzo?
Actividad 3
La Encuesta Permanente de Hogares, ha permitido relevar información res-
pecto de múltiples aspectos económicos y sociales de los habitantes del
país.
Considerando una porción reducida de esa información para fines mera-
mente didácticos, supongamos que Afip pretende analizar los salarios de
trabajadores por tipo de actividad.
Tomando las categorías patrón o empleador y cuenta propia, los valores re-
gistrados para una muestra de individuos en categoría patrón o empleador
y cuenta propia. Recordemos que en la EPH se registra el sueldo de cada
jefe de hogar, considerando como tal el ingreso mensual y por otra parte se
consulta al individuo, la categoría ocupacional a la que pertenece, es decir
patrón o empleador, empleado en relación de dependencia, cuenta propia,
etc. En la Tabla 3 se presentan los sueldos de los entrevistados con cate-
gorías patrón y cuenta propia.
Tabla 3. Datos sueldo de categorías patrón y cuenta propia.
Se le solicita a UD, que:
a) Indique la cantidad de personas que forman cada categoría.
b) Calcule el monto total de sueldo para cada categoría e interprete el
valor.
c) Calcule el promedio de cada categoría, interprete y compare ambas
categorías.
d) Se conoce que el índice de inflación para el último trimestre es de
0,20, lo que provoca una pérdida en el poder adquisitivo. Calcule el
sueldo promedio con efecto inflacionario. (Aplique propiedades).
e) Suponga que se incrementa el sueldo en 50$ para cada persona en
cada categoría, calcule el sueldo promedio de cada categoría des-
pués del incremento. (Aplique propiedades).
f) Considere que, además de incrementar el sueldo en 50$, se incre-
mente un 18%. Calcule el sueldo promedio de cada categoría des-
pués de ambos incrementos. (Aplique propiedades).
SUELDO
Patrón o
empleador
SUELDO
Cuenta propia
1200 780 890
480 870 240
1300 760 650
2200 1200 900
2100 650 850
1500 1800 650
370 240 300
1400 2100 780
970 380 560
240 320
320
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
85
g) Calcule el sueldo promedio total, es decir el de ambas categorías e
indique si es muy diferente de los valores calculados en el ítem c.
(Aplique propiedades).
1.2 Mediana
La Mediana es el valor central de los valores de una variable ordenada de
acuerdo a su magnitud, por lo tanto será el valor de la variable que supera
a no más de la mitad de las observaciones de la variable, y es superada por
no más de la mitad de las observaciones de la variable.
Visualizando en la siguiente imagen los datos de la estatura de 11 personas
comprenderás mejor el significado de la definición.
1,48 1,52 1,6 1,61 1,62 1,64 1,66 1,66 1,66 1,68 1,69
¿Por qué la media es de 1,62 y la mediana es de 1,64? ¿A qué se debe
esta diferencia?
Esta medida se calcula después de ordenar los datos de la variable y
ubicar el centro de esa serie ordenada, razón por la cual su cálculo no invo-
lucra los valores individuales en una operación, sino que se determina loca-
lizando el valor central en la serie ordenada.
Esto hace que sea una medida especialmente útil en distribuciones
con valores extremos o atípicos debido a que la Media Aritmética en este
tipo de distribuciones pierde representatividad, tal como se vio previamente.
ESTATURA
1,6
1,52
1,66
1,68
1,69
1,66
1,64
1,48
1,61
1,66
1,62
Los valores de la variable estatura se encuentran
desordenados. Si los ordenas de menor a mayor,
los valores de la variable se ubicarán como se
muestra a continuación, por lo que el valor central
es de 1,64. La mediana, el valor que supera a los 5
valores de la variable ubicados a la izquierda y que
es superado por los otros 5 valores ubicados a su
derecha.
Para obtener la me-
diana:
- Se ordenan los valores.
- Se determina el punto
central u orden de la se-
rie al que llamamos “o” y
se calcula como: (n + 1) /
2.
- Se ubica dicho punto y
el valor de la variable co-
rrespondiente al mismo,
que simbolizamos como
xo, es la Mediana, es de-
cir: xo = Me(x).
Además, debemos
considerar las siguien-
tes situaciones:
- Si la cantidad de datos
de la serie es par, este
valor se determina como
el promedio simple de
los dos valores centra-
les.
- Si la cantidad de datos
de la serie es impar, el
valor de la Mediana es
directamente el valor
central.
86
1.2.1 Propiedad de la Mediana
La suma del valor absoluto de las diferencias entre los valores de la variable
y su Mediana, es mínima.
mínimo
Me
x
n
1
i
(x)
i 
−

=
Como veremos más adelante, esta propiedad es utilizada para deter-
minar una medida de distancia entre los valores de la variable y su valor
central, de modo que podamos analizar la dispersión de esos valores en
situaciones donde la media aritmética no es representativa.
Ejemplo 3
En columna se observan los valores de la variable porcentaje del
costo laboral ordenados de menor a mayor. El orden que denotamos
con “o” es:
o = (n + 1) / 2 = 12 / 2 = 6, (orden 6).
La mediana es el valor de la variable ubicado en el orden 6
Me(x)= 20
Costos laboral / Costo total
Rama 4
3
7
10
10
15
20
20
22
25
30
40
Cabe mencionar que en el caso del ejemplo 2, el tamaño de la muestra
es un número impar, por lo que la ubicación de la mediana corresponde a
un número entero, (o = (n + 1) / 2 = 12 / 2 = 6, (orden 6)). No obstante si el
tamaño de la muestra es un número par, el orden será decimal con 5 déci-
mas, en consecuencia la mediana será el promedio de los valores centrales.
Utilizando Infostat, se procesaron los datos de la variable porcen-
taje del costo laboral /costo total para las 10 ramas de actividad,
calculando la mediana.
A continuación se muestra el cuadro de diálogo utilizando Infostat y los re-
sultados se presentan en la Tabla 4 (Ver instrucciones de Infostat).
Al igual que la media
aritmética, la me-
diana, es una medida
que minimiza la suma
de distancias calcula-
das entre los valores de
la variable y la me-
diana, lo que responde
a resolver el mínimo re-
lativo de la función
suma del valor absoluto
de los desvíos, que se
detalla a continuación y
cuya demostración ob-
viaremos.
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
87
88
Tabla 4. Mediana por rama de actividad de la variable porcentaje del costo
laboral.
Consideremos ahora el cálculo de la Mediana a partir de una tabla de
frecuencias. Volviendo a nuestro ejemplo Encuesta a alumnos (base alum-
nos.idb) en la tabla siguiente se presentan las frecuencias de la variable ma-
terias aprobadas. La mediana será el valor que ocupe el lugar 83,5, es decir
el promedio simple entre los valores que ocupan el lugar 83º y 84º. Para
determinar qué valores son, necesitamos las frecuencias absolutas acumu-
ladas.
Tabla 5. Frecuencias de variable materias aprobadas.
La frecuencia absoluta acumulada igual a 102, indica que desde el
valor de la variable que ocupa el lugar 55º hasta el 102º corresponde a 2.
Como los lugares que buscamos están en ese rango, concluimos diciendo
que la Me = 2 materias aprobadas.
1.3 Modo
El Modo o Moda es el valor de la variable que se presenta más frecuente-
mente.
Esto significa que debemos observar los valores de la variable y de-
terminar el valor que más veces se repite, para lo cual podemos trabajar con
serie simple si tenemos pocos valores de la variable o con distribución de
frecuencias si la cantidad de observaciones es grande, en cuyo caso la ma-
yor frecuencia absoluta indicará cuál es el valor modal o modo.
MATERIAS
APROBADAS
ni Ni
0
1
2
3
4
5
22
32
48
37
21
6
22
54
102
139
160
166
Total 166
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
89
Las distribuciones pueden ser: uniformes, unimodales, bimodales o
multimodales. Las distribuciones uniformes son aquellas que no tienen va-
lor modal, es decir ningún valor de la variable se repite más veces que los
demás, todos se repiten con igual frecuencia; las unimodales son aquellas
distribuciones que tiene un solo valor modal, las bimodales tienen dos va-
lores que se repiten más veces que los demás y las multimodales tienen
más de dos valores modales.
En la siguiente ilustración se puede observar la caracterización de
cada medida de posición.
Otro criterio para calcular el modo en distribuciones de intervalos se
basa en definir el intervalo que corresponde a la mayor frecuencia, llamado
intervalo modal, y considerar que la marca de clase representa el valor de la
variable que se presenta más veces.
Por último, podemos determinar el modo gráficamente con el histo-
grama de frecuencias, marcando en el rectángulo más alto el valor modal
por interpolación.
Ahora le proponemos observar en el archivo “industria.idb” la variable
rama de actividad codificada de uno a diez. El valor modal será el código de
variable uno, al que le corresponde una frecuencia de 19 observaciones, la
mayor de las frecuencias que se presentan en Tabla 6.
Tabla 6. Frecuencias de variable rama de actividad.
Frecuencias absolutas
Rama Total Porcentaje
ALIMENTOS Y BEBIDAS 19 12,84
MADERAS Y MUEBLES 14 9,46
MAQUINARIAS Y EQUIPOS 17 11,49
MATERIAL DE TRANSPORTE 16 10,81
PAPEL E IMPRESIONES 11 7,43
PRODUCTOS METÁLICOS 17 11,49
QUÍMICA, CAUCHO Y PLÁSTICO 15 10,14
TEXTILES, CONFECCIONES Y C 16 10,81
VIDRIO Y MINERALES NO METÁ 10 6,76
OTROS 13 8,78
Total 148 100,00
Cabe aclarar que en Infostat no está la posibilidad de calcular el modo
como medida descriptiva en el resumen de medidas. Es por esa razón que
se analiza la tabla de frecuencias para determinar el valor modal.
90
Actividad 4
Con los datos de la Tabla 7, correspondientes a la producción en unidades
de 7 máquinas de una empresa observadas en dos turnos:
Tabla 7. Unidades Producidas Por Máquina
Turno 1 12 14 16 16 18 20 50
Turno 2 10 25 25 27 30 30 35
a) Calcule media, mediana y modo e interprete cada medida.
b) Compruebe las propiedades: y
para ambos turnos, compare
Actividad 5
Examinando los registros de cuentas mensuales de una empresa que vende
libros por correo, el auditor toma una muestra de 12 de esas cuentas no
pagadas. Los montos de deudas registradas se muestran en tabla 8:
Tabla 8. Valor monetario de cuentas no pagadas
$7 $7 $10 $10 $10 $15
$20 $25 $26 $30 $32 $37
a) ¿Cuál es la naturaleza de la variable que estamos analizando?
b) Calcule la media, mediana y modo.
c) Marque las medidas de posición en el gráfico 2, e indique que otros
gráficos puede realizar para mostrar el comportamiento de la varia-
ble.
Gráfico 2
Variable valor de cuentas no pagas

=

−
n
1
i
2
i imo
min
)
x
x
(

=

−
n
1
i
i imo
min
)
x
(
Me
x
7 15 22 30 37
0,00
0,11
0,22
0,33
0,44
frecuencia
relativa
HISTOGRAMA VALOR DE CUENTAS NO PAGAS
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
91
1.4 Medida Geométrica
La Media Geométrica de un conjunto de ”n” valores positivos de una variable, es
la raíz enésima del producto de los “n” valores.
1 2
n
n
Mg( x) ( x )( x )...( x )
=
Esta medida de posición es útil para encontrar el promedio de porcentajes,
razones, índices o tasas de crecimiento.
En distribución de frecuencias es:
1 2
1 2
k
n n n
n
k
Mg(y ) y .y ...y
=
Ejemplo 4
Los rendimientos anuales, en porcentaje, de cuatro acciones de em-
presas multinacionales son: 4.91, 5.75, 9.13, 20.86.
La media geométrica es:
8.56
0.86)
5)(9.13)(2
(4.91)(5.7
Mg(x) 4 =
=
Esta medida de posición también es útil para calcular tasas de creci-
miento promedio a partir de los valores de la variable. Un ejemplo de esto
es:
Ejemplo 5
Se quiere calcular la tasa promedio de crecimiento del PBI contando
con información de los últimos 5 años:
PBI : 200 245 279 300 326
Llamemos r a la tasa que buscamos
La media geométrica es:
245 279 300 326 326
4 4
1 2 200 245 279 300 200
1129
n
n
Mg(x) (x )(x )...(x ) ( )( )( )( ) .
= = = =
Lo que obtuvimos es el relativo promedio es decir (1 + r), si necesitamos la
tasa de variación promedio será: (1+r) – 1, para el ejemplo 0.129, que en términos
porcentuales es el 12,9%
En conclusión para calcular tasa promedio de crecimiento:
1
n
r
inicial
valor
final
Valor
−
=
92
1.4.1 Propiedades de la Medida Geométrica
a) La Media Geométrica no se podrá aplicar cuando algún valor de la
variable asuma el valor cero, debido a que el producto será cero.
b) La Media Geométrica no se podrá aplicar cuando el producto de los
valores de la variable sea negativo y la cantidad de observaciones
sea un número par, dado que el resultado de esta operación será un
número imaginario.
c) El logaritmo de la Media Geométrica es igual a la Media Aritmética
de los logaritmos de los valores de la variable.
Log Mg(x) = M(logx)
Aplicando la propiedad que establece que el logaritmo de un producto
de números, es igual a la suma de los logaritmos de los números, queda:
x)
M(log
x
log
)
)
)...(x
)(x
(x
log(
Mg(x)
Log
n
1
i
i
n
1
n
n
2
1 =
=
= 
=
Actividad 6
La Oferta Global (OG) y el Consumo (C) a precios de 1986 para la Argentina
entre 1989 y 1994 se presentan en el siguiente cuadro.
Concepto 1989 1990 1991 1992 1993 1994
Oferta Global
(OG)
Variación %
anual
9.942,7
-6,9
9.952,1
0,1
11.130,3
11,8
12.586,7
13,1
13.417,2
6,6
14.586,6
8,7
Consumo (C) 7.469,1 10.354,2
a) Calcule la tasa promedio de variación de la OG para el período 1989 –
1994.
b) Determine a cuánto alcanzará la OG dentro de 6 años si se pretende
obtener un crecimiento promedio del 3% anual.
c) ¿Cuál es la media geométrica del incremento porcentual anual de los
consumos?
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
93
Actividad 7
En la siguiente tabla se observan los valores del producto geográfico
bruto (PGB) de la provincia de Córdoba en los años 2012 a 2017.
Producto geográfico bruto de la provincia
de
Córdoba, en precios corrientes.
Año Millones de $
2012 193.510
2013 256.659
2014 351.133
2015 435.070
2016 608.179
2017 759.362
Calcule la tasa de crecimiento promedio anual del PGB en el período 2012-
2017
1.5 Medidas de posición no central
Las medidas de posición no central son llamadas fractiles o cuantiles dentro
de los que encontramos, como los más utilizados:
• cuartiles
• deciles
• percentiles
La r-ésima fractila o cuantil de orden “s”, se define como el valor
de la variable que supera a no más de una fracción de r/s observa-
ciones y es superado por no más de 1-r/s observaciones y se sim-
boliza como P(r/s).
Se determinan dividiendo la distribución en partes simbolizadas como
r/s, donde “s” es el total de partes, tales como cuartos, decenas o centenas
y “r” representa el numerador de la fracción e indica el orden de la fractila o
cuantil. Su concepto es similar al de la Mediana pero trasladado a fracciones
diferentes.
Por ejemplo la fractila de orden tres en un total de diez partes, es el
valor de la variable que supera a no más del 3/10 del total de las observa-
ciones y es superado por no más del 7/10 del total de las observaciones y la
simbolizamos como P(3/10). No obstante lo mencionado, para los casos en
que la distribución se divide en cuatro, diez y/o cien partes, las fractilas se
denominan cuartiles, deciles y/o percentiles respectivamente, en conse-
cuencia para el ejemplo dado el valor P(3/10) equivale al Decil de orden 3 que
se simboliza como: D3.
94
1.5.1 Cuartiles
Si consideramos la variable x representada en el eje numérico, se tiene
25% 25% 25 % 25%
Variable x
Vm Q1 Q2 Q3 VM
Donde las expresiones Vm y VM indican el mínimo y el máximo valor
que asume x, respectivamente.
Considerando sobre un eje los valores de la variable, podemos subdi-
vidir su recorrido en cuatro partes y obtener los cuartiles.
Por lo tanto, su determinación se hará como sigue:
a) ordenando los valores de la variable de acuerdo a su magnitud.
b) determinando el orden de cada cuartil:
o1 = 1/4 (n + 1) -> Q1 = 1
o
x
o2 = 2/4 (n + 1) -> Q2 = 2
o
x = Me
o3 = 3/4 (n + 1) -> Q3 = 3
o
x
Q1 es el valor de la variable que supera a no más del 25% de las ob-
servaciones y es superado por no más del 75% de las observaciones de la
variable. De igual modo con los otros dos cuartiles.
Los deciles y percentiles se calculan de la misma forma, pero teniendo
en cuenta la fracción r/s. Estas medidas se utilizan para estudiar el compor-
tamiento de la variable cuando la misma contiene valores atípicos que afec-
tan la representatividad de la media aritmética.
Ejemplo 6
Para obtener los cuartiles se ordenan de menor a mayor los valores
de la variable porcentaje del costo laboral para la rama 4:
Costos laboral / Costo total
Rama 4
3
7
10
10
15
20
20
22
25
30
40
o1 = 1/4 (n + 1) = 1/4 (12) = 3 -> Q1 = x 3 = 10
o2 = 2/4 (n +1) = 2/4 (12) = 6 -> Q2 = 20 -> Me
o3 = 3/4 (n + 1) = 3/4 (12) = 9 -> Q3 = x 9 = 25
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
95
La interpretación de estos resultados tiene que ver con su definición,
el cuartil uno será el valor de la variable (porcentaje del costo laboral) para
el cual habrá un 25% de empresas cuyo porcentaje es hasta 10, en tanto
que en el 75% restante el porcentaje es superior. De igual forma se interpre-
tan los cuartiles dos y tres. Más adelante veremos que con estas medidas
podemos confeccionar un diagrama llamado diagrama de caja y brazos
que nos permitirá visualizar el comportamiento de la variable y determinar
su asimetría.
Hasta este punto se ha desarrollado el cálculo e interpretación de to-
das las medidas de posición para la variable porcentaje del costo laboral
para las 141 empresas de la muestra
Utilizando Infostat, se procesaron los datos de la variable porcen-
taje del costo laboral/costo total obteniendo las medidas de posi-
ción y los cuartiles.
96
Se observa que el porcentaje promedio es de 30,56%, es decir que en
promedio el costo laboral por empresa representa el aproximadamente 30%
del costo total y que coincide con la mediana, lo que anticipa que la distribu-
ción está centrada en la media y que es simétrica.
Los cuartiles uno y tres concentran el 50% de los valores de la variable,
quedando un 25% de observaciones por debajo del cuartil 1 y otro 25% de
observaciones por encima del cuartil 3.
Actividad 8
Retomando la actividad 2, en la que se ha seleccionado una muestra de
pedidos de clientes, realizados en febrero/2015, a una empresa que fabrica
un bien “X” y se ha registrado la cantidad de unidades solicitadas de dicho
bien.
a) Calcule la mediana y compare el valor de esa medida con el valor
calculado de la media aritmética, de haber diferencia explique breve-
mente cual puede ser la causa de la misma.
b) Se pretende además determinar la cantidad máxima de pedidos del
25% de los clientes que menos demandan y la cantidad mínima de-
mandada del 25% de los clientes que más cantidad de pedidos rea-
lizaron en la muestra. Interprete cada valor calculado
c) ¿Qué porcentaje de clientes se encuentran entre los dos valores cal-
culados en b?
Actividad 9
En relación a la Actividad 5, referida a montos de 12 cuentas no pagadas
por venta de libros. Se le solicita que:
a) Calcule los cuartiles y marque en el histograma del gráfico 2 los va-
lores calculados sobre el eje que corresponda.
b) Analice las medidas marcadas en el gráfico indicando las caracterís-
ticas observadas respecto del comportamiento de la variable. Consi-
dere el concepto de cada medida para interpretar adecuadamente.
2. Medidas de dispersión
La dispersión es una medida de distancia entre los valores individuales de
la variable y una medida de posición central o entre medidas de posición no
central. Es por ello que hay medidas de dispersión que estudian la concen-
tración en torno a un punto y otras que estudian rango o recorrido.
2.1 Varianza
Dentro de las medidas de dispersión la más importante es la Varianza,
dado que mide en el numerador de la fórmula, la distancia total mínima entre
los valores de la variable y su media aritmética, considerada al cuadrado.
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
97
Al hablar de distancia mínima estamos refiriéndonos a la suma del
cuadrado de las diferencias entre los valores de la variable y su media, mí-
nima por la propiedad de la media aritmética que se refiere a la suma del
cuadrado de los desvíos respecto de la media. Esto indica que a mayor dis-
tancia total, habrá mayor dispersión o heterogeneidad en los valores de la
variable. La medida se calcula mediante el promedio o media de la suma de
los desvíos al cuadrado respecto de la media aritmética.
Digamos entonces que es una medida adecuada de dispersión, en
distribuciones de variables cuantitativas en las que la media aritmética es
representativa.
En síntesis, la definición es:
Media aritmética del cuadrado de los desvíos entre los valores de la variable
y su media.
Parámetro
2.1.1 Fórmula de cálculo
Si el numerador del segundo miembro de la igualdad anterior es re-
suelto mediante el desarrollo del cuadrado del binomio que el mismo repre-
senta, se tiene la siguiente fórmula con la que también se puede calcular la
Varianza.
 
2
2 2
2 1 1 1
N N N
i i i
i i i
x x x
N N N

 = = =
 
−  
 
= = −
 
 
 
  
Si desarrollamos el cuadrado del binomio:
  2
1
2
N N
2 2
i i
2 i 1 i 1
x (x
σ
N N
i
i
x )
  
= = =
− − +
= =
  
Considerando sólo el término:
 
=

=
 2
i N
2
N
2
x
2
Introduciendo sumatorio en cada término del desarrollo del cuadrado
del binomio queda:
 
N
N
N
2
x
N
μ
x
σ
N
1
i
2
2
2
i
N
1
i
2
i
2

 =
=

+

−
=
−
=
Llegamos a la fórmula alternativa del cálculo de la varianza:
2
x
x
2
)
(μ
μ
σ 2 −
=
Esta fórmula suele ser más simple para el cálculo manual.
N
2
i
2 i 1
(x μ)
σ
N
=
−
=



=


=
 =
i
N
1
i
i
x
N
N
x
98
2.1.2 Varianza de la muestra
En el caso de muestras, la Varianza se calcula como:
Estadístico
En caso de que la varianza sea utilizada en inferencias por muestreo,
se calcula con una corrección cuyo significado tiene que ver con conceptos
más avanzados que se estudiarán más adelante, en otra asignatura.
Su fórmula es:
Para la variable porcentaje del costo laboral que fue utilizada en ejem-
plos anteriores utilizando el software Infostat, se calcularon las medidas
de dispersión.
Nuevamente con el menú estadísticas se abre una ventana en la que se
debe asignar la variable y se solicita el cálculo de las medidas necesarias.
n n
2 2 2
i i
2 i 1 i 1
(x x) x nx
s
n n
= =
− −
= =
 
n n
2 2 2
i i
2 i 1 i 1
(x x) x nx
s
n 1 n 1
= =
− −
= =
− −
 
c
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
99
Ejemplo 7
Consideremos una rama de actividad, papel e impresiones, para el
cálculo de la varianza mediante hoja de cálculo Excel, de la variable
porcentaje del costo laboral:
X (x-M(x)) (x-M(x))^2
25 6,64 44,04
7 -11,36 129,13
40 21,64 468,13
15 -3,36 11,31
20 1,64 2,68
20 1,64 2,68
10 -8,36 69,95
22 3,64 13,22
30 11,64 135,40
10 -8,36 69,95
3 -15,36 236,04
202 1182,55
118,25
10
55
.
1182
1
n
)
x
(x
s
n
1
i
2
i
2
=
=
−
−
=

=
La varianza de la muestra de empresas de la rama papel e impresio-
nes es 118.25 %2
del costo laboral. La medida representa la distancia pro-
medio al cuadrado calculada respecto de la media, es por ello una medida
de valores de distancia al cuadrado.
Medidas de
dispersión
100
2.1.3 Propiedades de la varianza
• La varianza de una variable es una cantidad no negativa.
V(x)  0
Esto se debe a que en su cálculo se toman los valores de la variable al cua-
drado.
• La varianza de una constante es cero
V(c) = 0
c: constante
Si xi = c y M(x) = c, entonces:
( )
=
−
= =

2
1
0
n
i
c c
V( x)
n
lo que indica que no hay variabilidad alguna.
Verificación:
Si x: 4, 4. 4
La media es 4 y la varianza:
• La varianza una constante por una variable es la constante al
cuadrado por la varianza de la variable
V(c . x) = c2
V(x)
c: constante
Si la variable es ahora cx y la media es la constante por la media de la va-
riable, entonces:
( )
( )
( )
( )
( )
=
=
=
=
 − 
 
=
 
−
 
=
 − 
 
=
 − 
 
=




2
1
2
1
2
2
1
2
2 1
n
i
i
n
i
i
n
i
i
n
i
i
c.x c.M x
V(c.x )
n
c x M x
n
c x M x
n
x M x
c .
n
Verificación
Si x: 4, 5.6
La media es 5 y la varianza:
0
2
)
4
4
(
)
4
4
(
)
4
4
(
2
)
x
x
( 2
2
2
3
1
i
2
i
=
−
+
−
+
−
=
−

=
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
101
1
2
)
5
6
(
)
5
5
(
)
5
4
(
2
)
x
x
( 2
2
2
3
1
i
2
i
=
−
+
−
+
−
=
−

=
Pero si a x la multiplicamos por 2
X’: 8,10,12 La media es 10 y la varianza:
4
2
10
12
(
)
10
10
(
)
10
8
(
2
)
x
x
( 2
)
2
2
3
1
i
2
i
=
−
+
−
+
−
=
−

=
Lo que equivale a:
V(c. x) = c2
V(x) 22
.1 = 4
• La varianza de la suma de una constante más una variable es la
varianza de la variable.
V(c + x) = V(x)
c: constante
Es decir la variabilidad de los datos no se modifica cuando se suma un
escalar a la variable.
Demostrando para el caso en que sumo la constante (igualmente vá-
lido en caso de restarla):
( ) ( )
=
 + − + 
 
+ =

2
1
n
i
i
x c M( x) c
V( x c)
n
Eliminando paréntesis en la base de la potencia del numerador del
segundo término:
( )
=
+ − −
+ =

2
1
n
i
i
x c M( x) c
V( x c)
n
( )
=
−
+ =

2
1
n
i
i
x M( x)
V( x c)
n
( )
+ =
V( x c) V x
Actividad 10
Verifique la propiedad para un aumento constante de 3 unidades en una
variable x con valores 4,5 y 6.
102
2.2 Desviación estándar
Esta medida de dispersión está asociada totalmente a la Varianza.
Se define como: la raíz cuadrada positiva de la Varianza.
N
μ)
(x
σ
DS(x)
N
1
i
2
i

=
−
=
=
n
)
x
(x
s
DS(x)
n
1
i
2
i

=
−
=
=
Esta operación algebraica nos permite expresar el resultado en las
mismas unidades que la variable por lo tanto su interpretación es más fácil
de realizar.
Para la variable porcentaje del costo laboral de las 141 empresas la
desviación estándar es:
%
63
.
14
=
=
= 213.98
σ
σ 2
Considerando a la Media Aritmética con un valor de 30,56 %, podemos
concluir que en este caso y atendiendo a la naturaleza del problema hay
baja dispersión o, en otros términos, los datos están concentrados en torno
a la media, se hallan a poca distancia de ésta, lo que indicaría que son
homogéneos.
2.3 Coeficiente de variación
Es una medida relativa de dispersión que se calcula como el cociente
entre la Desviación Estándar y la Media Aritmética.
Se utiliza fundamentalmente cuando se pretende comparar, en cuanto
a su dispersión, distribuciones expresadas en diferentes unidades de me-
dida, mostrando cuál de ellas presenta menor dispersión ó mayor con-
centración o bien, datos más homogéneos respecto de su media, lo que
en definitiva confirma la representatividad del promedio calculado para
esos datos.
DS( x )
CV( x )
M( x )
=
Si se multiplica por 100 se expresa como porcentaje e indica obvia-
mente el porcentaje de dispersión de la variable en torno a su media.
En el ejemplo de porcentaje de costo laboral, el coeficiente de varia-
ción será
CV= 4786
.
0
56
,
30
63
,
14
=
=
y
s
El valor del coeficiente de variación puede multiplicarse por 100 para
expresarlo en porcentaje e interpretar que la dispersión relativa del porcen-
taje del costo laboral en torno a la media es 47.86%, lo que refleja una dis-
persión inferior al 100%. Además de este análisis, la relevancia de la medida
radica en que es relativa, lo que la hace prescindir de la unidad de medición,
permite comparar variables expresadas en distintas unidades de medición,
indicando cuál es la variable que presenta datos más homogéneos para el
caso en el que el Coeficiente de Variación sea menor.
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
103
Actividad 11
Retomando la actividad 2, en la que se ha seleccionado una muestra de
pedidos de clientes, realizados en febrero/2015, a una empresa que fabrica
un bien “X” y se ha registrado la cantidad de unidades solicitadas de dicho
bien.
a) Calcule el recorrido. Emita una opinión respecto del valor calculado.
b) Calcule la varianza y desviación estándar de la variable. Emita una
opinión sobre cada medida en relación al comportamiento de la va-
riable.
c) Calcule la desviación estándar si para el mes de marzo se espera
que todos los clientes soliciten 4 unidades más del bien “X” con res-
pecto a los pedidos de febrero.
d) En otra situación, si para el mes de marzo se espera que todos los
clientes reduzcan en un 15 % el número de unidades del bien “X”
solicitadas con respecto a febrero, ¿cuál sería el valor de la varianza
en el mes de marzo?
Actividad 12
En relación a la actividad 3, en la que se ha relevado el sueldo del entrevis-
tado de la encuesta permanente de hogares para las categorías patrón y
cuenta propia, se le solicita a Ud. que:
a) Calcule el rango para cada categoría y analice el significado del va-
lor.
b) Calcule la varianza, desviación estándar de cada categoría y emita
una opinión en relación al significado de estos valores.
c) Calcule el coeficiente de variación de cada categoría interprete cada
valor comparando las distribuciones.
d) Suponga que se incrementa el sueldo en 50$ para cada persona en
cada categoría, calcule la varianza del sueldo de cada categoría des-
pués del incremento. (Aplique propiedades).
e) Considere que en lugar de incrementar el sueldo en 50$, se incre-
mente un 18%. Calcule la desviación estándar del sueldo de cada
categoría después del incremento. (Aplique propiedades).
f) Para los ítem d y e, explique el efecto que produce el cambio en la
variable, sobre el coeficiente de variación.
2.4 Recorrido y Recorrido Intercuartil
El recorrido es la diferencia entre el valor máximo y el mínimo de la variable.
Se basa en la distancia o rango de los valores y no en una concen-
tración en torno a un punto. Permite interpretar que la dispersión es alta en
la medida que los valores de la variable tengan amplio rango de variación,
en consecuencia, al no considerar en el cálculo todos los valores de la va-
riable, es afectada por valores extremos y, de este modo, menos precisa que
la varianza.
R = VM - Vm
104
El Recorrido Intercuartílico es una medida de dispersión útil para determi-
nar la concentración del 50% central de los datos.
Se calcula mediante la diferencia entre el tercer y primer cuartil.
RI = Q3 – Q1
Es una de las medidas que analizan la dispersión en base al rango de
los valores considerados en el cálculo, por lo que no tiene en cuenta a todos
los valores de la variable.
3. Diagrama de caja y brazos
Esta representación es confeccionada con la mediana y los cuartiles.
Consiste en marcar sobre un eje real los valores de la variable, el que puede
ser posicionado en forma horizontal o vertical (Infostat hace diagramas de
caja y brazos verticales).
Con los cuartiles se forma una caja cuyos lados son el cuartil 1 y 3 y
la mediana se marca en el interior de la caja, la que representa la distribu-
ción del 50 % central de los datos. A ambos lados de la caja quedan los
brazos, los que determinan en definitiva si hay deformaciones horizontales.
Para construir los brazos se utiliza una regla empírica utilizando el Re-
corrido Intercuartílico, definiendo dos límites: límites internos y externos. Es-
tas barreras permiten establecer un criterio para decidir si los valores extre-
mos de una variable son atípicos o extremadamente atípicos en relación a
los demás.
Los Límites Internos, al interior del cual se consideran valores nor-
males de la variable, son determinados a una distancia de 1.5 veces el re-
corrido intercuartil, respecto a los cuartiles primero y tercero respectiva-
mente.
[ Q1 - 1,5 RI ; Q3 + 1,5RI ] = [LIO ; LSO]
Cuando existen valores de la variable que están fuera de las barreras
internas significa que esos valores son alejados de los más homogéneos y
se pueden considerar como atípicos, comúnmente identificados en las sali-
das de los software con una letra O, por su designación en inglés, Outliers.
Cuando esos valores están muy alejados son considerados extremos,
los que se identifican calculando los llamados límites externos.
Se aplica especial-
mente en control de
calidad estadístico,
para confeccionar
cartas de control de
variables cuantitati-
vas en procesos pro-
ductivos como por
ejemplo cuando se
analiza si la produc-
ción de una pieza, en
cuanto a sus dimen-
siones, cuenta con
una variabilidad que
responde a los es-
tándares de variabili-
dad del producto y no
está en riesgo de
producir defectuo-
sos.
Es el caso donde
mediante una mues-
tra de 5 unidades, en
las que tomamos el
diámetro de cada
pieza, la diferencia
entre el mayor y me-
nor diámetro será el
rango, tomando una
determinada canti-
dad de muestras po-
dremos ver en qué
forma se modifica el
rango y habrá un in-
dicio de la variabili-
dad del proceso, ob-
viamente mientras
mayor valor asume el
rango, más riesgo
habrá de producir
fuera de los estánda-
res establecidos.
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
105
Los Límites Externos se calculan a una distancia de 3 veces el reco-
rrido intercuartil respecto a los cuartiles primero y tercero.
[ Q1 - 3 RI ; Q3 + 3RI ]= [LIE ; LSE]
Los valores de la variable que quedan entre los límites internos y ex-
ternos se consideran valores atípicos. Cuando existen valores de la variable
que están fuera de las barreras externas significa que esos valores son muy
alejados de los más homogéneos y se pueden considerar como extrema-
damente atípicos. Generalmente, en las salidas de computación, estos va-
lores son marcados de alguna manera.
La siguiente ilustración muestra el diagrama de caja y brazos para di-
ferentes tipos de distribuciones.
(1) (2) (3)
Observamos que en la distribución Nº 1 ambos brazos son iguales y
la mediana se ubica en el centro de la caja. Veremos más adelante que estas
distribuciones son llamadas simétricas respecto de su forma, mientras que
en la distribución Nº 2 el brazo superior es mayor que el inferior y, opuesta-
mente en la distribución Nº 3 el brazo inferior es más largo que el superior.
Estas dos últimas distribuciones se definen respecto de la forma como asi-
métricas derecha e izquierda respectivamente.
También podemos analizar la dispersión, ya que el tamaño de la caja
representa la amplitud intercuartil y por ende determina la concentración o
dispersión del 50% central de los valores de la variable.
106
Por lo tanto, si la caja es más ancha indicará que ese conjunto central
de observaciones de la variable es más disperso. La línea que se ubica den-
tro de la caja indica la posición de la Mediana.
Por último, se observa que en la distribución Nº 2 y Nº 3 existen valores
atípicos y/o extremos.
En los siguientes gráficos se presenta el diagrama de cajas y
brazos de la variable Porcentaje del costo laboral obtenidos con
Infostat para la muestra total y para empresas de las ramas 4 y 6
(ver instructivo de Infostat).
Actividad 13
a) Con los datos de la actividad 5, confeccione el diagrama de caja y
brazos y emita una opinión sobre el comportamiento de la variable,
analizando el diagrama.
b) Explique cómo analiza la existencia de valores atípicos, que significa
eso para la distribución y determine si para la variable cantidad de
pedidos hay valores extremos o atípicos de demanda.
Actividad 14
En relación a la actividad 3, en la que se ha relevado el sueldo de dos mues-
tras de la encuesta permanente de hogares referidas a categorías, patrón y
cuenta propia. Se le solicita a Ud. Que:
a) Confeccione el diagrama de caja y brazos para la variable sueldo en
cada muestra y analice el comportamiento de la variable, compa-
rando ambas situaciones.
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
107
b) Explique cómo analiza la existencia de valores atípicos, que significa
eso para la distribución y determine si para la variable cantidad de
pedidos hay valores extremos o atípicos de la variable sueldo en
cada muestra.
Actividad 15
El siguiente Gráfico muestra los resultados del procesamiento con Infostat,
de la variable peso expresado en kg. de 100 personas adultas:
MEDIDAS DESCRIPTIVAS
n Media Mediana Desv. Est. Min. Max. Q1 Q3
100 65.35 63.50 11.21 47 100 57 72
DIAGRAMA DE CAJA Y BRAZOS
---!---------!---------!---------!---------!---------! peso
50 60 70 80 90 100
a) Marque en el diagrama de caja y brazos: la mediana y los cuartiles e
interprete cada medida. Analice.
b) Determine el recorrido intercuartil y emita una opinión respecto del
significado de este valor en la serie.
c) Considera que hay personas con peso atípico en la serie analizada.
Justifique su respuesta.
4. Otras medidas
Bajo esta denominación se incluyen los momentos, medidas de posi-
ción útiles para calcular las demás medidas de posición, dispersión y forma
antes mencionadas.
Los momentos pueden ser naturales o centrados.
4.1 Momentos naturales
Los llamados momentos naturales se definen como:
La media aritmética de la potencia e-résima de la variable.
= r
r
a ( x ) M( x )
Los momentos naturales de orden 0,1,2 son los siguientes:
0
0 1
= =
a ( x ) M( x )
1
1 = = =
a ( x ) M( x ) M( x ) 
+
108
2
2 =
a ( x) M( x )
Por lo tanto relacionando el momento natural de orden uno y el de
orden dos obtenemos la varianza de la siguiente forma:
2 2
2 1
− =
a (a ) 
4.2 Momentos centrados
Los momentos centrados, están definidos como:
La media de la diferencia entre los valores de la variable y la media
aritmética, elevada a la potencia e-résima.
= − r
r
m ( x ) M( x )

Los momentos centrados de orden 0,1,2 son entonces los siguientes:
0
0 1
= − =
m ( x ) M( x )

Por propiedad de Media Aritmética
1
1
m (x) M(x ) 0
= − =
2 2
2 = − =
m ( x ) M( x )
  Varianza
Relacionando ambos tipos de momentos, se observa:
m2 = a2 – (a1)2
5. Medidas de forma
Las medidas de forma, al igual que las medidas de posición y disper-
sión, determinan el comportamiento general de la variable.
Se pueden dividir en análisis de comportamiento horizontal o asime-
tría, o bien vertical llamado curtosis.
En cuanto a la asimetría, las distribuciones pueden ser:
• Asimétrica derecha
• Asimétrica izquierda
• Simétrica.
Y en cuanto a la curtosis o puntiagudez:
• Leptocúrtica
• Mesocúrtica
• Platicúrtica
La siguiente imagen muestra la forma para diferentes distribuciones:
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
109
a. ASIMETRÍA
a1. Asimétrica positiva
b. CURTOSIS
b1 . Leptocúrtica
a2. Asimétrica negativa. b2. Mesocúrtica
a3. Simétrica b3. Platicúrtica
En la imagen a1 observamos una distribución asimétrica derecha dado
que la deformación se produce a la derecha de la misma, también observa-
mos que los datos se concentran a la izquierda. En la imagen a2 la distribu-
ción es asimétrica izquierda con una situación totalmente opuesta a la de la
imagen a1. En la imagen a3 la distribución es simétrica lo que significa que
los datos se encuentran distribuidos de manera equitativa a ambos lados de
la Media Aritmética.
En lo atinente a la curtosis, se define como el grado de concentración
de los valores de la variable en torno al modo, mientras mayor concentración
más puntiaguda se muestra la distribución tal como se ve en la imagen b1,
llamándose en este caso Leptocúrtica, es Mesocúrtica cuando está menos
concentrada alcanzando una altura media como muestra la imagen b2 y es
Platicúrtica en el caso en que los valores de la variable se dispersan hasta
alcanzar una forma aplanada en la distribución como se observa en b3 .
0,00 3,81 7,62 11,44 15,25
Variable
0,00
0,06
0,12
0,18
0,24
Frecuencia
Relativa
3,00 12,25 21,50 30,75 40,00
Variable
0,00
0,02
0,05
0,07
0,09
Frecuencia
Relativa
0,00 0,25 0,50 0,75 1,00
Variable
0,00
0,62
1,23
1,85
2,46
f
recuencia
relativa
3,00 12,25 21,50 30,75 40,00
Variable
0,00
0,02
0,05
0,07
0,09
Frecuencia
Relativa
-2,25 3,88 10,00 16,12 22,25
Variable
0,00
0,04
0,08
0,12
0,16
Frecuencia
Relativa
3,00 12,25 21,50 30,75 40,00
Variable
0,00
0,02
0,05
0,07
0,09
Frecuencia
Relativa
110
5.1 Coeficientes de asimetría
El coeficiente de asimetría se calcula por diversos procedimientos y se
simboliza como CP.
• Coeficiente de asimetría de PEARSON, basado en la relación em-
pírica entre las medidas de posición central, permite determinar una
medida relativa de la distancia que se presenta entre ellas cuando la
distribución es asimétrica. Su valor es cero cuando la distribución es
simétrica en virtud de que las tres medidas son idénticas en este tipo
de distribuciones.
Para la población es:
𝑃 =
𝜇 − 𝑀𝑜
𝜎
≅
3(𝜇 − 𝑀𝑒)
𝜎
Y en caso de ser una muestra es:
𝑃 =
𝑥̅ − 𝑀𝑜
𝑆
≅
3(𝑥̅ − 𝑀𝑒)
𝑆
• Coeficiente basado en momentos centrados
3
1
3
1 3 2 3
2
=
−
= =

N
i
i
( x )
N
G
( )


 
El coeficiente de asimetría muestral es:
3
1
1 3
=
−
=

n
i
i
( x x )
n
G
s
El coeficiente de asimetría puede asumir valores mayores, iguales o
menores que cero. Si es cero la distribución es perfectamente simétrica pero
si es positivo es asimétrica positiva o si es negativo asimétrica negativa.
> 0 (Asimetría derecha o positiva)
Ca = 0 (Simétrica)
< 0 (Asimetría izquierda o negativa)
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
111
5.2 Coeficientes de curtosis
Las fórmulas más conocidas para el cálculo del coeficiente de curto-
sis, simbolizado como Ck son:
• Coeficiente basado en los momentos centrados
4
1
4
2 4 2 4
2
3 3
=
−
= − = −

N
i
i
( x )
N
G
( )


 
El coeficiente de curtosis muestral es:
4
1
2 4
3
=
−
= −

n
i
i
( x x )
n
G
s
Estos coeficientes pueden asumir valor mayor, igual o menor que cero,
indicando que la distribución es alta (leptocúrtica), media (mesocúrtica) y
baja (platicúrtica), respectivamente.
En Infostat el coeficiente de curtosis que se obtiene debe ser comparado
con el valor 0. Si es igual a 0, entonces se trata de una curtosis normal, si
es mayor que 3 es leptocúrtica o más que normal y si es menor que 3, es
platicúrtica o menos que normal.
Utilizaremos la variable gasto en movilidad mensual de la base
“alumnos.idb” para realizar los cálculos de las medidas de
asimetría y curtosis utilizando Infostat. VER INSTRUCTIVO DE
INFOSTAT
Se observa que el coeficiente de asimetría obtenido con la fórmula de los
momentos asume el valor 3.6, lo cual significa que la variable tiene asimetría
derecha, esto es porque el valor está por encima del valor 0 que indica un
comportamiento simétrico para la variable. Por otra parte observamos
también que la media es mayor que la mediana, y eso se debe a que la
media se ve afectada por los valores de la variable ubicados en el extremo
derecho de la distribución, que es precisamente donde se produce la caída
o deformación horizontal.
Observando el coeficiente de curtosis de 17,45 (> a 3) se observa que es
muy puntiaguda es decir tiene una alta curtosis.
112
Utilizando la fórmula de Pearson para calcular el coeficiente de asi-
metría se obtiene:
𝑃 =
𝑥̅ − 𝑀𝑜
𝑆
≅
3(𝑥̅ − 𝑀𝑒)
𝑆
El valor 0,67 del coeficiente de asimetría de Pearson indica también
asimetría derecha para la variable. No obstante, cada coeficiente de asime-
tría calculado según la fórmula que corresponda dará numéricamente un va-
lor diferente, pero el sentido de la asimetría como derecha o izquierda será
igual cualquiera sea el coeficiente que utilicemos.
En cuanto a la curtosis, se puede observar que la variable en estudio
presenta una distribución leptocúrtica, es decir alta. Debe tenerse en cuenta
que esta medida de forma sólo refleja una alteración en la distribución de-
bido a la altura, lo cual en términos de la variable, estaría indicando que la
mayor concentración de los valores de la variable tiene una alta frecuencia
o en otros términos un alto porcentaje de valores de la variable están con-
centrados en ese tramo.
Gráficamente las dos medidas de forma pueden verse reflejadas en
el histograma de la Gráfico 3, donde la ubicación de las medidas de posición
responde a la marcada asimetría que la variable presenta. Esto nos lleva a
relacionar las medidas de posición central y las de forma.
Gráfico 3
Histograma de la variable gasto en movilidad mensual
La distancia entre las medidas de posición central media, mediana y
modo permite establecer si la distribución es simétrica o asimétrica. En las
simétricas las tres medidas coinciden aproximadamente, mientras que en
distribuciones asimétricas son diferentes. Estas relaciones se ilustran en las
siguientes imágenes. }
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
113
Distribución asimétrica derecha
Mo < Me < M(x)
Distribución asimétrica izquierda
M(X) < Me < Mo
Distribución simétrica
M(X) = Me = Mo
Considerando las definiciones de cada medida, vemos que en una dis-
tribución asimétrica derecha el modo está más cerca del origen del sistema
de coordenadas debido a que es el valor de mayor frecuencia, la mediana
estará en el centro por ser el valor central del conjunto ordenado de valores
de la variable, y la media aritmética se verá afectada por los valores que se
encuentran en el extremo derecho de la distribución. Igual razonamiento po-
demos aplicar en distribuciones asimétricas negativas y simétricas.
Actividad 16
Es importante para diagramar actividades, los gastos que las mismas pue-
den ocasionar en los bolsillos de los estudiantes, es por eso que se analiza
el gasto en libros y movilidad, utilizando información de la base de datos de
“alumnos. Idb”. Relacione las medidas descriptivas de cada variable y los
gráficos de caja y brazos e histogramas para responder lo que se solicita:
0,00 3,81 7,62 11,44 15,25
Variable
0,00
0,06
0,12
0,18
0,24
Frecuencia
Relativa
0,00 0,25 0,50 0,75 1,00
Variable
0,00
0,58
1,15
1,73
2,30
Frecuencia
Relativa
0,64 10,32 20,00 29,68 39,37
Variable
0,00
0,03
0,05
0,08
0,10
Frecuencia
Relativa
114
a) Analice el valor de las medidas de forma para cada variable y com-
pare emitiendo una opinión respecto en tal sentido respecto de cada
variable.
b) Relacione su opinión con el diagrama de caja y brazo e indique qué
observa en ese gráfico en relación a la opinión emitida.
c) Analice los histogramas y vincule su análisis a los ítems a y b.
Medidas descriptivas
Histográmas
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
115
6. Distribuciones bidimensionales
En las secciones anteriores presentamos el cálculo de medidas para
describir una variable. Ahora introducimos medidas que permiten describir
numéricamente la relación lineal entre dos variables cuantitativas.
Las distribuciones bidimensionales son las que se refieren al trata-
miento simultáneo de dos variables, por ejemplo, estatura y peso de un con-
junto de personas, ingresos y gastos mensuales por familia en un grupo de
familias, rendimiento por hectárea e inversión en fertilizantes, etc.
En estos ejemplos y en todos los que se puedan presentar, lo impor-
tante es saber si esas variables se relacionan o vinculan matemáticamente
mediante una función lineal, en otros términos si es factible que logremos
una función mediante la cual dando valores a una de las variables estamos
generando valores de la otra estimativamente parecidos a los verdaderos
valores que la variable asume.
Para cumplir ese objetivo utilizaremos la covarianza, que indica si hay
asociación lineal entre las variables y el coeficiente de correlación lineal de
Pearson que indica la intensidad o grado de asociación.
6.1 Covarianza y Coeficiente de Correlación de Pearson
Es una medida de dispersión conjunta entre dos variables cuantitativas
que indica la presencia de asociación lineal directa o inversa entre las
mismas.
La siguiente imagen permite observar la medida vinculada al diagrama de
dispersión.
Se define como:
 
Cov( x,y ) M ( x M( x))(y M(y ))
= − −
116
1
n
i i
i
( x M( x ))(y M(y ))
Cov( x,y )
n
=
− −
=

Realizando el producto de los binomios y operando se llega finalmente
a que:
1 1 1
n n n
i i i i
i i i
x y x y
Cov( x,y ) M( xy ) M( x )M(y )
n n n
= = =
= − = −
  
Si las variables son independientes entonces la Cov(x,y) es cero. Su
rango de variación oscila entre infinito negativo y positivo y su significado
depende del signo: si es positivo, la asociación entre las variables es directa
y de lo contrario es inversa.
Si x,y son independientes Cov (x,y) = 0
Si x,y están asociados en forma directa Cov (x,y) > 0
Si x,y están asociados en forma inversa Cov (x,y) < 0
La Covarianza sólo nos indica el sentido de la relación. Para medir el
grado de relación, es necesario calcular una medida estandarizada deno-
minada Coeficiente de correlación lineal de Pearson
El Coeficiente de correlación lineal de Pearson mide la intensidad
de asociación lineal entre las variables. Puede asumir valores entre -1 y 1 y
se calcula dividiendo la covarianza por el producto de las desviaciones es-
tándar de cada una de las variables.
COV( X,Y )
r
DS( x ).DS( y )
=
Cuando el valor del coeficiente de Pearson (r) es 0, indica que no hay
asociación lineal entre las variables analizadas, si su valor es negativo y
próximo a 1, indica asociación lineal directa o positiva e intensa en la medida
que más se aproxima a 1, similarmente si su valor es negativo indica aso-
ciación inversa o negativa y mientras más se acerca a -1 más intensa será
la asociación lineal.
En la siguiente imagen se puede observar cuatro situaciones extremas
de aplicación del coeficiente r de Pearson.
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
117
Para aclarar este concepto, consideraremos la tasa de desempleo (x)
y la tasa de renuncia (y) para 13 regiones en un momento determinado del
tiempo. Se calculará la covarianza y el coeficiente de correlación de Pearson
y se interpretará su resultado.
Procesando los datos con Infostat se obtienen los resultados de
la matriz de covarianza y la matriz de correlación.
118
En base a los resultados obtenidos puede concluirse que hay asocia-
ción inversa entre las variables analizadas. Esto, en otros términos, significa
que a medida que la tasa de desempleo aumenta, la tasa de renuncia dis-
minuye. Por otra parte ante un coeficiente de correlación de Pearson de -
0,82, se interpreta que la asociación lineal es muy buena.
• Cuando las variables son dependientes, la varianza de una suma o
diferencia de variables es igual a las suma de las varianzas de cada
una de las variables, más o menos, dos veces la covarianza.
( ) ( ) ( )
 = +  2
V( x y ) V x V y .Cov x,y
Covarianza (x,y)
Coeficiente de
correlación (x,y)
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
119
Por definición de varianza:
( ) ( )
( )
( )
( ) ( )
2
1
2
1
n
i i
i
n
i i
i
x y M x M(y )
V( x y )
n
x M x y M(y )
n
=
=
 
+ − +
 
+ =
 
− + −
 


Resolviendo el cuadrado del binomio del numerador del segundo tér-
mino:
( )
( ) ( )
( )( ) ( )
( )
=
− + − − + −
+ =

2 2
1
2
n
i i i i
i
x M x x M x y M(y ) y M(y )
V( x y )
n
Distribuyendo el sumatorio y n:
( )
( ) ( )
( ) ( )
( )( )
= = =
− − − −
+ = + +
  
2 2
1 1 1
2
n n n
i i i i
i i i
x M x y M y x M x y M(y )
V( x y ) .
n n n
Por lo que:
( ) ( ) ( )
+ = + + 2
V( x y ) V x V y .Cov x,y
O bien:
( ) ( ) ( )
− = + − 2
V( x y ) V x V y .Cov x,y
Observemos que, si la covarianza es cero, indica que hay indepen-
dencia entre las variables "x" e "y" con lo que la varianza de la suma o
diferencia de las variables "x" e "y" será igual a la suma de las varianzas
de cada una de ellas.
V (x  y) = V(x) + V(y)
Actividad 17
Considerando los datos de la base EPH.idb, un aspecto importante es la
relación entre las horas trabajadas y la antigüedad en el empleo del jefe de
hogar. A partir de los siguientes resultados, responda:
a) La covarianza, interprete e indique el significado del valor.
b) Indique a qué medida corresponde cada valor de la diagonal princi-
pal.
c) La matriz de correlación, interprete cada valor e indique el significado
del valor.
120
7. Actividades de aprendizaje
Actividad 18
Con los datos de la base EPH, se ha analizado la variable sueldo, que re-
presenta el ingreso de las personas consultadas en la muestra. Se ha con-
siderado para el análisis descriptivo el ingreso de Empleadores y trabajado-
res por su cuenta, las medidas descriptivas para el ingreso de cada una de
esas categorías, se muestra en tabla 12:
Tabla 12. Medidas Resumen
Medidas
variable in-
greso
Empleador
Cuenta
propista
n 9 21
Media 1280 737,14
Var(n-1) 394075 237401,43
Mín 370 240
Máx 2200 2100
Mediana 1300 650
Q1 970 320
Q3 1500 870
Asimetría 0,03 1,53
a) Calcule la media general (varones y mujeres) del ingreso de ambas
categorías.
b) Calcule la desviación estándar del ingreso de cada categoría.
c) Calcule el coeficiente de variación, para cada grupo, interprete y
compare.
d) Calcule el recorrido intercuartil para cada categoría y compare inter-
pretando adecuadamente la medida.
e) Indique observando la tabla de medidas resumen, ¿qué distribución
presenta mayor asimetría y cuál es el sentido de la misma?
f) Calcule media y varianza del ingreso para la categoría empleadores,
luego de una disminución del 20% debido a devaluaciones moneta-
rias. (Aplique propiedades).
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
121
Actividad 19
Retomando la actividad 20 de la Unidad 1, se le solicita que analice la varia-
ble mediante un análisis descriptivo: medidas de posición, dispersión y
forma, interpretando el significado que le atribuye a cada una.
Actividad 20
Conforme a la actividad 23 de la Unidad 1, en la que para 15 empresas se
relevó el precio y el margen de utilidad de un producto.
Calcule con Infostat la matriz de covarianza y correlación e interprete cada
valor estableciendo un vínculo con el gráfico a que hace referencia la activi-
dad en la unidad 1.
Actividad 21
Conforme a la actividad 24 de Unidad 1, referida a una heladería que cuenta
con dos sucursales en la Ciudad de Córdoba, una ubicada en la zona Norte
y otra ubicada en la zona Sur. A continuación se presenta información sobre
el número de pedidos telefónicos recibidos por día, para una muestra alea-
toria de 20 días:
Zona
Norte
4 6 7 5 5 6 7 4 8 6 8 5 7 6 7 5 6 6 7 4
Zona
Sur
4 6 5 3 6 3 5 6 5 6 4 4 5 6 6 2 3 4 5 6
a) Para cada sucursal:
Calcule las medidas descriptivas y analice cada variable
b) Efectúe comparaciones
Actividad 22
A continuación, se presentan los precios de venta (en miles de $) de 30
casas de dos zonas residenciales de la Ciudad de Córdoba que fueron utili-
zados en la actividad 25 de la Unidad 1.
Zona
A
90 116 120 95 114 97 121 108 102 91
107 99 92 118 100 96 98 110 104 125
100 93 105 112 96 113 100 95 105 129
Zona
B
100 148 130 118 135 125 110 132 125 115
134 116 131 109 126 112 126 105 150 119
121 145 128 117 136 122 119 130 125 133
Para cada zona:
Calcule las medidas de posición dispersión y forma y analice cada distribu-
ción emitiendo una opinión en relación a las características estadísticas de
los precios de venta de las viviendas en cada zona, es decir, los precios más
altos, los más variables, la zona que presenta valores muy diferentes al pro-
medio, etc.
Relacione las interpretaciones que Ud. Realiza en esta actividad con las que
realizó en la unidad 1.
122
Actividad 23
Un aspecto relevante para las empresas es la cantidad de personal ocu-
pado. En la tabla 13 se presentan las medidas descriptivas de esta variable
por sector de economía.
Tabla 13. Medidas descriptivas de variable cantidad de personal
MEDIDA
DE ORIGEN
AGROPE-
CUARIO
PRODUCTOS
NO METÁLI-
COS
PRODUCTOS
METÁLICOS
OTRAS
INDUSTRIAS
n 49 36 50 13
Media 33,63 27,67 35,36 58,38
D.E. 40,81 41,19 47,61 83,7
CV 121,33 148,88 134,65 143,35
Mín 3 3 4 6
Máx 191 168 214 280
Q1 10 6 11 17
Asimetría 2,35 2,62 2,56 2,2
Kurtosis 4,78 5,23 5,5 2,23
a) Analice la variable en cada sector e indique en que sector el prome-
dio es más representativo.
b) ¿En qué sector considera Ud. que se debería promover más contra-
tación de personal?
c) Se ha efectuado el análisis conjunto de las variables cantidad de per-
sonal y costo laboral sobre costo total. Los datos se transcriben en
tablas 14 y 15.
Tabla 14. Matriz de covarianzas
perso-
nal
costos lab/costo to-
tal
personal 2306,03 -82,87
costos lab/costo total -82,87 201,06
Tabla 15. Matriz de correlación
perso-
nal
costos lab/costo to-
tal
personal 1 -0,12
costos lab/costo total -0,12 1
Analice la información y emita una opinión sobre la relación lineal que puede
existir entre las variables.
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
123
8. Referencias Bibliográficas
- Berenson, M y Levine, D (2003) Estadística Básica en Administración. Con-
ceptos y Aplicaciones. 6º Edición Prentice Hall.
- Blanch et al (2005) Ciclo Básico a Distancia Guía de Estadística I. Editorial
Asociación Cooperadora de la Facultad de Ciencias Económicas - UNC.
- Peña, D. (2001) Fundamentos de Estadística. Editorial Alianza.
- Saino M. (2009). Estadística Descriptiva. Material de estudio y aplicaciones
prácticas correspondiente a los Capítulos I, II del programa de Estadística I.
Asoc Coop F.C.E. (U.N.C.). ISBN: 978-987-1436-20-0.
124
Soluciones y respuestas
Actividad 1:
A cargo del alumno.
Actividad 2:
a) Medidas resumen con Infostat
Variable n Media Mediana
xi 14 23,43 22,50
Interpretación:
El promedio de unidades solicitadas de él bien analizado es de 23 unidades,
para la muestra de 14 clientes.
Hay 7 clientes (50%) que solicitaron menos de 23 unidades.
Hay dos valores modales, correspondientes a los valores más frecuentes
que son de 16 y 25 unidades, respectivamente.
b)
Para ello se utilizó el Excel.
xi (xi- promedio)
10 -13,43
12 -11,43
14 -9,43
16 -7,43
16 -7,43
18 -5,43
20 -3,43
25 1,57
25 1,57
27 3,57
30 6,57
30 6,57
35 11,57
50 26,57
Total 0,00
c) Aplicando propiedades de la Media aritmética.
Y = x + 4
M(y) = M (x +4)
= M(x) + M (4)
= 23,43 + 4
M(y) = 27,43
( )
 =
− 0
)
x
(
M
xi
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
125
d) Aplicando propiedades de la Media aritmética.
Y= X – 0,15 X
= X (1 – 0,15) (extraemos factor común)
Y = x. 0,85
M(Y) = M (x. 0,85)
= 0,85. M(x)
= 0,85. 23,43
M(y) = 19,92
Actividad 3
a)
Muestra tamaño: 9 personas (patrones).
Muestra tamaño: 21 personas (Cuenta propia).
b) Monto total
Monto total de sueldo de los 9 patrones analizados es de $11520.
Monto total de sueldo de los 21 cuentapropistas analizados es de $15480.
c) Promedios
Patrón Cuenta Propia
Promedio 1280 737,14
El promedio de sueldo de los 9 patrones es de $1280, mientras que de los
21 cuentapropistas es de $ 737,14, la diferencia (a pesar de que los montos
totales no difieren tanto) se debe a que las muestras son considerablemente
diferentes.
d) Se define la nueva variables Y = x - 0,20.x = x. (1-0,20) = 0,80. X
M (Y) = M (0,80. x)
=0,80. M(x)
Entonces para cada muestra los nuevos valores de promedio bajo el efecto
inflacionario serán:
Patrón Cuenta Propia
Promedio 1280 737,14
Nueva media 1024 589,71
e) Se define la nueva variable.
Y = x + 50
M(y) = M (x +50)
= M(x) + 50
Entonces para cada muestra los nuevos valores de promedio serán:
Patrón Cuenta Propia
Promedio 1280 737,14
Nueva media 1330 787
f) Definimos entonces una nueva variable que refleje ambos incrementos
126
W= 50+ 1,18 x
M(W) = M (50 + 1,18. x)
= M (50) + M (1,18. x)
= 50 + 1,18. M(x)
Reemplazando ahora por las medias de cada grupo analizado tendremos
Patrón Cuenta Propia
Promedio 1280 737,14
Nueva media 1560 919,83
g) Promedio total = (Media grupo 1). n1 + (media grupo 2). n2
n1 +n2
Patrón Cuenta Propia
Promedio 1280 737,14
Muestra 9 21
Media total 900,00
Actividad 4
a) Variable: unidades producidas (se trata de una variable cuantitativa dis-
creta que esta presentada en forma de una Serie Simple)
Medidas de Posición Turno 1 Turno 2
Media 20,86 26
Mediana 16 27
Modo 16 25
Modo ---------- 30
Interpretaciones:
Media: El promedio de unidades producidas es aproximadamente de 21 uni-
dades para el Turno 1 y de 26 unidades para el Turno 2
Mediana: Para el Turno 1 el 50% de los días analizados se produjeron me-
nos de 16 unidades
Para el Turno 2 el 50% de los días analizados se produjeron menos de 27
unidades
Modo: Para el Turno 1 el valor más frecuente es de 16 unidades producidas,
mientras que para el Turno 2 se registraron dos valores frecuentes 25 y 30
unidades respectivamente (bimodal).
Además, podemos analizar las formas de ambas distribuciones comparando
las medidas de posición, y en referencia a esto podemos concluir que los
datos del Turno 1 una distribución levemente asimétrica derecha; mientras
que los datos del Turno 2 presentan una forma asimétrica izquierda.
Los coeficientes de asimetría son:
Turno 1 Turno 2
Asimetría 2,43 -1,55
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
127
b) Para verificar estas igualdades realizaremos una tabla en Excel con los
datos del Turno 1
Turno 1 ( xi - media ) ( xi-media)2 ( xi-mediana)2 (xi- modo)2
12 -9 78,45 16 16
14 -7 47,02 4 4
16 -5 23,59 0 0
16 -5 23,59 0 0
18 -3 8,16 4 4
20 -1 0,73 16 16
50 29 849,31 1156 1156
Total 0 1030,86 1196 1196
Como puede verse el cuadrado de los desvíos respecto de la media es el
mínimo.
Actividad 5
a) Variable: monto de deudas no pagadas (variable cuantitativa continua).
b) Medidas de posición
Media 19,1
Mediana 17,5
Modo 10
Actividad 6
a) 7,97%
b) 17417,16
c) 1,0675
Actividad 7
31,45%
7 15 22 30 37
0,00
0,11
0,22
0,33
0,44
frecuencia
relativa
HISTOGRAMA VALOR DE CUENTAS NO PAGAS
M(x)= 19,1
Me = 17,5
Mo=10
128
Actividad 8
La diferencia muestra la asimetría en la forma de la distribución.
a) Para analizar esto debemos calcular los cuartiles:
Q1 16
Mediana = Q2 22,5
Q3 30
Q1: la cantidad máxima de pedidos del 25% de los clientes que menos de-
mandan es de 16 pedidos.
Q3: la cantidad mínima demandada del 25% de los clientes que más canti-
dad demandan es de 30 pedidos.
Si realizamos estos cálculos usando Infostat los valores serian:
Medidas resumen
Resumen Xi
n 14,00
Media 23,43
Mín 10,00
Máx 50,00
Mediana 22,50
Q1 16,00
Q3 30,00
b) El 50 % de las observaciones quedan comprendidas entre los dos cuarti-
les (Q1 y Q3).
Actividad 9
a)
Medidas resumen
Resumen VALOR MON CNP
n 12,00
Mín 7,00
Máx 37,00
Mediana 17,50
Q1 10,00
Q3 26,00
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
129
b)
Se observa una asimetría derecha.
Actividad 10
Para una variable x con valores 4, 5 y 6 la varianza será igual a:
Var = V(x)= 1
Aplicando propiedad.
Definimos una nueva variable Y = x + 3
V (y) = V (x + 3)
= V(x) + V (3)
= 1 + 0
V (y) = 1
Actividad 11
a) Recorrido = 50-10= 40 unidades.
La diferencia entre el valor máximo y el valor mínimo de la variable analizada
es de 40 unidades
b) Varianza = 115 unidades2
La varianza de la muestra de empresas de pedidos de clientes es 115 uni-
dades2
.
La medida representa la distancia promedio al cuadrado calculada respecto
de la media, es por ello una medida de valores de distancia al cuadrado.
Desvío estándar = 11 unidades
c) Calculamos aplicando propiedades de la varianza en primer lugar, defi-
niendo una nueva variable.
Y = x +4
V (y) = V (x + 4)
= V(x) + V (4)
= 115 + 0
V (y) = 115 unidades2.
7 15 22 30 37
0,00
0,11
0,22
0,33
0,44
frecuencia
relativa
HISTOGRAMA VALOR DE CUENTAS NO PAGAS
Q3=26
Q2=17,5
Q1=10
130
Por lo tanto, la desviación estándar para el mes de marzo será DS (y) = 11
unidades, la misma que para febrero porque el incremento es constante (va-
rianza de una constante es igual a 0).
d) Definimos entonces una nueva variable w= x – 0,15. x
w =x (1 – 0,15)
w = 0,85. X
Ahora aplicamos propiedades de la varianza
V (w) = V (0,85. x)
= (0,85)2.
V(x)
V (w) = 0,7225. 115
V (w) = 83 unidades2.
La varianza para el mes de marzo será de 83 unidades2
Actividad 12
a) Los valores de Rango son:
Patrón Cuenta propia
Rango 1830 1860
Es decir que la diferencia entre el valor máximo y el minino de la variable
analizada es de 1830 $ para la muestra de Patrones y de 1860 $ para la
muestra de Cuentapropistas
b) Las varianzas y desvíos estándar para cada grupo son:
Se observa una menor variabilidad respecto de la media en el grupo de los
trabajadores por cuenta propia.
c) Los coeficientes de variación para ambos grupos son:
Patrón Cuenta propia
CV% 49,04 66,1
El grupo de los Patrones muestra un menor CV con lo que puede concluirse
que en este conjunto de datos los valores son más homogéneos, menos
dispersos y por tanto el promedio para este grupo es más representativo.
d) Si hay un incremento de $50 definimos la nueva variable Y = x + 50.
Y aplicamos propiedades:
V (y) = V (x + 50)
= V(x) + V (50)
V (y) = V(x) + 0
V (y) = V(x).
Patrón Cuenta propia
Varianza 394075 237401
Desv. Est. 628 487
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
131
Con lo que podemos concluir que si el incremento es de $50 los valores de
varianza y de desvío estándar no se modificaran.
e) Si ahora se produce un incremento del 18% definimos una nueva varia-
ble:
W= x + 0,18 x
W= x. (1+0,18)
W= 1,18 x
V (w) = V (1,18. X)
= (1,18)2
V(x)
(V (w) = 1,3924. V(x)
Entonces los nuevos valores de varianza y de desvío estándar para cada
una de las muestras será de:
f) Volvemos a calcular los CV% para los supuestos de los puntos d) y e)
pero para ello deberemos calcular la nueva media en cada caso.
Si el incremento es de $50 (inciso d)
Patrón Cuenta propia
Media 1330 787
Desv. Est. 628 487
CV% 47,20 61,90
Si hay un incremento (fijo) de $50 se producirá una disminución en los CV%
aunque la conclusión es la misma en relación a que el grupo de Patrones
muestra un menor CV con lo que puede concluirse que en este conjunto de
datos los valores son más homogéneos, menos dispersos y por tanto el pro-
medio para este grupo es más representativo.
Si hay un incremento porcentual (inciso e)
Patrón Cuenta propia
Media 1510 870
Desv. Est. 741 575
CV% 49,04 66,10
Si hay un incremento (porcentual) del 18% observamos que el CV% no va-
riara.
Patrón Cuenta propia
Varianza 394075 237401
Desv. Est. 628 487
Patrón Cuenta propia
Varianza 548710 330557
Desv. Est. 741 575
132
Actividad 13
Medidas resumen
Resumen VALOR MON CNP
n 12,00
Mín 7,00
Máx 37,00
Mediana 17,50
Q1 10,00
Q3 26,00
Como puede observarse la distribución presenta una asimetría derecha muy
leve, además los valores máximo y mínimo caen dentro de las barreras in-
ternas (Izquierda y derecha, respectivamente) con lo cual podemos concluir
que no hay valores outliers ni extremos dentro de la distribución.
Actividad 14
Medidas resumen
Variable n Mín Máx Mediana Q1 Q3
SUELDO P 9 370 2200 1300 970 1500
SUELDO CP 21 240 2100 650 320 870
5,50
13,75
22,00
30,25
38,50
VALOR
MON
CNP
DIAGRAMA DE CAJA Y BRAZOS
278,50
781,75
1285,00
1788,25
2291,50
SUELDO
P
DIAGRAMA DE CAJA Y BRAZOS
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
133
Como puede observarse la distribución de la variable sueldo para patrón
presenta una asimetría derecha muy leve, además los valores máximo y mí-
nimo caen dentro de las barreras internas (inferior y superior, respectiva-
mente) con lo cual podemos concluir que no hay valores outliers ni extremos
dentro de la distribución (son los valores 1800 y 2100 respectivamente).
Como puede observarse la distribución presenta una asimetría derecha,
además el mínimo cae dentro de las barreras internas (inferior) pero los va-
lores más altos superan al LSO y están ubicados antes del LSE, por lo
tanto, podemos concluir que hay presencia de valores outliers dentro de la
distribución.
Actividad 15
Variable analizada: PESO (Kg.)
Muestra: 100 personas adultas
147,00
658,50
1170,00
1681,50
2193,00
SUELDO
CP
DIAGRAMA DE CAJA Y BRAZOS
134
Se observa una leva asimetría derecha
Calculamos el rango intercuartilico, y los 4 Límites (internos y externos –
Inferiores y Superiores)
Me 65,35
Q1 57
Q3 72
RI 15
LIO 34,5
LSO 94,5
LIE 12
LSE 117
VMIN 47
VMAX 100
Como puede observarse que el valor mínimo cae dentro de las barreras in-
ternas (Izquierda) pero el valor máximo supera a la BID y está ubicado antes
de la BED por lo tanto podemos concluir que hay presencia de valores
outliers (atípicos) dentro de la distribución.
Actividad 16
a) Analizando las medidas de posición para cada variable podemos concluir
que ambas variables presentan una forma asimétrica derecha, pero que
para el caso de la variable “gasto de movilidad” esta asimetría es más mar-
cada. Esto puede verse también analizando ambos coeficientes de asime-
tría, que como se observa para el caso de la segunda variable es mayor su
valor.
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
135
Podríamos calcular ambos coeficientes de variación, sus valores son:
Para “gastos en libros” (anual) = 44.32%
Para “gastos en movilidad” (mensual) = 115.53%
El mayor valor obtenido para la variable “gasto de movilidad” nos permite
concluir que para esta variable los datos están más dispersos, son menos
homogéneos y que la media es menos representativa.
b) Analizando los diagramas de caja brazos podemos además de analizar
las formas asimétricas derechas de ambas distribuciones, podemos ver ade-
más que en ambas hay valores atípicos, pero que en la segunda variable
es mayor la cantidad de estos valores que se presentan.
c) Por último si observamos la forma de los histogramas y de los polígonos
de frecuencias, observamos nuevamente la forma asimétrica derecha de
ambas distribuciones, pero veos claramente que la variable “gastos de mo-
vilidad” presenta una asimetría más acentuada, y en particular aproximada-
mente un 90% de las observaciones se encuentran concentradas en el pri-
mer intervalo.
Actividad 17
a) Covarianza = 19,09 indica una asociación directa o positiva entre las “ho-
ras trabajadas” y la “antigüedad”
b) La diagonal principal contiene ambas varianzas, en este caso:
Varianza (de la variable horas trabajadas) es 136,91 hs2
Varianza (de la variable antigüedad) es de 95,22 años2
c) Observando la matriz de correlación podemos ver que el coefiente de co-
rrelación es igual a 0,17 podemos entonces concluir que existe una asocia-
ción directa (bastante débil porque es cercano a 0) entre las dos variables
que se están analizando, es decir que cuando aumenta la antigüedad en el
empleo del jefe del hogar, la cantidad de horas trabajadas es de esperar que
aumente
136
Actividad 18
a) Media general
El promedio de ingreso para ambas categorías es de $900.
b) Desvío estándar para cada una de las categorías.
Empleador Cuenta propista
desvío estándar 627,75 487,24
c) Coeficiente de variación.
Empleador Cuenta propista
CV % 49,04 66,10
Se observa que los datos para el grupo de Empleadores son más homogé-
neos, es decir están menos dispersos y por ende su media es más repre-
sentativa, que la del grupo de los trabajadores por Cuenta Propia.
d) Recorrido Intercuartílico.
Empleador Cuenta propista
RI 530,00 550,00
e) En el grupo Cuentapropista se observa asimetría derecha.
f) Para calcular la media y la varianza si hay una disminución del 20% defi-
nimos una nueva variable (que será nuestra variable original menos el des-
cuento)
Le llamamos: W= X – 0.20* X =X (1-0.20) = 0,80.X
MEDIDAS VARIA-
BLE
INGRESO
EMPLEADOR
CUENTA PRO-
PISTA
n 9 21
Media 1280 737,14
Var(n-1) 394075 237401,43
Mín 370 240
Máx 2200 2100
Mediana 1300 650
Q1 970 320
Q3 1500 870
Asimetría 0,03 1,53
Media General 900,00
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
137
Ahora:
M(W) = M (0,80. X)
= 0,80. M(X)
= 0,80. 1280
M(W) = 1024 $. Para los Empleadores.
M(W) = 589, 71 $ Para los Cuenta Propistas
Para la varianza aplicamos el mismo razonamiento, pero ahora aplicando
las propiedades de la varianza.
V(W) = V (0,80 .X)
= 0,802 V(X)
= 0,64. 394075
V(W) = 252208 $2 Para los Empleadores.
V (W) = 151936,92 $2 Para los Cuenta Propistas
Actividad 19
Variable: cotizaciones de acciones en la Bolsa de Comercio n=22 días
Utilizando Infostat obtenemos la siguiente tabla de resumen de medidas
Medidas resumen
Resumen cotización de acciones
n 22,00
Media 9,30
D.E. 1,82
Var(n-1) 3,32
CV 19,61
Mín 3,00
Máx 11,70
Mediana 9,65
Q1 8,40
Q3 10,40
Asimetría -1,91
Kurtosis 4,51
Analizando las medidas de posición en forma conjunta con los coeficientes
de asimetría, podemos concluir que el conjunto de datos analizados, pre-
senta una forma asimétrica izquierda, vemos que la media es menor a la
mediana y que presenta 3 valores modales = 8, 9,7 y 11,3 (miles de $) y
esto puede verificarse analizando el coeficiente de asimetría que es nega-
tivo. Esto hace que podamos concluir que para este conjunto de datos la
mediana es la medida más representativa.
138
Actividad 20
Covarianza 0,37
Coef. Correlación 0,546
Se puede concluir que existe una correlación lineal positiva (o directa) entre
el Precio y la Utilidad, lo cual también se observa en el diagrama de disper-
sión cierta tendencia “ascendente” en la nube de puntos
Actividad 21
Variable analizada: número de pedidos recibidos por día.
Zona Norte Zona Sur
Promedio 6 5
Mediana 6 5
Modo 6 6
Varianza 1,52 1,59
Desv Est 1,23 1,26
n 20 20
Q1 5 4
Q3 7 6
Rango Intercuartilico 2 2
Vmin 4 2
Vmax 8 6
Coef. Asim -0,08 -0,59
Rango 4 4
CV% 20,75 26,82
Analizando las medidas de posición en forma conjunta con los coeficientes
de asimetría, podemos concluir que la Zona Norte presenta una forma prác-
ticamente simétrica, vemos que las tres medidas de posición (media, me-
diana y modo) son iguales y el coeficiente de asimetría es levemente distinta
de 0 (en este caso levemente negativa pero muy cercana a 0); mientras que
4
4,5
5
5,5
6
6,5
12 14 16 18
UTILIDAD
PRECIO
DIAGRAMA DE DISPERSION
Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias
139
en el caso de la Zona Sur podemos ver que hay una asimetría izquierda.
Con lo que para los datos de la Zona Norte la media es más representativa
del conjunto de datos.
Por otro lado, comparando ambos CV podemos ver que como para la mues-
tra de la Zona Norte el coeficiente de variación es menor, entonces se puede
concluir que para estos los datos son más homogéneos, están menos dis-
persos y la media es más representativa (lo cual ya se afirmó por otra vía de
análisis)
Los rangos son iguales para ambas distribuciones.
Actividad 22
Variable analizada: precio de venta (en miles de $)
Zona A Zona B
Promedio 105,03 124,73
Mediana 103,00 125,00
Modo 100,00 125,00
Varianza 114,10 142,41
Desv Est 10,68 11,93
N 30 30
Q1 96,00 116,75
Q3 113,25 132,25
Rango Intercuartilico 17,25 15,50
Vmin 90,00 100,00
Vmax 129,00 150,00
Coef. Asim 0,58 0,15
Rango 39,00 50,00
CV% 10,17 9,57
Analizando las medidas de posición en forma conjunta con los coeficientes
de asimetría, podemos concluir que la Zona A presenta una forma asimétrica
derecha (modo < mediana < promedio), vemos el coeficiente de asimetría
es positivo, lo que re afirma la conclusión de la forma asimétrica derecha (en
la que la mediana es la medida de posición más representativa); mientras
que en el caso de la Zona B podemos ver que hay una asimetría derecha
pero mucho menos marcada, puede verse que la mediana y el modo coinci-
den, y esto se puede corroborar con el valor del coeficiente de asimetría que
es positivo pero cercano a 0.
Por otro lado, comparando ambos CV podemos ver que como para la mues-
tra de la Zona A el coeficiente de variación es mayor, entonces se puede
concluir que para estos los datos son menos homogéneos (mas heterogé-
neos), están más dispersos y la media es menos representativa que los de
la zona B (lo cual ya se afirmó por otra vía de análisis).
Actividad 23:
A cargo del alumno

Más contenido relacionado

Similar a Bibliografia_Unidad_2.pdf

MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DE DISPERSIÓN
MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DE DISPERSIÓN MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DE DISPERSIÓN
MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DE DISPERSIÓN Linda065807390
 
Medidas de tendencia NEPTALI AVILA
Medidas de tendencia NEPTALI AVILAMedidas de tendencia NEPTALI AVILA
Medidas de tendencia NEPTALI AVILABEATRIZ GRANADO
 
Presentación1345 de kelly mejorada
Presentación1345 de kelly mejoradaPresentación1345 de kelly mejorada
Presentación1345 de kelly mejoradaKelly Moreno
 
Medidas de tendencia NEPTALI AVILA
Medidas de tendencia NEPTALI AVILAMedidas de tendencia NEPTALI AVILA
Medidas de tendencia NEPTALI AVILABEATRIZ GRANADO
 
Trabajo de estadistica tercer corte primer 20%
Trabajo de estadistica tercer corte primer 20%Trabajo de estadistica tercer corte primer 20%
Trabajo de estadistica tercer corte primer 20%Angelo Verges Chourio
 
Tendencia central en estadística aplicada
Tendencia central en estadística aplicadaTendencia central en estadística aplicada
Tendencia central en estadística aplicadacatiavegavargas
 
Tendencia central en estadística aplicada
Tendencia central en estadística aplicadaTendencia central en estadística aplicada
Tendencia central en estadística aplicadacatiavegavargas
 
Estadística, medidas de tendencias.
Estadística, medidas de tendencias.Estadística, medidas de tendencias.
Estadística, medidas de tendencias.Andres Fgm
 
Power point presentacion, medidas tendenciales 456
Power point presentacion, medidas tendenciales 456Power point presentacion, medidas tendenciales 456
Power point presentacion, medidas tendenciales 456Kelly Moreno
 
Medidas de tendencia central con excel para administración y economía.
Medidas de tendencia central con excel para administración y economía.Medidas de tendencia central con excel para administración y economía.
Medidas de tendencia central con excel para administración y economía.Edwin Alberto Moreno Molina
 
Estadística I ( medidas de tendencia)
Estadística I ( medidas de tendencia)Estadística I ( medidas de tendencia)
Estadística I ( medidas de tendencia)Gabriela Silva
 
Medidas tendencia central
Medidas tendencia centralMedidas tendencia central
Medidas tendencia centraljosegrecova
 
Yoleidis medina estadistica i
Yoleidis medina estadistica iYoleidis medina estadistica i
Yoleidis medina estadistica iOrlandoGuillenM
 
Medidas de frecuencias
Medidas de frecuenciasMedidas de frecuencias
Medidas de frecuencias20740076
 
Medidas de centralización
Medidas de centralizaciónMedidas de centralización
Medidas de centralizaciónRenan urbano
 
Power point presentacion, medidas tendenciales de andris ramires
Power point presentacion, medidas tendenciales de andris ramiresPower point presentacion, medidas tendenciales de andris ramires
Power point presentacion, medidas tendenciales de andris ramiresandris345
 
Power point presentacion, medidas tendenciales de andris ramires
Power point presentacion, medidas tendenciales de andris ramiresPower point presentacion, medidas tendenciales de andris ramires
Power point presentacion, medidas tendenciales de andris ramiresKelly Moreno
 

Similar a Bibliografia_Unidad_2.pdf (20)

Guias 1 y 2 Décimo III P
Guias 1 y 2 Décimo III PGuias 1 y 2 Décimo III P
Guias 1 y 2 Décimo III P
 
MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DE DISPERSIÓN
MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DE DISPERSIÓN MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DE DISPERSIÓN
MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DE DISPERSIÓN
 
Medidas de tendencia NEPTALI AVILA
Medidas de tendencia NEPTALI AVILAMedidas de tendencia NEPTALI AVILA
Medidas de tendencia NEPTALI AVILA
 
Presentación1345 de kelly mejorada
Presentación1345 de kelly mejoradaPresentación1345 de kelly mejorada
Presentación1345 de kelly mejorada
 
Hamletmatamata cap 3
Hamletmatamata cap 3Hamletmatamata cap 3
Hamletmatamata cap 3
 
Medidas de tendencia NEPTALI AVILA
Medidas de tendencia NEPTALI AVILAMedidas de tendencia NEPTALI AVILA
Medidas de tendencia NEPTALI AVILA
 
Trabajo de estadistica tercer corte primer 20%
Trabajo de estadistica tercer corte primer 20%Trabajo de estadistica tercer corte primer 20%
Trabajo de estadistica tercer corte primer 20%
 
Tendencia central en estadística aplicada
Tendencia central en estadística aplicadaTendencia central en estadística aplicada
Tendencia central en estadística aplicada
 
Tendencia central en estadística aplicada
Tendencia central en estadística aplicadaTendencia central en estadística aplicada
Tendencia central en estadística aplicada
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Estadística, medidas de tendencias.
Estadística, medidas de tendencias.Estadística, medidas de tendencias.
Estadística, medidas de tendencias.
 
Power point presentacion, medidas tendenciales 456
Power point presentacion, medidas tendenciales 456Power point presentacion, medidas tendenciales 456
Power point presentacion, medidas tendenciales 456
 
Medidas de tendencia central con excel para administración y economía.
Medidas de tendencia central con excel para administración y economía.Medidas de tendencia central con excel para administración y economía.
Medidas de tendencia central con excel para administración y economía.
 
Estadística I ( medidas de tendencia)
Estadística I ( medidas de tendencia)Estadística I ( medidas de tendencia)
Estadística I ( medidas de tendencia)
 
Medidas tendencia central
Medidas tendencia centralMedidas tendencia central
Medidas tendencia central
 
Yoleidis medina estadistica i
Yoleidis medina estadistica iYoleidis medina estadistica i
Yoleidis medina estadistica i
 
Medidas de frecuencias
Medidas de frecuenciasMedidas de frecuencias
Medidas de frecuencias
 
Medidas de centralización
Medidas de centralizaciónMedidas de centralización
Medidas de centralización
 
Power point presentacion, medidas tendenciales de andris ramires
Power point presentacion, medidas tendenciales de andris ramiresPower point presentacion, medidas tendenciales de andris ramires
Power point presentacion, medidas tendenciales de andris ramires
 
Power point presentacion, medidas tendenciales de andris ramires
Power point presentacion, medidas tendenciales de andris ramiresPower point presentacion, medidas tendenciales de andris ramires
Power point presentacion, medidas tendenciales de andris ramires
 

Bibliografia_Unidad_2.pdf

  • 1. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 73 Unidad 2: Análisis descriptivo. Parámetros y estadísti- cos de las distribuciones de frecuencias Introducción En la unidad anterior se hizo mención a las etapas del método cientí- fico y su aplicación mediante el uso de herramientas estadísticas. Se explicaron aspectos vinculados con las tres primeras etapas: plan- teamiento del problema, diseño, recopilación y organización de datos; se abordaron conceptos y aplicaciones inherentes al tema y se desarrollaron actividades mediante las cuales se ordenan los valores de una variable y se describe su comportamiento de una manera visual en gráficos o bien de una forma ordenada en tablas. Ahora veremos la cuarta etapa, la de análisis, donde también se des- criben las variables calculando medidas que permiten resumir los valores de éstas y explicar su comportamiento en un aspecto o característica de la dis- tribución. Cuando hablamos de aspecto o característica de la distribución nos estamos refiriendo a posición, dispersión y forma, criterio de clasifica- ción utilizado para definir las medidas descriptivas. De esta manera tendremos algunos valores que describen la posición, unos la dispersión y otros la forma del conjunto de valores de la variable. Además, explicaremos métodos de cálculo para obtener esas medidas como así también las ventajas y desventajas de su aplicación en cada caso. Utilizaremos bases de datos procesadas con el software Infostat para conectarnos con esta forma rápida de procesar y analizar información, lo que en virtud de la tecnología existente nos permite obviar cálculos e inte- pretar resultados estableciendo relaciones importantes entre las medidas. Luego, estudiaremos distribuciones bidimensionales, esto es distribu- ciones en las que intervienen dos variables y aplicaremos medidas que per- mitan indagar sobre la asociación entre esas variables describiendo aspec- tos relevantes de la presentación conjunta y condicional de las mismas. 1. Medidas de posición Las Medidas de posición son aquellas que permiten describir los datos de una serie en cuanto a su ubicación en el eje de las abscisas. Se clasifican como de tendencia central y no central. Las medidas de tendencia central se localizan en el centro de la distribución, mientras que las que no lo son se localizan en otras partes de la distribución. Las medidas de tendencia central que estudiaremos son: media aritmética, media geométrica, mediana y modo. Las medidas de posición que no son de tendencia central, denomina- das cuartiles, deciles y percentiles, se localizan en cualquier otra parte de la distribución, es decir en extremos o en un sector cercano al centro indicando puntos específicos de la distribución como fracciones que permiten estable- cer porcentaje de observaciones ubicadas a la izquierda y derecha de la medida.
  • 2. 74 1.1 Media aritmética Esta medida es un promedio que se utiliza como medida resumen del conjunto de datos cuando la variable es numérica. Puede aplicarse sobre la serie original de los datos o sobre una distribución de frecuencias. La Media Aritmética se define como la suma de los valores de la variable dividida por el total de datos. A modo de ejemplo, si se cuenta con la estatura de 11 personas y, se pretende caracterizar al grupo por la estatura media, se aplicará la definición con lo que concluiremos que en promedio estas personas miden 1,62 m. Es decir, una altura intermedia entre los más altos y los más bajos. ESTATURA 1,6 1,52 1,66 1,68 1,69 1,66 1,64 1,48 1,61 1,66 1,62 En la población, el parámetro se simboliza con la letra griega , mien- tras que en la muestra (el estadístico) será M(x) o x , si la variable se sim- boliza con x. En cambio, se denota como M(y) ó y si la variable se simboliza con y. Parámetro N x N i i  = = 1  Tamaño de la población: N; Parámetro:  Variable: x Estadístico n x x n i i  = = 1 Tamaño de la muestra: n; media muestral x ; Variable x Retomando el ejemplo Análisis Industrias de Córdoba (base de datos “industrias.idb”) que fue utilizado en los ejemplos del capítulo 1, se conside- rará la variable cuantitativa porcentaje del costo laboral en el costo total para aclarar los conceptos aquí abordados. Vamos a tomar en cuenta la rama de actividad a la que pertenece la empresa como factor de clasificación y cal- cularemos, utilizando Infostat, la media aritmética de la variable para cada rama de actividad. Consideraremos una situación en que el municipio está interesado en la repercusión que puede tener el costo laboral considerando la rama de actividad con el propósito de otorgar beneficios impositivos a los sectores de la actividad industrial que requieran de mayor cantidad de personal para su normal funcionamiento. En consecuencia, lo primero que necesitará el mu- nicipio es el promedio de la variable mencionada por rama de actividad. La importancia de mar- car la diferencia radica en el significado de la medida y su aplicación para describir el com- portamiento de la va- riable. Cuando se utilizan las medidas de posición central se analiza el punto de equilibrio en- tre los valores y se busca representar el conjunto por la me- dida, mientras que cuando nos referimos a cuartiles, por ejem- plo, se pretende desta- car cuatro partes de la distribución marcadas por el 25% de las ob- servaciones. Media 17,82/11 = 1,62 m
  • 3. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 75 En la imagen siguiente observamos la base de datos para las variables porcentaje de costo laboral/costo total y rama de actividad. Recordemos que se codificaron 10 ramas cuyo detalle se encuentra anexado a la base. Utilizando el software Infostat, abriendo la base de datos "indus- trias.idb, siguiendo el procedimiento que se detalla a continuación. Se obtendrá una tabla resumen con la media para cada rama de actividad, de la variable seleccionada (Tabla 1). De igual forma se pueden calcular todas las medidas descriptivas por rama de actividad. (Ver instruc- ciones en apoyo Infostat). Menú Estadísticas → Medidas resumen El cuadro de dialogo será el que se muestra a conti- nuación, vemos que incorporando la variable rama de actividad como criterio de clasificación, se obtiene la media de la variable para cada categoría. 1. Alimentos y Bebidas 2. Textiles, Confección y Calza- dos 3. Madera y Muebles 4. Papel e Impresiones 5. Química, Caucho y Plásticos 6. Vidrio y Minerales. no Metáli- cos. 7. Productos Metálicos 8. Maquinaria y Equipos 9. Material de transporte 10. Otras
  • 4. 76 Tabla 1. Medias por rama de actividad de la variable porcentaje de costo laboral. Actividad 1 Trabaje con la base “industrias.idb” y consultando el punto 3.21 del instruc- tivo de infostat, asigne el nombre de cada rama en la base de datos En la Tabla 1 se puede observar que la rama 2 (textil) es la que tiene mayor promedio de la variable porcentaje de costo laboral sobre total. Sin embargo, las demás ramas que le siguen en orden de magnitud, no difieren dema- siado, presentando el menor valor la rama 4 (papel e impresiones) Con el fin de ejemplificar de manera sencilla el cálculo de la media aritmé- tica, a continuación, se obtendrá la media aritmética para la variable anali- zada precedentemente, tomando la rama de actividad 4 que tiene 11 obser- vaciones Ejemplo 1 Los datos siguientes representan los valores del porcentaje del costo laboral /costo total para las 11 empresas de rama 4, papel e impre- siones. Costos laboral / Costo total Rama 4 25 7 40 15 20 20 10 22 30 10 3 Suma: 202 En el histograma del Gráfico 1 se puede observar la ubicación de la media aritmética como medida de posición central. Aplicando la fórmula de media aritmética de la muestra, el valor del promedio, será: 36 , 18 11 202 n x x n 1 i i = = =  =
  • 5. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 77 Gráfico1: Histograma de porcentaje de costos laboral El porcentaje promedio de los costos laborales en esta rama es 18,36%. Observando los datos vemos que hay valores del porcentaje del costo laboral inferiores y superiores a este valor. En un punto de equilibrio se puede representar a todos los valores, en cuanto a su posición, mediante la cifra llamada media aritmética que en el ejemplo se refiere al porcentaje medio del costo laboral por empresa y cuyo valor es 18,36. A tener en cuenta: Es interesante destacar que la Media Aritmética es un valor que des- cribe a los datos en cuanto a su posición pero, por su fórmula de cálculo, está afectada por valores atípicos de la variable, lo que en ciertos casos le hace perder representatividad. Si en el ejemplo 1, el valor 40 fuere 98; la media será: Se observa que la media aritmética de 18,36 pasa a 23,64. Esa dife- rencia en el valor promedio del porcentaje del costo laboral en relación al costo total se debe a la influencia que este valor 98 tiene en la suma total de la variable, valor que en realidad es muy diferente a los Costos laboral / Costo total Rama 4 25 7 98 15 20 20 10 22 30 10 3 Suma: 260 La media es 18,36 La media aritmética de la muestra será: 64 , 23 11 260 1 = = =  = n x x n i i
  • 6. 78 demás, generando un promedio mayor y que no representa fielmente al resto de los valores de la variable. Para solucionar este inconveniente, en estas distribuciones se utiliza otra medida de posición que es la Mediana. • Otro aspecto de la Media Aritmética es que, al igual que todas las medidas de posición, se expresa en la misma unidad de medida que la variable. En este ejemplo tanto la variable x como la M(x) se ex- presan en porcentaje. • Cuando los datos están agrupados en una tabla de distribución de frecuencias, el valor xi de la variable se repite ni veces. En el cálculo de la media aritmética, cada valor distinto de la variable debe ponde- rarse por la cantidad de veces que el mismo se repite, de la siguiente forma: 1 k i i i x n x n = =  1.1.1 Propiedades de la media aritmética A continuación se desarrollan las propiedades de la media aritmética, y se incluye un ejemplo numérico de serie simple, para verificar la propiedad en cada caso. • La Media Aritmética de una constante, es igual a la constante. Dada xi = c, donde c es una constante. ( ) = M c c Aplicando la definición de media aritmética: ( ) n M x c c n = = Verificación: la variable asume el valor 3 en forma constante, para una muestra de 4 datos. La media de x, será: 3 4 3 3 3 3 = + + + = x por lo que el valor 3, que es constante, será el resultado de la media aritmética de la va- riable x. • La Media Aritmética del producto de una constante por una va- riable; es igual a la constante por la media de la variable. ( ) ( ) = M c.x c.M x Aplicando la definición de media aritmética: ( ) ( ) = = = = =   1 1 n n i i i i c x x M c.x c. c.M x n n
  • 7. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 79 Verificación: x asume los valores: 10, 20, 30, 40, su media es: 25 x = Si multiplicamos x por 2, surge x’ con los valores: 20, 40, 60, 80; siendo su media: x ’ = 50, pero al aplicar la propiedad no será necesario recalcular to- dos los valores de x, sólo haremos: 2 2 25 50 M( x`) .M( x ) . = = = • La Media Aritmética de la suma de una constante más una va- riable es la constante más la media de la variable. ( ) ( ) + = + M x c M x c Aplicando la definición de media aritmética: ( ) ( ) = + + =  1 n i i x c M x c n Distribuyendo el sumatorio: ( ) = = + = +   1 1 n n i i i x c M x c n n “c” es constante por lo que se estaría sumando n veces c, con lo cual se arriba a: ( ) ( ) = + = + = +  1 n i i x nc M x c M x c n n Verificación: x asume los valores: 10, 20, 30, 40, su media es: = 25 Si a x le sumamos la constante 3, sus nuevos valores serán: x’: 13, 23, 33, 43 y su media es ' x = 28. Al aplicar la propiedad no deberemos recal- cular los valores de x sino que simplemente haremos: M(x’) = M(3+x) = 3 + M(x) = 3 + 25 = 28 • La suma de las diferencias entre los valores de la variable y su Media Aritmética es siempre nula. ( ) ( ) = − =  1 0 n i i x M x Para demostrarlo distribuimos el sumatorio: ( ) = = − =   1 1 0 n n i i i x M x Extraemos ( ) M x del segundo sumatorio, ya que es constante para el mismo: ( ) = − =  1 0 n i i x nM x x
  • 8. 80 Dado que ( ) = = = =   1 1 n i n i i i x nM x n x n , tenemos que: ( ) ( ) − = 0 nM x nM x Por lo tanto: = 0 0 Al verificarse la igualdad, queda demostrada la propiedad. Verificación: x asume los valores: 2, 4, 6 resultando la media: x = 4 Al realizar la suma de cada valor respecto de su media obtendremos:  (xi - x ) = (2-4) + (4 - 4) + (6 - 4) = 0 Esto que matemáticamente puede demostrarse de manera muy sencilla, significa que al ser la media un promedio centralizado, las diferencias entre los valores ubicados a su izquierda se compen- san con las diferencias de los valores ubicados a su derecha de modo que la suma de todas esas diferencias arroja resultado cero. • La suma de cuadrados respecto de la Media Aritmética es un valor mínimo. ( ) = = −   2 1 n i i SCx x M( x ) mí n imo Vamos a demostrar que el mínimo se da cuando los desvíos están calcula- dos con respecto a M(x). Para ello, planteamos una función a minimizar que contiene una variable “w” cuyo valor queremos averiguar: ( ) = = − =  2 1 n i i f(w ) x M( x ) mí n imo Para encontrar el mínimo de la función, obtenemos la derivada primera con respecto a “w” y la igualamos a cero: ( ) = = − −  1 2 1 n i i f '(w ) x w ( ) Igualamos la derivada primera de w a cero. Despejamos “w” en la igualdad a cero: ( ) = − − =  1 2 1 0 n i i x w ( ) Extraemos (–2) del sumatorio, dividimos ambos miembros por (-2) y distri- buimos el sumatorio de forma tal que: = = − =   1 1 0 n n i i i x w Como “w” es constante con respecto al sumatorio: ( ) = 0 f´ w
  • 9. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 81 = =  1 n i w nw Quedando: = − =  1 0 n i i x nw Por lo que, w es: = = =  1 n i i x w M( x) n Este es un punto crítico de la función. Para determinar si ese punto es un mínimo debemos verificar si la derivada segunda es positiva. La derivada segunda es igual a: = = − − =  1 2 1 2 n i f ''(w ) ( ) n Como para cualquier n, la función se hace mínima en . Verificación: La variable x asume los valores: 20, 30 y 40; su media es: x = 30 • Si consideramos las diferencias al cuadrado con respecto a la media que es 30, y las sumamos, obtenemos: Scx = (20 - 30)2 + (30 - 30)2 + (40 - 30)2 = 200 • Si consideramos las diferencias al cuadrado respecto de un valor cualquiera de la variable, por ejemplo 20, y las sumamos obtenemos: ( x - 20)2 = (20 - 20)2 + (30 - 20)2 + (40 - 20)2 = 500 • Si esto se repite para cualquier valor distinto de la media que se halle ubicado dentro del recorrido de la variable (entre 20 y 40), la suma será mayor que 200; ya que la Media Aritmética minimiza la suma de cuadrados: SCx Esta propiedad permite medir la dispersión, considerando los desvíos res- pecto de la media aritmética, como se verá más adelante. • La Media Aritmética de las medias de k submuestras, se obtiene como la Media Aritmética ponderada de las medias de las sub- muestras, siendo sus ponderaciones los tamaños de las respec- tivas submuestras. ( ) ( ) ( ) ( ) + + + = 1 1 2 2 h h n .M x n .M x ... n .M x M x n Donde, n1, n2,..., nh son los tamaños de las h submuestras en las que se divide la muestra de tamaño “n”. Esto significa que, al considerar una muestra dividida en submuestras y co- nocer la media de la variable en estudio para cada una de ellas, la media total será la media ponderada de las medias de las submuestras. ( ) =  2 0 f´´ w n ( ) = w M x
  • 10. 82 Para demostrarlo: Consideremos que la suma de todas las observaciones de la muestra de n elementos deberá coincidir con la suma de los elementos de las submues- tras: = = = = = + + +     1 2 1 2 1 1 1 1 h n n n n i i i hi i i i i x x x ... x Multiplicamos y dividimos el primer término por “n” y multiplicamos y dividi- mos cada término del segundo miembro por los respectivos tamaños n1, n2, . . ., nh: = = = = = + + +     1 2 1 2 1 1 1 1 1 2 1 2 h n n n n i i i hi i i i i h h x x x x n n n ... n n n n n Dado que ( ) = =  1 n i i x M x n y que ( ) = =  1 1 1 1 1 n i i x M x n y así sucesivamente, reempla- zando en (4) por sus iguales: ( ) ( ) ( ) ( ) = + + + 1 1 2 2 h h n.M x n .M x n .M x ... n .M x Despejando M(x): ( ) ( ) ( ) ( ) + + + = 1 1 2 2 h h n .M x n .M x ... n .M x M x n Ejemplo 2 El ingreso medio de 500 varones es igual a $ 3200 y el ingreso medio de 385 mujeres es de $ 2250, ambos pertenecientes a la misma po- blación, la media general será. 885 (2250.385) (3200.500) X + = = 2786.72 El promedio es de $ 2786.72. • En estos promedios no debe aplicarse promedio simple a menos que la cantidad de observaciones de cada submuestra sea la misma. Si calculamos la media de todas las empresas de la base “indus- trias.idb” para la variable porcentaje del costo laboral, el resultado será 30,56%, según lo que observamos en el procesamiento de
  • 11. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 83 Aplicando la propiedad f de la media de las k sub muestras, a los re- sultados presentados en Tabla 1 para cada rama de actividad se llegará al mismo resultado: 30,56% Comprobemos este resultado y observemos que si se calcula la media aritmética sin considerar los tamaños de cada muestra, el resultado obvia- mente no coincide pero además no es correcto debido a que no se está tomando como suma de los valores del costo, el que corresponde a las 141 industrias de la muestra. El cálculo correcto se muestra en la siguiente tabla. Tabla 2. Media de variable porcentaje de costo laboral (propiedad f). Rama de actividad i n i x  = n i 1 i ix n 1 17 32,18 547,06 2 15 34,2 513 3 14 33,21 464,94 4 11 18,36 201,96 5 14 32,86 460,04 6 10 27,1 271 7 15 29,33 439,95 8 17 28,9 491,3 9 16 32,31 516,96 10 12 33,58 402,96 Suma 4309,17 Actividad 2 Se ha seleccionado una muestra de pedidos de clientes, realizados en fe- brero/2015, a una empresa que fabrica un bien “X” y se ha registrado la cantidad de unidades solicitadas de dicho bien: 12 10 14 25 16 25 16 27 18 30 20 30 50 35 a) Determinar el valor de la media aritmética (M) y escriba una interpre- tación de ese resultado (sin decimales). b) El encargado de compras de la empresa considera muy importante el promedio de la demanda para planificar los pedidos de insumo para fabricación, sin embargo la media es un punto de equilibrio en relación al cual habrá valores de la demanda inferiores y mayores a él. Para comprender una mejor comprensión de la idea de equilibrio a que nos referimos, verifique la propiedad de media aritmética: c) Si para el mes de marzo se espera que todos los clientes soliciten 4 unidades más del bien “X” con respecto a los pedidos de febrero, ¿cuál sería el valor de la media aritmética en el mes de marzo? d) En otra situación, si para el mes de marzo se espera que todos los clientes reduzcan en un 15 % el número de unidades del bien “X” ( )  = − 0 ) x ( M xi La media aritmética de la muestra es: 56 , 30 141 17 , 4309 1 = = =  = n x n x n i i i
  • 12. 84 solicitadas con respecto a febrero, ¿cuál sería el valor de la media aritmética en el mes de marzo? Actividad 3 La Encuesta Permanente de Hogares, ha permitido relevar información res- pecto de múltiples aspectos económicos y sociales de los habitantes del país. Considerando una porción reducida de esa información para fines mera- mente didácticos, supongamos que Afip pretende analizar los salarios de trabajadores por tipo de actividad. Tomando las categorías patrón o empleador y cuenta propia, los valores re- gistrados para una muestra de individuos en categoría patrón o empleador y cuenta propia. Recordemos que en la EPH se registra el sueldo de cada jefe de hogar, considerando como tal el ingreso mensual y por otra parte se consulta al individuo, la categoría ocupacional a la que pertenece, es decir patrón o empleador, empleado en relación de dependencia, cuenta propia, etc. En la Tabla 3 se presentan los sueldos de los entrevistados con cate- gorías patrón y cuenta propia. Tabla 3. Datos sueldo de categorías patrón y cuenta propia. Se le solicita a UD, que: a) Indique la cantidad de personas que forman cada categoría. b) Calcule el monto total de sueldo para cada categoría e interprete el valor. c) Calcule el promedio de cada categoría, interprete y compare ambas categorías. d) Se conoce que el índice de inflación para el último trimestre es de 0,20, lo que provoca una pérdida en el poder adquisitivo. Calcule el sueldo promedio con efecto inflacionario. (Aplique propiedades). e) Suponga que se incrementa el sueldo en 50$ para cada persona en cada categoría, calcule el sueldo promedio de cada categoría des- pués del incremento. (Aplique propiedades). f) Considere que, además de incrementar el sueldo en 50$, se incre- mente un 18%. Calcule el sueldo promedio de cada categoría des- pués de ambos incrementos. (Aplique propiedades). SUELDO Patrón o empleador SUELDO Cuenta propia 1200 780 890 480 870 240 1300 760 650 2200 1200 900 2100 650 850 1500 1800 650 370 240 300 1400 2100 780 970 380 560 240 320 320
  • 13. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 85 g) Calcule el sueldo promedio total, es decir el de ambas categorías e indique si es muy diferente de los valores calculados en el ítem c. (Aplique propiedades). 1.2 Mediana La Mediana es el valor central de los valores de una variable ordenada de acuerdo a su magnitud, por lo tanto será el valor de la variable que supera a no más de la mitad de las observaciones de la variable, y es superada por no más de la mitad de las observaciones de la variable. Visualizando en la siguiente imagen los datos de la estatura de 11 personas comprenderás mejor el significado de la definición. 1,48 1,52 1,6 1,61 1,62 1,64 1,66 1,66 1,66 1,68 1,69 ¿Por qué la media es de 1,62 y la mediana es de 1,64? ¿A qué se debe esta diferencia? Esta medida se calcula después de ordenar los datos de la variable y ubicar el centro de esa serie ordenada, razón por la cual su cálculo no invo- lucra los valores individuales en una operación, sino que se determina loca- lizando el valor central en la serie ordenada. Esto hace que sea una medida especialmente útil en distribuciones con valores extremos o atípicos debido a que la Media Aritmética en este tipo de distribuciones pierde representatividad, tal como se vio previamente. ESTATURA 1,6 1,52 1,66 1,68 1,69 1,66 1,64 1,48 1,61 1,66 1,62 Los valores de la variable estatura se encuentran desordenados. Si los ordenas de menor a mayor, los valores de la variable se ubicarán como se muestra a continuación, por lo que el valor central es de 1,64. La mediana, el valor que supera a los 5 valores de la variable ubicados a la izquierda y que es superado por los otros 5 valores ubicados a su derecha. Para obtener la me- diana: - Se ordenan los valores. - Se determina el punto central u orden de la se- rie al que llamamos “o” y se calcula como: (n + 1) / 2. - Se ubica dicho punto y el valor de la variable co- rrespondiente al mismo, que simbolizamos como xo, es la Mediana, es de- cir: xo = Me(x). Además, debemos considerar las siguien- tes situaciones: - Si la cantidad de datos de la serie es par, este valor se determina como el promedio simple de los dos valores centra- les. - Si la cantidad de datos de la serie es impar, el valor de la Mediana es directamente el valor central.
  • 14. 86 1.2.1 Propiedad de la Mediana La suma del valor absoluto de las diferencias entre los valores de la variable y su Mediana, es mínima. mínimo Me x n 1 i (x) i  −  = Como veremos más adelante, esta propiedad es utilizada para deter- minar una medida de distancia entre los valores de la variable y su valor central, de modo que podamos analizar la dispersión de esos valores en situaciones donde la media aritmética no es representativa. Ejemplo 3 En columna se observan los valores de la variable porcentaje del costo laboral ordenados de menor a mayor. El orden que denotamos con “o” es: o = (n + 1) / 2 = 12 / 2 = 6, (orden 6). La mediana es el valor de la variable ubicado en el orden 6 Me(x)= 20 Costos laboral / Costo total Rama 4 3 7 10 10 15 20 20 22 25 30 40 Cabe mencionar que en el caso del ejemplo 2, el tamaño de la muestra es un número impar, por lo que la ubicación de la mediana corresponde a un número entero, (o = (n + 1) / 2 = 12 / 2 = 6, (orden 6)). No obstante si el tamaño de la muestra es un número par, el orden será decimal con 5 déci- mas, en consecuencia la mediana será el promedio de los valores centrales. Utilizando Infostat, se procesaron los datos de la variable porcen- taje del costo laboral /costo total para las 10 ramas de actividad, calculando la mediana. A continuación se muestra el cuadro de diálogo utilizando Infostat y los re- sultados se presentan en la Tabla 4 (Ver instrucciones de Infostat). Al igual que la media aritmética, la me- diana, es una medida que minimiza la suma de distancias calcula- das entre los valores de la variable y la me- diana, lo que responde a resolver el mínimo re- lativo de la función suma del valor absoluto de los desvíos, que se detalla a continuación y cuya demostración ob- viaremos.
  • 15. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 87
  • 16. 88 Tabla 4. Mediana por rama de actividad de la variable porcentaje del costo laboral. Consideremos ahora el cálculo de la Mediana a partir de una tabla de frecuencias. Volviendo a nuestro ejemplo Encuesta a alumnos (base alum- nos.idb) en la tabla siguiente se presentan las frecuencias de la variable ma- terias aprobadas. La mediana será el valor que ocupe el lugar 83,5, es decir el promedio simple entre los valores que ocupan el lugar 83º y 84º. Para determinar qué valores son, necesitamos las frecuencias absolutas acumu- ladas. Tabla 5. Frecuencias de variable materias aprobadas. La frecuencia absoluta acumulada igual a 102, indica que desde el valor de la variable que ocupa el lugar 55º hasta el 102º corresponde a 2. Como los lugares que buscamos están en ese rango, concluimos diciendo que la Me = 2 materias aprobadas. 1.3 Modo El Modo o Moda es el valor de la variable que se presenta más frecuente- mente. Esto significa que debemos observar los valores de la variable y de- terminar el valor que más veces se repite, para lo cual podemos trabajar con serie simple si tenemos pocos valores de la variable o con distribución de frecuencias si la cantidad de observaciones es grande, en cuyo caso la ma- yor frecuencia absoluta indicará cuál es el valor modal o modo. MATERIAS APROBADAS ni Ni 0 1 2 3 4 5 22 32 48 37 21 6 22 54 102 139 160 166 Total 166
  • 17. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 89 Las distribuciones pueden ser: uniformes, unimodales, bimodales o multimodales. Las distribuciones uniformes son aquellas que no tienen va- lor modal, es decir ningún valor de la variable se repite más veces que los demás, todos se repiten con igual frecuencia; las unimodales son aquellas distribuciones que tiene un solo valor modal, las bimodales tienen dos va- lores que se repiten más veces que los demás y las multimodales tienen más de dos valores modales. En la siguiente ilustración se puede observar la caracterización de cada medida de posición. Otro criterio para calcular el modo en distribuciones de intervalos se basa en definir el intervalo que corresponde a la mayor frecuencia, llamado intervalo modal, y considerar que la marca de clase representa el valor de la variable que se presenta más veces. Por último, podemos determinar el modo gráficamente con el histo- grama de frecuencias, marcando en el rectángulo más alto el valor modal por interpolación. Ahora le proponemos observar en el archivo “industria.idb” la variable rama de actividad codificada de uno a diez. El valor modal será el código de variable uno, al que le corresponde una frecuencia de 19 observaciones, la mayor de las frecuencias que se presentan en Tabla 6. Tabla 6. Frecuencias de variable rama de actividad. Frecuencias absolutas Rama Total Porcentaje ALIMENTOS Y BEBIDAS 19 12,84 MADERAS Y MUEBLES 14 9,46 MAQUINARIAS Y EQUIPOS 17 11,49 MATERIAL DE TRANSPORTE 16 10,81 PAPEL E IMPRESIONES 11 7,43 PRODUCTOS METÁLICOS 17 11,49 QUÍMICA, CAUCHO Y PLÁSTICO 15 10,14 TEXTILES, CONFECCIONES Y C 16 10,81 VIDRIO Y MINERALES NO METÁ 10 6,76 OTROS 13 8,78 Total 148 100,00 Cabe aclarar que en Infostat no está la posibilidad de calcular el modo como medida descriptiva en el resumen de medidas. Es por esa razón que se analiza la tabla de frecuencias para determinar el valor modal.
  • 18. 90 Actividad 4 Con los datos de la Tabla 7, correspondientes a la producción en unidades de 7 máquinas de una empresa observadas en dos turnos: Tabla 7. Unidades Producidas Por Máquina Turno 1 12 14 16 16 18 20 50 Turno 2 10 25 25 27 30 30 35 a) Calcule media, mediana y modo e interprete cada medida. b) Compruebe las propiedades: y para ambos turnos, compare Actividad 5 Examinando los registros de cuentas mensuales de una empresa que vende libros por correo, el auditor toma una muestra de 12 de esas cuentas no pagadas. Los montos de deudas registradas se muestran en tabla 8: Tabla 8. Valor monetario de cuentas no pagadas $7 $7 $10 $10 $10 $15 $20 $25 $26 $30 $32 $37 a) ¿Cuál es la naturaleza de la variable que estamos analizando? b) Calcule la media, mediana y modo. c) Marque las medidas de posición en el gráfico 2, e indique que otros gráficos puede realizar para mostrar el comportamiento de la varia- ble. Gráfico 2 Variable valor de cuentas no pagas  =  − n 1 i 2 i imo min ) x x (  =  − n 1 i i imo min ) x ( Me x 7 15 22 30 37 0,00 0,11 0,22 0,33 0,44 frecuencia relativa HISTOGRAMA VALOR DE CUENTAS NO PAGAS
  • 19. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 91 1.4 Medida Geométrica La Media Geométrica de un conjunto de ”n” valores positivos de una variable, es la raíz enésima del producto de los “n” valores. 1 2 n n Mg( x) ( x )( x )...( x ) = Esta medida de posición es útil para encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento. En distribución de frecuencias es: 1 2 1 2 k n n n n k Mg(y ) y .y ...y = Ejemplo 4 Los rendimientos anuales, en porcentaje, de cuatro acciones de em- presas multinacionales son: 4.91, 5.75, 9.13, 20.86. La media geométrica es: 8.56 0.86) 5)(9.13)(2 (4.91)(5.7 Mg(x) 4 = = Esta medida de posición también es útil para calcular tasas de creci- miento promedio a partir de los valores de la variable. Un ejemplo de esto es: Ejemplo 5 Se quiere calcular la tasa promedio de crecimiento del PBI contando con información de los últimos 5 años: PBI : 200 245 279 300 326 Llamemos r a la tasa que buscamos La media geométrica es: 245 279 300 326 326 4 4 1 2 200 245 279 300 200 1129 n n Mg(x) (x )(x )...(x ) ( )( )( )( ) . = = = = Lo que obtuvimos es el relativo promedio es decir (1 + r), si necesitamos la tasa de variación promedio será: (1+r) – 1, para el ejemplo 0.129, que en términos porcentuales es el 12,9% En conclusión para calcular tasa promedio de crecimiento: 1 n r inicial valor final Valor − =
  • 20. 92 1.4.1 Propiedades de la Medida Geométrica a) La Media Geométrica no se podrá aplicar cuando algún valor de la variable asuma el valor cero, debido a que el producto será cero. b) La Media Geométrica no se podrá aplicar cuando el producto de los valores de la variable sea negativo y la cantidad de observaciones sea un número par, dado que el resultado de esta operación será un número imaginario. c) El logaritmo de la Media Geométrica es igual a la Media Aritmética de los logaritmos de los valores de la variable. Log Mg(x) = M(logx) Aplicando la propiedad que establece que el logaritmo de un producto de números, es igual a la suma de los logaritmos de los números, queda: x) M(log x log ) ) )...(x )(x (x log( Mg(x) Log n 1 i i n 1 n n 2 1 = = =  = Actividad 6 La Oferta Global (OG) y el Consumo (C) a precios de 1986 para la Argentina entre 1989 y 1994 se presentan en el siguiente cuadro. Concepto 1989 1990 1991 1992 1993 1994 Oferta Global (OG) Variación % anual 9.942,7 -6,9 9.952,1 0,1 11.130,3 11,8 12.586,7 13,1 13.417,2 6,6 14.586,6 8,7 Consumo (C) 7.469,1 10.354,2 a) Calcule la tasa promedio de variación de la OG para el período 1989 – 1994. b) Determine a cuánto alcanzará la OG dentro de 6 años si se pretende obtener un crecimiento promedio del 3% anual. c) ¿Cuál es la media geométrica del incremento porcentual anual de los consumos?
  • 21. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 93 Actividad 7 En la siguiente tabla se observan los valores del producto geográfico bruto (PGB) de la provincia de Córdoba en los años 2012 a 2017. Producto geográfico bruto de la provincia de Córdoba, en precios corrientes. Año Millones de $ 2012 193.510 2013 256.659 2014 351.133 2015 435.070 2016 608.179 2017 759.362 Calcule la tasa de crecimiento promedio anual del PGB en el período 2012- 2017 1.5 Medidas de posición no central Las medidas de posición no central son llamadas fractiles o cuantiles dentro de los que encontramos, como los más utilizados: • cuartiles • deciles • percentiles La r-ésima fractila o cuantil de orden “s”, se define como el valor de la variable que supera a no más de una fracción de r/s observa- ciones y es superado por no más de 1-r/s observaciones y se sim- boliza como P(r/s). Se determinan dividiendo la distribución en partes simbolizadas como r/s, donde “s” es el total de partes, tales como cuartos, decenas o centenas y “r” representa el numerador de la fracción e indica el orden de la fractila o cuantil. Su concepto es similar al de la Mediana pero trasladado a fracciones diferentes. Por ejemplo la fractila de orden tres en un total de diez partes, es el valor de la variable que supera a no más del 3/10 del total de las observa- ciones y es superado por no más del 7/10 del total de las observaciones y la simbolizamos como P(3/10). No obstante lo mencionado, para los casos en que la distribución se divide en cuatro, diez y/o cien partes, las fractilas se denominan cuartiles, deciles y/o percentiles respectivamente, en conse- cuencia para el ejemplo dado el valor P(3/10) equivale al Decil de orden 3 que se simboliza como: D3.
  • 22. 94 1.5.1 Cuartiles Si consideramos la variable x representada en el eje numérico, se tiene 25% 25% 25 % 25% Variable x Vm Q1 Q2 Q3 VM Donde las expresiones Vm y VM indican el mínimo y el máximo valor que asume x, respectivamente. Considerando sobre un eje los valores de la variable, podemos subdi- vidir su recorrido en cuatro partes y obtener los cuartiles. Por lo tanto, su determinación se hará como sigue: a) ordenando los valores de la variable de acuerdo a su magnitud. b) determinando el orden de cada cuartil: o1 = 1/4 (n + 1) -> Q1 = 1 o x o2 = 2/4 (n + 1) -> Q2 = 2 o x = Me o3 = 3/4 (n + 1) -> Q3 = 3 o x Q1 es el valor de la variable que supera a no más del 25% de las ob- servaciones y es superado por no más del 75% de las observaciones de la variable. De igual modo con los otros dos cuartiles. Los deciles y percentiles se calculan de la misma forma, pero teniendo en cuenta la fracción r/s. Estas medidas se utilizan para estudiar el compor- tamiento de la variable cuando la misma contiene valores atípicos que afec- tan la representatividad de la media aritmética. Ejemplo 6 Para obtener los cuartiles se ordenan de menor a mayor los valores de la variable porcentaje del costo laboral para la rama 4: Costos laboral / Costo total Rama 4 3 7 10 10 15 20 20 22 25 30 40 o1 = 1/4 (n + 1) = 1/4 (12) = 3 -> Q1 = x 3 = 10 o2 = 2/4 (n +1) = 2/4 (12) = 6 -> Q2 = 20 -> Me o3 = 3/4 (n + 1) = 3/4 (12) = 9 -> Q3 = x 9 = 25
  • 23. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 95 La interpretación de estos resultados tiene que ver con su definición, el cuartil uno será el valor de la variable (porcentaje del costo laboral) para el cual habrá un 25% de empresas cuyo porcentaje es hasta 10, en tanto que en el 75% restante el porcentaje es superior. De igual forma se interpre- tan los cuartiles dos y tres. Más adelante veremos que con estas medidas podemos confeccionar un diagrama llamado diagrama de caja y brazos que nos permitirá visualizar el comportamiento de la variable y determinar su asimetría. Hasta este punto se ha desarrollado el cálculo e interpretación de to- das las medidas de posición para la variable porcentaje del costo laboral para las 141 empresas de la muestra Utilizando Infostat, se procesaron los datos de la variable porcen- taje del costo laboral/costo total obteniendo las medidas de posi- ción y los cuartiles.
  • 24. 96 Se observa que el porcentaje promedio es de 30,56%, es decir que en promedio el costo laboral por empresa representa el aproximadamente 30% del costo total y que coincide con la mediana, lo que anticipa que la distribu- ción está centrada en la media y que es simétrica. Los cuartiles uno y tres concentran el 50% de los valores de la variable, quedando un 25% de observaciones por debajo del cuartil 1 y otro 25% de observaciones por encima del cuartil 3. Actividad 8 Retomando la actividad 2, en la que se ha seleccionado una muestra de pedidos de clientes, realizados en febrero/2015, a una empresa que fabrica un bien “X” y se ha registrado la cantidad de unidades solicitadas de dicho bien. a) Calcule la mediana y compare el valor de esa medida con el valor calculado de la media aritmética, de haber diferencia explique breve- mente cual puede ser la causa de la misma. b) Se pretende además determinar la cantidad máxima de pedidos del 25% de los clientes que menos demandan y la cantidad mínima de- mandada del 25% de los clientes que más cantidad de pedidos rea- lizaron en la muestra. Interprete cada valor calculado c) ¿Qué porcentaje de clientes se encuentran entre los dos valores cal- culados en b? Actividad 9 En relación a la Actividad 5, referida a montos de 12 cuentas no pagadas por venta de libros. Se le solicita que: a) Calcule los cuartiles y marque en el histograma del gráfico 2 los va- lores calculados sobre el eje que corresponda. b) Analice las medidas marcadas en el gráfico indicando las caracterís- ticas observadas respecto del comportamiento de la variable. Consi- dere el concepto de cada medida para interpretar adecuadamente. 2. Medidas de dispersión La dispersión es una medida de distancia entre los valores individuales de la variable y una medida de posición central o entre medidas de posición no central. Es por ello que hay medidas de dispersión que estudian la concen- tración en torno a un punto y otras que estudian rango o recorrido. 2.1 Varianza Dentro de las medidas de dispersión la más importante es la Varianza, dado que mide en el numerador de la fórmula, la distancia total mínima entre los valores de la variable y su media aritmética, considerada al cuadrado.
  • 25. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 97 Al hablar de distancia mínima estamos refiriéndonos a la suma del cuadrado de las diferencias entre los valores de la variable y su media, mí- nima por la propiedad de la media aritmética que se refiere a la suma del cuadrado de los desvíos respecto de la media. Esto indica que a mayor dis- tancia total, habrá mayor dispersión o heterogeneidad en los valores de la variable. La medida se calcula mediante el promedio o media de la suma de los desvíos al cuadrado respecto de la media aritmética. Digamos entonces que es una medida adecuada de dispersión, en distribuciones de variables cuantitativas en las que la media aritmética es representativa. En síntesis, la definición es: Media aritmética del cuadrado de los desvíos entre los valores de la variable y su media. Parámetro 2.1.1 Fórmula de cálculo Si el numerador del segundo miembro de la igualdad anterior es re- suelto mediante el desarrollo del cuadrado del binomio que el mismo repre- senta, se tiene la siguiente fórmula con la que también se puede calcular la Varianza.   2 2 2 2 1 1 1 N N N i i i i i i x x x N N N   = = =   −     = = −          Si desarrollamos el cuadrado del binomio:   2 1 2 N N 2 2 i i 2 i 1 i 1 x (x σ N N i i x )    = = = − − + = =    Considerando sólo el término:   =  =  2 i N 2 N 2 x 2 Introduciendo sumatorio en cada término del desarrollo del cuadrado del binomio queda:   N N N 2 x N μ x σ N 1 i 2 2 2 i N 1 i 2 i 2   = =  +  − = − = Llegamos a la fórmula alternativa del cálculo de la varianza: 2 x x 2 ) (μ μ σ 2 − = Esta fórmula suele ser más simple para el cálculo manual. N 2 i 2 i 1 (x μ) σ N = − =    =   =  = i N 1 i i x N N x
  • 26. 98 2.1.2 Varianza de la muestra En el caso de muestras, la Varianza se calcula como: Estadístico En caso de que la varianza sea utilizada en inferencias por muestreo, se calcula con una corrección cuyo significado tiene que ver con conceptos más avanzados que se estudiarán más adelante, en otra asignatura. Su fórmula es: Para la variable porcentaje del costo laboral que fue utilizada en ejem- plos anteriores utilizando el software Infostat, se calcularon las medidas de dispersión. Nuevamente con el menú estadísticas se abre una ventana en la que se debe asignar la variable y se solicita el cálculo de las medidas necesarias. n n 2 2 2 i i 2 i 1 i 1 (x x) x nx s n n = = − − = =   n n 2 2 2 i i 2 i 1 i 1 (x x) x nx s n 1 n 1 = = − − = = − −   c
  • 27. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 99 Ejemplo 7 Consideremos una rama de actividad, papel e impresiones, para el cálculo de la varianza mediante hoja de cálculo Excel, de la variable porcentaje del costo laboral: X (x-M(x)) (x-M(x))^2 25 6,64 44,04 7 -11,36 129,13 40 21,64 468,13 15 -3,36 11,31 20 1,64 2,68 20 1,64 2,68 10 -8,36 69,95 22 3,64 13,22 30 11,64 135,40 10 -8,36 69,95 3 -15,36 236,04 202 1182,55 118,25 10 55 . 1182 1 n ) x (x s n 1 i 2 i 2 = = − − =  = La varianza de la muestra de empresas de la rama papel e impresio- nes es 118.25 %2 del costo laboral. La medida representa la distancia pro- medio al cuadrado calculada respecto de la media, es por ello una medida de valores de distancia al cuadrado. Medidas de dispersión
  • 28. 100 2.1.3 Propiedades de la varianza • La varianza de una variable es una cantidad no negativa. V(x)  0 Esto se debe a que en su cálculo se toman los valores de la variable al cua- drado. • La varianza de una constante es cero V(c) = 0 c: constante Si xi = c y M(x) = c, entonces: ( ) = − = =  2 1 0 n i c c V( x) n lo que indica que no hay variabilidad alguna. Verificación: Si x: 4, 4. 4 La media es 4 y la varianza: • La varianza una constante por una variable es la constante al cuadrado por la varianza de la variable V(c . x) = c2 V(x) c: constante Si la variable es ahora cx y la media es la constante por la media de la va- riable, entonces: ( ) ( ) ( ) ( ) ( ) = = = =  −    =   −   =  −    =  −    =     2 1 2 1 2 2 1 2 2 1 n i i n i i n i i n i i c.x c.M x V(c.x ) n c x M x n c x M x n x M x c . n Verificación Si x: 4, 5.6 La media es 5 y la varianza: 0 2 ) 4 4 ( ) 4 4 ( ) 4 4 ( 2 ) x x ( 2 2 2 3 1 i 2 i = − + − + − = −  =
  • 29. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 101 1 2 ) 5 6 ( ) 5 5 ( ) 5 4 ( 2 ) x x ( 2 2 2 3 1 i 2 i = − + − + − = −  = Pero si a x la multiplicamos por 2 X’: 8,10,12 La media es 10 y la varianza: 4 2 10 12 ( ) 10 10 ( ) 10 8 ( 2 ) x x ( 2 ) 2 2 3 1 i 2 i = − + − + − = −  = Lo que equivale a: V(c. x) = c2 V(x) 22 .1 = 4 • La varianza de la suma de una constante más una variable es la varianza de la variable. V(c + x) = V(x) c: constante Es decir la variabilidad de los datos no se modifica cuando se suma un escalar a la variable. Demostrando para el caso en que sumo la constante (igualmente vá- lido en caso de restarla): ( ) ( ) =  + − +    + =  2 1 n i i x c M( x) c V( x c) n Eliminando paréntesis en la base de la potencia del numerador del segundo término: ( ) = + − − + =  2 1 n i i x c M( x) c V( x c) n ( ) = − + =  2 1 n i i x M( x) V( x c) n ( ) + = V( x c) V x Actividad 10 Verifique la propiedad para un aumento constante de 3 unidades en una variable x con valores 4,5 y 6.
  • 30. 102 2.2 Desviación estándar Esta medida de dispersión está asociada totalmente a la Varianza. Se define como: la raíz cuadrada positiva de la Varianza. N μ) (x σ DS(x) N 1 i 2 i  = − = = n ) x (x s DS(x) n 1 i 2 i  = − = = Esta operación algebraica nos permite expresar el resultado en las mismas unidades que la variable por lo tanto su interpretación es más fácil de realizar. Para la variable porcentaje del costo laboral de las 141 empresas la desviación estándar es: % 63 . 14 = = = 213.98 σ σ 2 Considerando a la Media Aritmética con un valor de 30,56 %, podemos concluir que en este caso y atendiendo a la naturaleza del problema hay baja dispersión o, en otros términos, los datos están concentrados en torno a la media, se hallan a poca distancia de ésta, lo que indicaría que son homogéneos. 2.3 Coeficiente de variación Es una medida relativa de dispersión que se calcula como el cociente entre la Desviación Estándar y la Media Aritmética. Se utiliza fundamentalmente cuando se pretende comparar, en cuanto a su dispersión, distribuciones expresadas en diferentes unidades de me- dida, mostrando cuál de ellas presenta menor dispersión ó mayor con- centración o bien, datos más homogéneos respecto de su media, lo que en definitiva confirma la representatividad del promedio calculado para esos datos. DS( x ) CV( x ) M( x ) = Si se multiplica por 100 se expresa como porcentaje e indica obvia- mente el porcentaje de dispersión de la variable en torno a su media. En el ejemplo de porcentaje de costo laboral, el coeficiente de varia- ción será CV= 4786 . 0 56 , 30 63 , 14 = = y s El valor del coeficiente de variación puede multiplicarse por 100 para expresarlo en porcentaje e interpretar que la dispersión relativa del porcen- taje del costo laboral en torno a la media es 47.86%, lo que refleja una dis- persión inferior al 100%. Además de este análisis, la relevancia de la medida radica en que es relativa, lo que la hace prescindir de la unidad de medición, permite comparar variables expresadas en distintas unidades de medición, indicando cuál es la variable que presenta datos más homogéneos para el caso en el que el Coeficiente de Variación sea menor.
  • 31. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 103 Actividad 11 Retomando la actividad 2, en la que se ha seleccionado una muestra de pedidos de clientes, realizados en febrero/2015, a una empresa que fabrica un bien “X” y se ha registrado la cantidad de unidades solicitadas de dicho bien. a) Calcule el recorrido. Emita una opinión respecto del valor calculado. b) Calcule la varianza y desviación estándar de la variable. Emita una opinión sobre cada medida en relación al comportamiento de la va- riable. c) Calcule la desviación estándar si para el mes de marzo se espera que todos los clientes soliciten 4 unidades más del bien “X” con res- pecto a los pedidos de febrero. d) En otra situación, si para el mes de marzo se espera que todos los clientes reduzcan en un 15 % el número de unidades del bien “X” solicitadas con respecto a febrero, ¿cuál sería el valor de la varianza en el mes de marzo? Actividad 12 En relación a la actividad 3, en la que se ha relevado el sueldo del entrevis- tado de la encuesta permanente de hogares para las categorías patrón y cuenta propia, se le solicita a Ud. que: a) Calcule el rango para cada categoría y analice el significado del va- lor. b) Calcule la varianza, desviación estándar de cada categoría y emita una opinión en relación al significado de estos valores. c) Calcule el coeficiente de variación de cada categoría interprete cada valor comparando las distribuciones. d) Suponga que se incrementa el sueldo en 50$ para cada persona en cada categoría, calcule la varianza del sueldo de cada categoría des- pués del incremento. (Aplique propiedades). e) Considere que en lugar de incrementar el sueldo en 50$, se incre- mente un 18%. Calcule la desviación estándar del sueldo de cada categoría después del incremento. (Aplique propiedades). f) Para los ítem d y e, explique el efecto que produce el cambio en la variable, sobre el coeficiente de variación. 2.4 Recorrido y Recorrido Intercuartil El recorrido es la diferencia entre el valor máximo y el mínimo de la variable. Se basa en la distancia o rango de los valores y no en una concen- tración en torno a un punto. Permite interpretar que la dispersión es alta en la medida que los valores de la variable tengan amplio rango de variación, en consecuencia, al no considerar en el cálculo todos los valores de la va- riable, es afectada por valores extremos y, de este modo, menos precisa que la varianza. R = VM - Vm
  • 32. 104 El Recorrido Intercuartílico es una medida de dispersión útil para determi- nar la concentración del 50% central de los datos. Se calcula mediante la diferencia entre el tercer y primer cuartil. RI = Q3 – Q1 Es una de las medidas que analizan la dispersión en base al rango de los valores considerados en el cálculo, por lo que no tiene en cuenta a todos los valores de la variable. 3. Diagrama de caja y brazos Esta representación es confeccionada con la mediana y los cuartiles. Consiste en marcar sobre un eje real los valores de la variable, el que puede ser posicionado en forma horizontal o vertical (Infostat hace diagramas de caja y brazos verticales). Con los cuartiles se forma una caja cuyos lados son el cuartil 1 y 3 y la mediana se marca en el interior de la caja, la que representa la distribu- ción del 50 % central de los datos. A ambos lados de la caja quedan los brazos, los que determinan en definitiva si hay deformaciones horizontales. Para construir los brazos se utiliza una regla empírica utilizando el Re- corrido Intercuartílico, definiendo dos límites: límites internos y externos. Es- tas barreras permiten establecer un criterio para decidir si los valores extre- mos de una variable son atípicos o extremadamente atípicos en relación a los demás. Los Límites Internos, al interior del cual se consideran valores nor- males de la variable, son determinados a una distancia de 1.5 veces el re- corrido intercuartil, respecto a los cuartiles primero y tercero respectiva- mente. [ Q1 - 1,5 RI ; Q3 + 1,5RI ] = [LIO ; LSO] Cuando existen valores de la variable que están fuera de las barreras internas significa que esos valores son alejados de los más homogéneos y se pueden considerar como atípicos, comúnmente identificados en las sali- das de los software con una letra O, por su designación en inglés, Outliers. Cuando esos valores están muy alejados son considerados extremos, los que se identifican calculando los llamados límites externos. Se aplica especial- mente en control de calidad estadístico, para confeccionar cartas de control de variables cuantitati- vas en procesos pro- ductivos como por ejemplo cuando se analiza si la produc- ción de una pieza, en cuanto a sus dimen- siones, cuenta con una variabilidad que responde a los es- tándares de variabili- dad del producto y no está en riesgo de producir defectuo- sos. Es el caso donde mediante una mues- tra de 5 unidades, en las que tomamos el diámetro de cada pieza, la diferencia entre el mayor y me- nor diámetro será el rango, tomando una determinada canti- dad de muestras po- dremos ver en qué forma se modifica el rango y habrá un in- dicio de la variabili- dad del proceso, ob- viamente mientras mayor valor asume el rango, más riesgo habrá de producir fuera de los estánda- res establecidos.
  • 33. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 105 Los Límites Externos se calculan a una distancia de 3 veces el reco- rrido intercuartil respecto a los cuartiles primero y tercero. [ Q1 - 3 RI ; Q3 + 3RI ]= [LIE ; LSE] Los valores de la variable que quedan entre los límites internos y ex- ternos se consideran valores atípicos. Cuando existen valores de la variable que están fuera de las barreras externas significa que esos valores son muy alejados de los más homogéneos y se pueden considerar como extrema- damente atípicos. Generalmente, en las salidas de computación, estos va- lores son marcados de alguna manera. La siguiente ilustración muestra el diagrama de caja y brazos para di- ferentes tipos de distribuciones. (1) (2) (3) Observamos que en la distribución Nº 1 ambos brazos son iguales y la mediana se ubica en el centro de la caja. Veremos más adelante que estas distribuciones son llamadas simétricas respecto de su forma, mientras que en la distribución Nº 2 el brazo superior es mayor que el inferior y, opuesta- mente en la distribución Nº 3 el brazo inferior es más largo que el superior. Estas dos últimas distribuciones se definen respecto de la forma como asi- métricas derecha e izquierda respectivamente. También podemos analizar la dispersión, ya que el tamaño de la caja representa la amplitud intercuartil y por ende determina la concentración o dispersión del 50% central de los valores de la variable.
  • 34. 106 Por lo tanto, si la caja es más ancha indicará que ese conjunto central de observaciones de la variable es más disperso. La línea que se ubica den- tro de la caja indica la posición de la Mediana. Por último, se observa que en la distribución Nº 2 y Nº 3 existen valores atípicos y/o extremos. En los siguientes gráficos se presenta el diagrama de cajas y brazos de la variable Porcentaje del costo laboral obtenidos con Infostat para la muestra total y para empresas de las ramas 4 y 6 (ver instructivo de Infostat). Actividad 13 a) Con los datos de la actividad 5, confeccione el diagrama de caja y brazos y emita una opinión sobre el comportamiento de la variable, analizando el diagrama. b) Explique cómo analiza la existencia de valores atípicos, que significa eso para la distribución y determine si para la variable cantidad de pedidos hay valores extremos o atípicos de demanda. Actividad 14 En relación a la actividad 3, en la que se ha relevado el sueldo de dos mues- tras de la encuesta permanente de hogares referidas a categorías, patrón y cuenta propia. Se le solicita a Ud. Que: a) Confeccione el diagrama de caja y brazos para la variable sueldo en cada muestra y analice el comportamiento de la variable, compa- rando ambas situaciones.
  • 35. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 107 b) Explique cómo analiza la existencia de valores atípicos, que significa eso para la distribución y determine si para la variable cantidad de pedidos hay valores extremos o atípicos de la variable sueldo en cada muestra. Actividad 15 El siguiente Gráfico muestra los resultados del procesamiento con Infostat, de la variable peso expresado en kg. de 100 personas adultas: MEDIDAS DESCRIPTIVAS n Media Mediana Desv. Est. Min. Max. Q1 Q3 100 65.35 63.50 11.21 47 100 57 72 DIAGRAMA DE CAJA Y BRAZOS ---!---------!---------!---------!---------!---------! peso 50 60 70 80 90 100 a) Marque en el diagrama de caja y brazos: la mediana y los cuartiles e interprete cada medida. Analice. b) Determine el recorrido intercuartil y emita una opinión respecto del significado de este valor en la serie. c) Considera que hay personas con peso atípico en la serie analizada. Justifique su respuesta. 4. Otras medidas Bajo esta denominación se incluyen los momentos, medidas de posi- ción útiles para calcular las demás medidas de posición, dispersión y forma antes mencionadas. Los momentos pueden ser naturales o centrados. 4.1 Momentos naturales Los llamados momentos naturales se definen como: La media aritmética de la potencia e-résima de la variable. = r r a ( x ) M( x ) Los momentos naturales de orden 0,1,2 son los siguientes: 0 0 1 = = a ( x ) M( x ) 1 1 = = = a ( x ) M( x ) M( x )  +
  • 36. 108 2 2 = a ( x) M( x ) Por lo tanto relacionando el momento natural de orden uno y el de orden dos obtenemos la varianza de la siguiente forma: 2 2 2 1 − = a (a )  4.2 Momentos centrados Los momentos centrados, están definidos como: La media de la diferencia entre los valores de la variable y la media aritmética, elevada a la potencia e-résima. = − r r m ( x ) M( x )  Los momentos centrados de orden 0,1,2 son entonces los siguientes: 0 0 1 = − = m ( x ) M( x )  Por propiedad de Media Aritmética 1 1 m (x) M(x ) 0 = − = 2 2 2 = − = m ( x ) M( x )   Varianza Relacionando ambos tipos de momentos, se observa: m2 = a2 – (a1)2 5. Medidas de forma Las medidas de forma, al igual que las medidas de posición y disper- sión, determinan el comportamiento general de la variable. Se pueden dividir en análisis de comportamiento horizontal o asime- tría, o bien vertical llamado curtosis. En cuanto a la asimetría, las distribuciones pueden ser: • Asimétrica derecha • Asimétrica izquierda • Simétrica. Y en cuanto a la curtosis o puntiagudez: • Leptocúrtica • Mesocúrtica • Platicúrtica La siguiente imagen muestra la forma para diferentes distribuciones:
  • 37. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 109 a. ASIMETRÍA a1. Asimétrica positiva b. CURTOSIS b1 . Leptocúrtica a2. Asimétrica negativa. b2. Mesocúrtica a3. Simétrica b3. Platicúrtica En la imagen a1 observamos una distribución asimétrica derecha dado que la deformación se produce a la derecha de la misma, también observa- mos que los datos se concentran a la izquierda. En la imagen a2 la distribu- ción es asimétrica izquierda con una situación totalmente opuesta a la de la imagen a1. En la imagen a3 la distribución es simétrica lo que significa que los datos se encuentran distribuidos de manera equitativa a ambos lados de la Media Aritmética. En lo atinente a la curtosis, se define como el grado de concentración de los valores de la variable en torno al modo, mientras mayor concentración más puntiaguda se muestra la distribución tal como se ve en la imagen b1, llamándose en este caso Leptocúrtica, es Mesocúrtica cuando está menos concentrada alcanzando una altura media como muestra la imagen b2 y es Platicúrtica en el caso en que los valores de la variable se dispersan hasta alcanzar una forma aplanada en la distribución como se observa en b3 . 0,00 3,81 7,62 11,44 15,25 Variable 0,00 0,06 0,12 0,18 0,24 Frecuencia Relativa 3,00 12,25 21,50 30,75 40,00 Variable 0,00 0,02 0,05 0,07 0,09 Frecuencia Relativa 0,00 0,25 0,50 0,75 1,00 Variable 0,00 0,62 1,23 1,85 2,46 f recuencia relativa 3,00 12,25 21,50 30,75 40,00 Variable 0,00 0,02 0,05 0,07 0,09 Frecuencia Relativa -2,25 3,88 10,00 16,12 22,25 Variable 0,00 0,04 0,08 0,12 0,16 Frecuencia Relativa 3,00 12,25 21,50 30,75 40,00 Variable 0,00 0,02 0,05 0,07 0,09 Frecuencia Relativa
  • 38. 110 5.1 Coeficientes de asimetría El coeficiente de asimetría se calcula por diversos procedimientos y se simboliza como CP. • Coeficiente de asimetría de PEARSON, basado en la relación em- pírica entre las medidas de posición central, permite determinar una medida relativa de la distancia que se presenta entre ellas cuando la distribución es asimétrica. Su valor es cero cuando la distribución es simétrica en virtud de que las tres medidas son idénticas en este tipo de distribuciones. Para la población es: 𝑃 = 𝜇 − 𝑀𝑜 𝜎 ≅ 3(𝜇 − 𝑀𝑒) 𝜎 Y en caso de ser una muestra es: 𝑃 = 𝑥̅ − 𝑀𝑜 𝑆 ≅ 3(𝑥̅ − 𝑀𝑒) 𝑆 • Coeficiente basado en momentos centrados 3 1 3 1 3 2 3 2 = − = =  N i i ( x ) N G ( )     El coeficiente de asimetría muestral es: 3 1 1 3 = − =  n i i ( x x ) n G s El coeficiente de asimetría puede asumir valores mayores, iguales o menores que cero. Si es cero la distribución es perfectamente simétrica pero si es positivo es asimétrica positiva o si es negativo asimétrica negativa. > 0 (Asimetría derecha o positiva) Ca = 0 (Simétrica) < 0 (Asimetría izquierda o negativa)
  • 39. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 111 5.2 Coeficientes de curtosis Las fórmulas más conocidas para el cálculo del coeficiente de curto- sis, simbolizado como Ck son: • Coeficiente basado en los momentos centrados 4 1 4 2 4 2 4 2 3 3 = − = − = −  N i i ( x ) N G ( )     El coeficiente de curtosis muestral es: 4 1 2 4 3 = − = −  n i i ( x x ) n G s Estos coeficientes pueden asumir valor mayor, igual o menor que cero, indicando que la distribución es alta (leptocúrtica), media (mesocúrtica) y baja (platicúrtica), respectivamente. En Infostat el coeficiente de curtosis que se obtiene debe ser comparado con el valor 0. Si es igual a 0, entonces se trata de una curtosis normal, si es mayor que 3 es leptocúrtica o más que normal y si es menor que 3, es platicúrtica o menos que normal. Utilizaremos la variable gasto en movilidad mensual de la base “alumnos.idb” para realizar los cálculos de las medidas de asimetría y curtosis utilizando Infostat. VER INSTRUCTIVO DE INFOSTAT Se observa que el coeficiente de asimetría obtenido con la fórmula de los momentos asume el valor 3.6, lo cual significa que la variable tiene asimetría derecha, esto es porque el valor está por encima del valor 0 que indica un comportamiento simétrico para la variable. Por otra parte observamos también que la media es mayor que la mediana, y eso se debe a que la media se ve afectada por los valores de la variable ubicados en el extremo derecho de la distribución, que es precisamente donde se produce la caída o deformación horizontal. Observando el coeficiente de curtosis de 17,45 (> a 3) se observa que es muy puntiaguda es decir tiene una alta curtosis.
  • 40. 112 Utilizando la fórmula de Pearson para calcular el coeficiente de asi- metría se obtiene: 𝑃 = 𝑥̅ − 𝑀𝑜 𝑆 ≅ 3(𝑥̅ − 𝑀𝑒) 𝑆 El valor 0,67 del coeficiente de asimetría de Pearson indica también asimetría derecha para la variable. No obstante, cada coeficiente de asime- tría calculado según la fórmula que corresponda dará numéricamente un va- lor diferente, pero el sentido de la asimetría como derecha o izquierda será igual cualquiera sea el coeficiente que utilicemos. En cuanto a la curtosis, se puede observar que la variable en estudio presenta una distribución leptocúrtica, es decir alta. Debe tenerse en cuenta que esta medida de forma sólo refleja una alteración en la distribución de- bido a la altura, lo cual en términos de la variable, estaría indicando que la mayor concentración de los valores de la variable tiene una alta frecuencia o en otros términos un alto porcentaje de valores de la variable están con- centrados en ese tramo. Gráficamente las dos medidas de forma pueden verse reflejadas en el histograma de la Gráfico 3, donde la ubicación de las medidas de posición responde a la marcada asimetría que la variable presenta. Esto nos lleva a relacionar las medidas de posición central y las de forma. Gráfico 3 Histograma de la variable gasto en movilidad mensual La distancia entre las medidas de posición central media, mediana y modo permite establecer si la distribución es simétrica o asimétrica. En las simétricas las tres medidas coinciden aproximadamente, mientras que en distribuciones asimétricas son diferentes. Estas relaciones se ilustran en las siguientes imágenes. }
  • 41. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 113 Distribución asimétrica derecha Mo < Me < M(x) Distribución asimétrica izquierda M(X) < Me < Mo Distribución simétrica M(X) = Me = Mo Considerando las definiciones de cada medida, vemos que en una dis- tribución asimétrica derecha el modo está más cerca del origen del sistema de coordenadas debido a que es el valor de mayor frecuencia, la mediana estará en el centro por ser el valor central del conjunto ordenado de valores de la variable, y la media aritmética se verá afectada por los valores que se encuentran en el extremo derecho de la distribución. Igual razonamiento po- demos aplicar en distribuciones asimétricas negativas y simétricas. Actividad 16 Es importante para diagramar actividades, los gastos que las mismas pue- den ocasionar en los bolsillos de los estudiantes, es por eso que se analiza el gasto en libros y movilidad, utilizando información de la base de datos de “alumnos. Idb”. Relacione las medidas descriptivas de cada variable y los gráficos de caja y brazos e histogramas para responder lo que se solicita: 0,00 3,81 7,62 11,44 15,25 Variable 0,00 0,06 0,12 0,18 0,24 Frecuencia Relativa 0,00 0,25 0,50 0,75 1,00 Variable 0,00 0,58 1,15 1,73 2,30 Frecuencia Relativa 0,64 10,32 20,00 29,68 39,37 Variable 0,00 0,03 0,05 0,08 0,10 Frecuencia Relativa
  • 42. 114 a) Analice el valor de las medidas de forma para cada variable y com- pare emitiendo una opinión respecto en tal sentido respecto de cada variable. b) Relacione su opinión con el diagrama de caja y brazo e indique qué observa en ese gráfico en relación a la opinión emitida. c) Analice los histogramas y vincule su análisis a los ítems a y b. Medidas descriptivas Histográmas
  • 43. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 115 6. Distribuciones bidimensionales En las secciones anteriores presentamos el cálculo de medidas para describir una variable. Ahora introducimos medidas que permiten describir numéricamente la relación lineal entre dos variables cuantitativas. Las distribuciones bidimensionales son las que se refieren al trata- miento simultáneo de dos variables, por ejemplo, estatura y peso de un con- junto de personas, ingresos y gastos mensuales por familia en un grupo de familias, rendimiento por hectárea e inversión en fertilizantes, etc. En estos ejemplos y en todos los que se puedan presentar, lo impor- tante es saber si esas variables se relacionan o vinculan matemáticamente mediante una función lineal, en otros términos si es factible que logremos una función mediante la cual dando valores a una de las variables estamos generando valores de la otra estimativamente parecidos a los verdaderos valores que la variable asume. Para cumplir ese objetivo utilizaremos la covarianza, que indica si hay asociación lineal entre las variables y el coeficiente de correlación lineal de Pearson que indica la intensidad o grado de asociación. 6.1 Covarianza y Coeficiente de Correlación de Pearson Es una medida de dispersión conjunta entre dos variables cuantitativas que indica la presencia de asociación lineal directa o inversa entre las mismas. La siguiente imagen permite observar la medida vinculada al diagrama de dispersión. Se define como:   Cov( x,y ) M ( x M( x))(y M(y )) = − −
  • 44. 116 1 n i i i ( x M( x ))(y M(y )) Cov( x,y ) n = − − =  Realizando el producto de los binomios y operando se llega finalmente a que: 1 1 1 n n n i i i i i i i x y x y Cov( x,y ) M( xy ) M( x )M(y ) n n n = = = = − = −    Si las variables son independientes entonces la Cov(x,y) es cero. Su rango de variación oscila entre infinito negativo y positivo y su significado depende del signo: si es positivo, la asociación entre las variables es directa y de lo contrario es inversa. Si x,y son independientes Cov (x,y) = 0 Si x,y están asociados en forma directa Cov (x,y) > 0 Si x,y están asociados en forma inversa Cov (x,y) < 0 La Covarianza sólo nos indica el sentido de la relación. Para medir el grado de relación, es necesario calcular una medida estandarizada deno- minada Coeficiente de correlación lineal de Pearson El Coeficiente de correlación lineal de Pearson mide la intensidad de asociación lineal entre las variables. Puede asumir valores entre -1 y 1 y se calcula dividiendo la covarianza por el producto de las desviaciones es- tándar de cada una de las variables. COV( X,Y ) r DS( x ).DS( y ) = Cuando el valor del coeficiente de Pearson (r) es 0, indica que no hay asociación lineal entre las variables analizadas, si su valor es negativo y próximo a 1, indica asociación lineal directa o positiva e intensa en la medida que más se aproxima a 1, similarmente si su valor es negativo indica aso- ciación inversa o negativa y mientras más se acerca a -1 más intensa será la asociación lineal. En la siguiente imagen se puede observar cuatro situaciones extremas de aplicación del coeficiente r de Pearson.
  • 45. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 117 Para aclarar este concepto, consideraremos la tasa de desempleo (x) y la tasa de renuncia (y) para 13 regiones en un momento determinado del tiempo. Se calculará la covarianza y el coeficiente de correlación de Pearson y se interpretará su resultado. Procesando los datos con Infostat se obtienen los resultados de la matriz de covarianza y la matriz de correlación.
  • 46. 118 En base a los resultados obtenidos puede concluirse que hay asocia- ción inversa entre las variables analizadas. Esto, en otros términos, significa que a medida que la tasa de desempleo aumenta, la tasa de renuncia dis- minuye. Por otra parte ante un coeficiente de correlación de Pearson de - 0,82, se interpreta que la asociación lineal es muy buena. • Cuando las variables son dependientes, la varianza de una suma o diferencia de variables es igual a las suma de las varianzas de cada una de las variables, más o menos, dos veces la covarianza. ( ) ( ) ( )  = +  2 V( x y ) V x V y .Cov x,y Covarianza (x,y) Coeficiente de correlación (x,y)
  • 47. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 119 Por definición de varianza: ( ) ( ) ( ) ( ) ( ) ( ) 2 1 2 1 n i i i n i i i x y M x M(y ) V( x y ) n x M x y M(y ) n = =   + − +   + =   − + −     Resolviendo el cuadrado del binomio del numerador del segundo tér- mino: ( ) ( ) ( ) ( )( ) ( ) ( ) = − + − − + − + =  2 2 1 2 n i i i i i x M x x M x y M(y ) y M(y ) V( x y ) n Distribuyendo el sumatorio y n: ( ) ( ) ( ) ( ) ( ) ( )( ) = = = − − − − + = + +    2 2 1 1 1 2 n n n i i i i i i i x M x y M y x M x y M(y ) V( x y ) . n n n Por lo que: ( ) ( ) ( ) + = + + 2 V( x y ) V x V y .Cov x,y O bien: ( ) ( ) ( ) − = + − 2 V( x y ) V x V y .Cov x,y Observemos que, si la covarianza es cero, indica que hay indepen- dencia entre las variables "x" e "y" con lo que la varianza de la suma o diferencia de las variables "x" e "y" será igual a la suma de las varianzas de cada una de ellas. V (x  y) = V(x) + V(y) Actividad 17 Considerando los datos de la base EPH.idb, un aspecto importante es la relación entre las horas trabajadas y la antigüedad en el empleo del jefe de hogar. A partir de los siguientes resultados, responda: a) La covarianza, interprete e indique el significado del valor. b) Indique a qué medida corresponde cada valor de la diagonal princi- pal. c) La matriz de correlación, interprete cada valor e indique el significado del valor.
  • 48. 120 7. Actividades de aprendizaje Actividad 18 Con los datos de la base EPH, se ha analizado la variable sueldo, que re- presenta el ingreso de las personas consultadas en la muestra. Se ha con- siderado para el análisis descriptivo el ingreso de Empleadores y trabajado- res por su cuenta, las medidas descriptivas para el ingreso de cada una de esas categorías, se muestra en tabla 12: Tabla 12. Medidas Resumen Medidas variable in- greso Empleador Cuenta propista n 9 21 Media 1280 737,14 Var(n-1) 394075 237401,43 Mín 370 240 Máx 2200 2100 Mediana 1300 650 Q1 970 320 Q3 1500 870 Asimetría 0,03 1,53 a) Calcule la media general (varones y mujeres) del ingreso de ambas categorías. b) Calcule la desviación estándar del ingreso de cada categoría. c) Calcule el coeficiente de variación, para cada grupo, interprete y compare. d) Calcule el recorrido intercuartil para cada categoría y compare inter- pretando adecuadamente la medida. e) Indique observando la tabla de medidas resumen, ¿qué distribución presenta mayor asimetría y cuál es el sentido de la misma? f) Calcule media y varianza del ingreso para la categoría empleadores, luego de una disminución del 20% debido a devaluaciones moneta- rias. (Aplique propiedades).
  • 49. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 121 Actividad 19 Retomando la actividad 20 de la Unidad 1, se le solicita que analice la varia- ble mediante un análisis descriptivo: medidas de posición, dispersión y forma, interpretando el significado que le atribuye a cada una. Actividad 20 Conforme a la actividad 23 de la Unidad 1, en la que para 15 empresas se relevó el precio y el margen de utilidad de un producto. Calcule con Infostat la matriz de covarianza y correlación e interprete cada valor estableciendo un vínculo con el gráfico a que hace referencia la activi- dad en la unidad 1. Actividad 21 Conforme a la actividad 24 de Unidad 1, referida a una heladería que cuenta con dos sucursales en la Ciudad de Córdoba, una ubicada en la zona Norte y otra ubicada en la zona Sur. A continuación se presenta información sobre el número de pedidos telefónicos recibidos por día, para una muestra alea- toria de 20 días: Zona Norte 4 6 7 5 5 6 7 4 8 6 8 5 7 6 7 5 6 6 7 4 Zona Sur 4 6 5 3 6 3 5 6 5 6 4 4 5 6 6 2 3 4 5 6 a) Para cada sucursal: Calcule las medidas descriptivas y analice cada variable b) Efectúe comparaciones Actividad 22 A continuación, se presentan los precios de venta (en miles de $) de 30 casas de dos zonas residenciales de la Ciudad de Córdoba que fueron utili- zados en la actividad 25 de la Unidad 1. Zona A 90 116 120 95 114 97 121 108 102 91 107 99 92 118 100 96 98 110 104 125 100 93 105 112 96 113 100 95 105 129 Zona B 100 148 130 118 135 125 110 132 125 115 134 116 131 109 126 112 126 105 150 119 121 145 128 117 136 122 119 130 125 133 Para cada zona: Calcule las medidas de posición dispersión y forma y analice cada distribu- ción emitiendo una opinión en relación a las características estadísticas de los precios de venta de las viviendas en cada zona, es decir, los precios más altos, los más variables, la zona que presenta valores muy diferentes al pro- medio, etc. Relacione las interpretaciones que Ud. Realiza en esta actividad con las que realizó en la unidad 1.
  • 50. 122 Actividad 23 Un aspecto relevante para las empresas es la cantidad de personal ocu- pado. En la tabla 13 se presentan las medidas descriptivas de esta variable por sector de economía. Tabla 13. Medidas descriptivas de variable cantidad de personal MEDIDA DE ORIGEN AGROPE- CUARIO PRODUCTOS NO METÁLI- COS PRODUCTOS METÁLICOS OTRAS INDUSTRIAS n 49 36 50 13 Media 33,63 27,67 35,36 58,38 D.E. 40,81 41,19 47,61 83,7 CV 121,33 148,88 134,65 143,35 Mín 3 3 4 6 Máx 191 168 214 280 Q1 10 6 11 17 Asimetría 2,35 2,62 2,56 2,2 Kurtosis 4,78 5,23 5,5 2,23 a) Analice la variable en cada sector e indique en que sector el prome- dio es más representativo. b) ¿En qué sector considera Ud. que se debería promover más contra- tación de personal? c) Se ha efectuado el análisis conjunto de las variables cantidad de per- sonal y costo laboral sobre costo total. Los datos se transcriben en tablas 14 y 15. Tabla 14. Matriz de covarianzas perso- nal costos lab/costo to- tal personal 2306,03 -82,87 costos lab/costo total -82,87 201,06 Tabla 15. Matriz de correlación perso- nal costos lab/costo to- tal personal 1 -0,12 costos lab/costo total -0,12 1 Analice la información y emita una opinión sobre la relación lineal que puede existir entre las variables.
  • 51. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 123 8. Referencias Bibliográficas - Berenson, M y Levine, D (2003) Estadística Básica en Administración. Con- ceptos y Aplicaciones. 6º Edición Prentice Hall. - Blanch et al (2005) Ciclo Básico a Distancia Guía de Estadística I. Editorial Asociación Cooperadora de la Facultad de Ciencias Económicas - UNC. - Peña, D. (2001) Fundamentos de Estadística. Editorial Alianza. - Saino M. (2009). Estadística Descriptiva. Material de estudio y aplicaciones prácticas correspondiente a los Capítulos I, II del programa de Estadística I. Asoc Coop F.C.E. (U.N.C.). ISBN: 978-987-1436-20-0.
  • 52. 124 Soluciones y respuestas Actividad 1: A cargo del alumno. Actividad 2: a) Medidas resumen con Infostat Variable n Media Mediana xi 14 23,43 22,50 Interpretación: El promedio de unidades solicitadas de él bien analizado es de 23 unidades, para la muestra de 14 clientes. Hay 7 clientes (50%) que solicitaron menos de 23 unidades. Hay dos valores modales, correspondientes a los valores más frecuentes que son de 16 y 25 unidades, respectivamente. b) Para ello se utilizó el Excel. xi (xi- promedio) 10 -13,43 12 -11,43 14 -9,43 16 -7,43 16 -7,43 18 -5,43 20 -3,43 25 1,57 25 1,57 27 3,57 30 6,57 30 6,57 35 11,57 50 26,57 Total 0,00 c) Aplicando propiedades de la Media aritmética. Y = x + 4 M(y) = M (x +4) = M(x) + M (4) = 23,43 + 4 M(y) = 27,43 ( )  = − 0 ) x ( M xi
  • 53. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 125 d) Aplicando propiedades de la Media aritmética. Y= X – 0,15 X = X (1 – 0,15) (extraemos factor común) Y = x. 0,85 M(Y) = M (x. 0,85) = 0,85. M(x) = 0,85. 23,43 M(y) = 19,92 Actividad 3 a) Muestra tamaño: 9 personas (patrones). Muestra tamaño: 21 personas (Cuenta propia). b) Monto total Monto total de sueldo de los 9 patrones analizados es de $11520. Monto total de sueldo de los 21 cuentapropistas analizados es de $15480. c) Promedios Patrón Cuenta Propia Promedio 1280 737,14 El promedio de sueldo de los 9 patrones es de $1280, mientras que de los 21 cuentapropistas es de $ 737,14, la diferencia (a pesar de que los montos totales no difieren tanto) se debe a que las muestras son considerablemente diferentes. d) Se define la nueva variables Y = x - 0,20.x = x. (1-0,20) = 0,80. X M (Y) = M (0,80. x) =0,80. M(x) Entonces para cada muestra los nuevos valores de promedio bajo el efecto inflacionario serán: Patrón Cuenta Propia Promedio 1280 737,14 Nueva media 1024 589,71 e) Se define la nueva variable. Y = x + 50 M(y) = M (x +50) = M(x) + 50 Entonces para cada muestra los nuevos valores de promedio serán: Patrón Cuenta Propia Promedio 1280 737,14 Nueva media 1330 787 f) Definimos entonces una nueva variable que refleje ambos incrementos
  • 54. 126 W= 50+ 1,18 x M(W) = M (50 + 1,18. x) = M (50) + M (1,18. x) = 50 + 1,18. M(x) Reemplazando ahora por las medias de cada grupo analizado tendremos Patrón Cuenta Propia Promedio 1280 737,14 Nueva media 1560 919,83 g) Promedio total = (Media grupo 1). n1 + (media grupo 2). n2 n1 +n2 Patrón Cuenta Propia Promedio 1280 737,14 Muestra 9 21 Media total 900,00 Actividad 4 a) Variable: unidades producidas (se trata de una variable cuantitativa dis- creta que esta presentada en forma de una Serie Simple) Medidas de Posición Turno 1 Turno 2 Media 20,86 26 Mediana 16 27 Modo 16 25 Modo ---------- 30 Interpretaciones: Media: El promedio de unidades producidas es aproximadamente de 21 uni- dades para el Turno 1 y de 26 unidades para el Turno 2 Mediana: Para el Turno 1 el 50% de los días analizados se produjeron me- nos de 16 unidades Para el Turno 2 el 50% de los días analizados se produjeron menos de 27 unidades Modo: Para el Turno 1 el valor más frecuente es de 16 unidades producidas, mientras que para el Turno 2 se registraron dos valores frecuentes 25 y 30 unidades respectivamente (bimodal). Además, podemos analizar las formas de ambas distribuciones comparando las medidas de posición, y en referencia a esto podemos concluir que los datos del Turno 1 una distribución levemente asimétrica derecha; mientras que los datos del Turno 2 presentan una forma asimétrica izquierda. Los coeficientes de asimetría son: Turno 1 Turno 2 Asimetría 2,43 -1,55
  • 55. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 127 b) Para verificar estas igualdades realizaremos una tabla en Excel con los datos del Turno 1 Turno 1 ( xi - media ) ( xi-media)2 ( xi-mediana)2 (xi- modo)2 12 -9 78,45 16 16 14 -7 47,02 4 4 16 -5 23,59 0 0 16 -5 23,59 0 0 18 -3 8,16 4 4 20 -1 0,73 16 16 50 29 849,31 1156 1156 Total 0 1030,86 1196 1196 Como puede verse el cuadrado de los desvíos respecto de la media es el mínimo. Actividad 5 a) Variable: monto de deudas no pagadas (variable cuantitativa continua). b) Medidas de posición Media 19,1 Mediana 17,5 Modo 10 Actividad 6 a) 7,97% b) 17417,16 c) 1,0675 Actividad 7 31,45% 7 15 22 30 37 0,00 0,11 0,22 0,33 0,44 frecuencia relativa HISTOGRAMA VALOR DE CUENTAS NO PAGAS M(x)= 19,1 Me = 17,5 Mo=10
  • 56. 128 Actividad 8 La diferencia muestra la asimetría en la forma de la distribución. a) Para analizar esto debemos calcular los cuartiles: Q1 16 Mediana = Q2 22,5 Q3 30 Q1: la cantidad máxima de pedidos del 25% de los clientes que menos de- mandan es de 16 pedidos. Q3: la cantidad mínima demandada del 25% de los clientes que más canti- dad demandan es de 30 pedidos. Si realizamos estos cálculos usando Infostat los valores serian: Medidas resumen Resumen Xi n 14,00 Media 23,43 Mín 10,00 Máx 50,00 Mediana 22,50 Q1 16,00 Q3 30,00 b) El 50 % de las observaciones quedan comprendidas entre los dos cuarti- les (Q1 y Q3). Actividad 9 a) Medidas resumen Resumen VALOR MON CNP n 12,00 Mín 7,00 Máx 37,00 Mediana 17,50 Q1 10,00 Q3 26,00
  • 57. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 129 b) Se observa una asimetría derecha. Actividad 10 Para una variable x con valores 4, 5 y 6 la varianza será igual a: Var = V(x)= 1 Aplicando propiedad. Definimos una nueva variable Y = x + 3 V (y) = V (x + 3) = V(x) + V (3) = 1 + 0 V (y) = 1 Actividad 11 a) Recorrido = 50-10= 40 unidades. La diferencia entre el valor máximo y el valor mínimo de la variable analizada es de 40 unidades b) Varianza = 115 unidades2 La varianza de la muestra de empresas de pedidos de clientes es 115 uni- dades2 . La medida representa la distancia promedio al cuadrado calculada respecto de la media, es por ello una medida de valores de distancia al cuadrado. Desvío estándar = 11 unidades c) Calculamos aplicando propiedades de la varianza en primer lugar, defi- niendo una nueva variable. Y = x +4 V (y) = V (x + 4) = V(x) + V (4) = 115 + 0 V (y) = 115 unidades2. 7 15 22 30 37 0,00 0,11 0,22 0,33 0,44 frecuencia relativa HISTOGRAMA VALOR DE CUENTAS NO PAGAS Q3=26 Q2=17,5 Q1=10
  • 58. 130 Por lo tanto, la desviación estándar para el mes de marzo será DS (y) = 11 unidades, la misma que para febrero porque el incremento es constante (va- rianza de una constante es igual a 0). d) Definimos entonces una nueva variable w= x – 0,15. x w =x (1 – 0,15) w = 0,85. X Ahora aplicamos propiedades de la varianza V (w) = V (0,85. x) = (0,85)2. V(x) V (w) = 0,7225. 115 V (w) = 83 unidades2. La varianza para el mes de marzo será de 83 unidades2 Actividad 12 a) Los valores de Rango son: Patrón Cuenta propia Rango 1830 1860 Es decir que la diferencia entre el valor máximo y el minino de la variable analizada es de 1830 $ para la muestra de Patrones y de 1860 $ para la muestra de Cuentapropistas b) Las varianzas y desvíos estándar para cada grupo son: Se observa una menor variabilidad respecto de la media en el grupo de los trabajadores por cuenta propia. c) Los coeficientes de variación para ambos grupos son: Patrón Cuenta propia CV% 49,04 66,1 El grupo de los Patrones muestra un menor CV con lo que puede concluirse que en este conjunto de datos los valores son más homogéneos, menos dispersos y por tanto el promedio para este grupo es más representativo. d) Si hay un incremento de $50 definimos la nueva variable Y = x + 50. Y aplicamos propiedades: V (y) = V (x + 50) = V(x) + V (50) V (y) = V(x) + 0 V (y) = V(x). Patrón Cuenta propia Varianza 394075 237401 Desv. Est. 628 487
  • 59. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 131 Con lo que podemos concluir que si el incremento es de $50 los valores de varianza y de desvío estándar no se modificaran. e) Si ahora se produce un incremento del 18% definimos una nueva varia- ble: W= x + 0,18 x W= x. (1+0,18) W= 1,18 x V (w) = V (1,18. X) = (1,18)2 V(x) (V (w) = 1,3924. V(x) Entonces los nuevos valores de varianza y de desvío estándar para cada una de las muestras será de: f) Volvemos a calcular los CV% para los supuestos de los puntos d) y e) pero para ello deberemos calcular la nueva media en cada caso. Si el incremento es de $50 (inciso d) Patrón Cuenta propia Media 1330 787 Desv. Est. 628 487 CV% 47,20 61,90 Si hay un incremento (fijo) de $50 se producirá una disminución en los CV% aunque la conclusión es la misma en relación a que el grupo de Patrones muestra un menor CV con lo que puede concluirse que en este conjunto de datos los valores son más homogéneos, menos dispersos y por tanto el pro- medio para este grupo es más representativo. Si hay un incremento porcentual (inciso e) Patrón Cuenta propia Media 1510 870 Desv. Est. 741 575 CV% 49,04 66,10 Si hay un incremento (porcentual) del 18% observamos que el CV% no va- riara. Patrón Cuenta propia Varianza 394075 237401 Desv. Est. 628 487 Patrón Cuenta propia Varianza 548710 330557 Desv. Est. 741 575
  • 60. 132 Actividad 13 Medidas resumen Resumen VALOR MON CNP n 12,00 Mín 7,00 Máx 37,00 Mediana 17,50 Q1 10,00 Q3 26,00 Como puede observarse la distribución presenta una asimetría derecha muy leve, además los valores máximo y mínimo caen dentro de las barreras in- ternas (Izquierda y derecha, respectivamente) con lo cual podemos concluir que no hay valores outliers ni extremos dentro de la distribución. Actividad 14 Medidas resumen Variable n Mín Máx Mediana Q1 Q3 SUELDO P 9 370 2200 1300 970 1500 SUELDO CP 21 240 2100 650 320 870 5,50 13,75 22,00 30,25 38,50 VALOR MON CNP DIAGRAMA DE CAJA Y BRAZOS 278,50 781,75 1285,00 1788,25 2291,50 SUELDO P DIAGRAMA DE CAJA Y BRAZOS
  • 61. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 133 Como puede observarse la distribución de la variable sueldo para patrón presenta una asimetría derecha muy leve, además los valores máximo y mí- nimo caen dentro de las barreras internas (inferior y superior, respectiva- mente) con lo cual podemos concluir que no hay valores outliers ni extremos dentro de la distribución (son los valores 1800 y 2100 respectivamente). Como puede observarse la distribución presenta una asimetría derecha, además el mínimo cae dentro de las barreras internas (inferior) pero los va- lores más altos superan al LSO y están ubicados antes del LSE, por lo tanto, podemos concluir que hay presencia de valores outliers dentro de la distribución. Actividad 15 Variable analizada: PESO (Kg.) Muestra: 100 personas adultas 147,00 658,50 1170,00 1681,50 2193,00 SUELDO CP DIAGRAMA DE CAJA Y BRAZOS
  • 62. 134 Se observa una leva asimetría derecha Calculamos el rango intercuartilico, y los 4 Límites (internos y externos – Inferiores y Superiores) Me 65,35 Q1 57 Q3 72 RI 15 LIO 34,5 LSO 94,5 LIE 12 LSE 117 VMIN 47 VMAX 100 Como puede observarse que el valor mínimo cae dentro de las barreras in- ternas (Izquierda) pero el valor máximo supera a la BID y está ubicado antes de la BED por lo tanto podemos concluir que hay presencia de valores outliers (atípicos) dentro de la distribución. Actividad 16 a) Analizando las medidas de posición para cada variable podemos concluir que ambas variables presentan una forma asimétrica derecha, pero que para el caso de la variable “gasto de movilidad” esta asimetría es más mar- cada. Esto puede verse también analizando ambos coeficientes de asime- tría, que como se observa para el caso de la segunda variable es mayor su valor.
  • 63. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 135 Podríamos calcular ambos coeficientes de variación, sus valores son: Para “gastos en libros” (anual) = 44.32% Para “gastos en movilidad” (mensual) = 115.53% El mayor valor obtenido para la variable “gasto de movilidad” nos permite concluir que para esta variable los datos están más dispersos, son menos homogéneos y que la media es menos representativa. b) Analizando los diagramas de caja brazos podemos además de analizar las formas asimétricas derechas de ambas distribuciones, podemos ver ade- más que en ambas hay valores atípicos, pero que en la segunda variable es mayor la cantidad de estos valores que se presentan. c) Por último si observamos la forma de los histogramas y de los polígonos de frecuencias, observamos nuevamente la forma asimétrica derecha de ambas distribuciones, pero veos claramente que la variable “gastos de mo- vilidad” presenta una asimetría más acentuada, y en particular aproximada- mente un 90% de las observaciones se encuentran concentradas en el pri- mer intervalo. Actividad 17 a) Covarianza = 19,09 indica una asociación directa o positiva entre las “ho- ras trabajadas” y la “antigüedad” b) La diagonal principal contiene ambas varianzas, en este caso: Varianza (de la variable horas trabajadas) es 136,91 hs2 Varianza (de la variable antigüedad) es de 95,22 años2 c) Observando la matriz de correlación podemos ver que el coefiente de co- rrelación es igual a 0,17 podemos entonces concluir que existe una asocia- ción directa (bastante débil porque es cercano a 0) entre las dos variables que se están analizando, es decir que cuando aumenta la antigüedad en el empleo del jefe del hogar, la cantidad de horas trabajadas es de esperar que aumente
  • 64. 136 Actividad 18 a) Media general El promedio de ingreso para ambas categorías es de $900. b) Desvío estándar para cada una de las categorías. Empleador Cuenta propista desvío estándar 627,75 487,24 c) Coeficiente de variación. Empleador Cuenta propista CV % 49,04 66,10 Se observa que los datos para el grupo de Empleadores son más homogé- neos, es decir están menos dispersos y por ende su media es más repre- sentativa, que la del grupo de los trabajadores por Cuenta Propia. d) Recorrido Intercuartílico. Empleador Cuenta propista RI 530,00 550,00 e) En el grupo Cuentapropista se observa asimetría derecha. f) Para calcular la media y la varianza si hay una disminución del 20% defi- nimos una nueva variable (que será nuestra variable original menos el des- cuento) Le llamamos: W= X – 0.20* X =X (1-0.20) = 0,80.X MEDIDAS VARIA- BLE INGRESO EMPLEADOR CUENTA PRO- PISTA n 9 21 Media 1280 737,14 Var(n-1) 394075 237401,43 Mín 370 240 Máx 2200 2100 Mediana 1300 650 Q1 970 320 Q3 1500 870 Asimetría 0,03 1,53 Media General 900,00
  • 65. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 137 Ahora: M(W) = M (0,80. X) = 0,80. M(X) = 0,80. 1280 M(W) = 1024 $. Para los Empleadores. M(W) = 589, 71 $ Para los Cuenta Propistas Para la varianza aplicamos el mismo razonamiento, pero ahora aplicando las propiedades de la varianza. V(W) = V (0,80 .X) = 0,802 V(X) = 0,64. 394075 V(W) = 252208 $2 Para los Empleadores. V (W) = 151936,92 $2 Para los Cuenta Propistas Actividad 19 Variable: cotizaciones de acciones en la Bolsa de Comercio n=22 días Utilizando Infostat obtenemos la siguiente tabla de resumen de medidas Medidas resumen Resumen cotización de acciones n 22,00 Media 9,30 D.E. 1,82 Var(n-1) 3,32 CV 19,61 Mín 3,00 Máx 11,70 Mediana 9,65 Q1 8,40 Q3 10,40 Asimetría -1,91 Kurtosis 4,51 Analizando las medidas de posición en forma conjunta con los coeficientes de asimetría, podemos concluir que el conjunto de datos analizados, pre- senta una forma asimétrica izquierda, vemos que la media es menor a la mediana y que presenta 3 valores modales = 8, 9,7 y 11,3 (miles de $) y esto puede verificarse analizando el coeficiente de asimetría que es nega- tivo. Esto hace que podamos concluir que para este conjunto de datos la mediana es la medida más representativa.
  • 66. 138 Actividad 20 Covarianza 0,37 Coef. Correlación 0,546 Se puede concluir que existe una correlación lineal positiva (o directa) entre el Precio y la Utilidad, lo cual también se observa en el diagrama de disper- sión cierta tendencia “ascendente” en la nube de puntos Actividad 21 Variable analizada: número de pedidos recibidos por día. Zona Norte Zona Sur Promedio 6 5 Mediana 6 5 Modo 6 6 Varianza 1,52 1,59 Desv Est 1,23 1,26 n 20 20 Q1 5 4 Q3 7 6 Rango Intercuartilico 2 2 Vmin 4 2 Vmax 8 6 Coef. Asim -0,08 -0,59 Rango 4 4 CV% 20,75 26,82 Analizando las medidas de posición en forma conjunta con los coeficientes de asimetría, podemos concluir que la Zona Norte presenta una forma prác- ticamente simétrica, vemos que las tres medidas de posición (media, me- diana y modo) son iguales y el coeficiente de asimetría es levemente distinta de 0 (en este caso levemente negativa pero muy cercana a 0); mientras que 4 4,5 5 5,5 6 6,5 12 14 16 18 UTILIDAD PRECIO DIAGRAMA DE DISPERSION
  • 67. Unidad 2: Análisis Estadístico. Parámetros y estadísticos de las distribuciones de frecuencias 139 en el caso de la Zona Sur podemos ver que hay una asimetría izquierda. Con lo que para los datos de la Zona Norte la media es más representativa del conjunto de datos. Por otro lado, comparando ambos CV podemos ver que como para la mues- tra de la Zona Norte el coeficiente de variación es menor, entonces se puede concluir que para estos los datos son más homogéneos, están menos dis- persos y la media es más representativa (lo cual ya se afirmó por otra vía de análisis) Los rangos son iguales para ambas distribuciones. Actividad 22 Variable analizada: precio de venta (en miles de $) Zona A Zona B Promedio 105,03 124,73 Mediana 103,00 125,00 Modo 100,00 125,00 Varianza 114,10 142,41 Desv Est 10,68 11,93 N 30 30 Q1 96,00 116,75 Q3 113,25 132,25 Rango Intercuartilico 17,25 15,50 Vmin 90,00 100,00 Vmax 129,00 150,00 Coef. Asim 0,58 0,15 Rango 39,00 50,00 CV% 10,17 9,57 Analizando las medidas de posición en forma conjunta con los coeficientes de asimetría, podemos concluir que la Zona A presenta una forma asimétrica derecha (modo < mediana < promedio), vemos el coeficiente de asimetría es positivo, lo que re afirma la conclusión de la forma asimétrica derecha (en la que la mediana es la medida de posición más representativa); mientras que en el caso de la Zona B podemos ver que hay una asimetría derecha pero mucho menos marcada, puede verse que la mediana y el modo coinci- den, y esto se puede corroborar con el valor del coeficiente de asimetría que es positivo pero cercano a 0. Por otro lado, comparando ambos CV podemos ver que como para la mues- tra de la Zona A el coeficiente de variación es mayor, entonces se puede concluir que para estos los datos son menos homogéneos (mas heterogé- neos), están más dispersos y la media es menos representativa que los de la zona B (lo cual ya se afirmó por otra vía de análisis). Actividad 23: A cargo del alumno