Este documento presenta una introducción a las medidas de posición y variables bidimensionales. Explica brevemente las medidas de posición como la mediana y los cuartiles, y cómo estos dividen una distribución de datos en partes iguales. Luego entra en más detalle sobre cómo calcular específicamente los primero, segundo y tercer cuartiles para datos agrupados y no agrupados, ilustrando los pasos con ejemplos numéricos.
1. MEDIDAS DE POSICIÓN Y
VARIABLES BIDIMENSIONALES
Ing. William Jaime León Velásquez
wjleonv@yahoo.com
http://www.slideshare.net/williamleon20/clase05-eyp
Universidad
Nacional Mayor de
San Marcos
ESTADISTICA Y
PROBABILIDADES
05
2. Medidas de Posición
Diagrama de cajas
Variables Estadísticas
Bidimensionales
CONTENIDO
TEMATICO
19/09/2015 Ing. William Jaime León Velásquez 2
4. Estas medidas tratan de sintetizar los datos que se
necesitan para representar las distribuciones de
frecuencias.
En lugar de manipular todos los datos de la variable
estadística, tarea que puede ser pesada, se puede
describir su distribución de frecuencias mediante
algunos valores numéricos, eligiendo como resumen
de los datos un valor central alrededor del cual se
encuentran distribuidos los valores de la variable
MEDIDAS DE POSICIÓN
4
Ing. William Jaime León
Velásquez
5. Son indicadores usados para
señalar que porcentaje de
datos dentro de una
distribución de frecuencias
superan estas expresiones,
cuyo valor representa el valor
del dato que se encuentra en
el centro de la distribución de
frecuencia.
DEFINICIÓN
5
Ing. William Jaime León
Velásquez
6. .
Toda síntesis de una
distribución se considerara
como operativa si
intervienen en su
determinación todos y cada
uno de los valores de la
distribución, siendo única
para cada distribución de
frecuencias y siendo siempre
calculable y de fácil obtención
DEFINICIÓN
6
Ing. William Jaime León
Velásquez
Las medidas de posición de una distribución de
frecuencias deben de cumplir determinadas
condiciones para que sean verdaderamente
representativas de la variable a la que resumen
7. Son valores que dividen al total de
los datos debidamente ordenados
en k partes iguales.
CUANTILES
7
Ing. William Jaime León
Velásquez
8. Son medidas de posición que
dividen al total de los datos
ordenados, en cuatro partes
iguales.
De esta forma entre dos
cuartiles consecutivos se
encuentra ubicado no más
del 25% del total de los
datos.
CUARTILES
8
Ing. William Jaime León
Velásquez
9. CUARTILES
Hay 3 cuartiles que dividen a una distribución
en 4 partes iguales: primero, segundo y tercer
cuartil. Ing. William Jaime León Velásquez 9
10. El cálculo para los cuartiles se determina a través
de la siguiente expresión:
Ing. William Jaime León Velásquez 10
DEFINICIÓN
k Orden del cuartil
Li Límite real inferior del intervalo que contiene al cuartil
Fi-1 Frecuencia acumulada del intervalo anterior
fi Frecuencia del intervalo que contiene el cuartil
n Número de mediciones
A Amplitud del intervalo
CUARTILES PARA DATOS AGRUPADOS
i
i
i
i A
f
F
kn
LRQk
1
4
11. PRIMER CUARTIL (Q1)
Es aquel valor de una serie que supera
al 25% de los datos y es superado por
el 75% restante.
Formula de Q1 para series de
Datos Agrupados en Clase.
Ing. William Jaime León Velásquez 11
DEFINICIÓN
i
i
i
i A
f
F
n
LRQ
1
4
1
12. PRIMER CUARTIL (Q1)
Donde:
: posición de Q1, la cual se
localiza en la primera frecuencia acumulada
que la contenga, siendo la clase de Q1, la
correspondiente a tal frecuencia acumulada.
LRi, Fi-1, fi, Ai : idéntico a los conceptos vistos
para Mediana pero referidos a la medida de
la posición correspondiente.
Ing. William Jaime León Velásquez 12
4
n
13. SEGUNDO CUARTIL (Q2)
Coincide, y es idéntico o similar al valor
de la Mediana (Q2 = Md).
Es decir, supera y es superado por el
50% de los valores de una Serie.
Ing. William Jaime León Velásquez 13
i
i
i
i A
f
F
n
LRQ
1
4
2
2
14. TERCER CUARTIL (Q3)
Es aquel valor, termino o dato que
supera al 75% y es superado por el 25%
de los datos restantes de la Serie.
Formula de Q3 para series de Datos
Agrupados en Clase.
Ing. William Jaime León Velásquez 14
i
i
i
i A
f
F
n
LRQ
1
4
3
3
15. PRIMER CUARTIL (Q1)
Donde:
: posición de Q1, la cual se
localiza en la primera frecuencia acumulada que la
contenga, siendo la clase de Q1, la correspondiente a tal
frecuencia acumulada.
LRi, Fi-1, fi, Ai : idéntico a los conceptos vistos para
Mediana pero referidos a la medida de la posición
correspondiente.
Ing. William Jaime León Velásquez 15
4
3n
16. CUARTILES
Un reporte de laboratorio
indica el número de
pacientes que fueron
atendidos en los primeros
100 días del año, de las
solicitudes enviadas por
una clínica para que sus
pacientes sean atendidos
y se les realizaran
estudios de glucosa.
Ing. William Jaime León Velásquez 16
Ejemplo:
17. CUARTILES
Ing. William Jaime León Velásquez 17
Intervalos
1 día a menos de 10 días 5 5 5
10 día a menos de 20 días 14.5 6 11
20 día a menos de 30 días 24.5 8 19
30 día a menos de 40 días 34.5 8 27
40 día a menos de 50 días 44.5 4 31
50 día a menos de 60 días 54.5 5 36
60 día a menos de 70 días 64.5 7 43
70 día a menos de 80 días 74.5 8 51
80 día a menos de 90 días 84.5 4 55
90día a menos de 100 días 94.5 8 63
Promedio de
días
ix
Número de
pacientes
if
Frecuencia acumulada
Ejemplo:
Fi
18. CUARTILES
Para la obtención del primer cuartil
tenemos k=1, obteniendo:
75.15
4
63)1(
4
kn
Ing. William Jaime León Velásquez 18
lo que representa que el primer cuartil se encuentre en
la tercera clase, sus datos están dados como
LRIi=20; Fi-1= 11; fi=8;
A=9
19. CUARTILES
por lo que el primer cuartil es igual a
díasQ 34.259
8
11
4
)63(1
201
Ing. William Jaime León Velásquez 19
Interpretación:
Lo que indica que el 25 % de los pacientes fueron
enviados a control de glucosa en 25.34 días y el 75%
de los pacientes fueron atendidos después de 25.34
días.
20. CUARTILES
Ing. William Jaime León Velásquez 20
Nótese que la consideración para
elegir el primer cuartil se hizo
considerando la frecuencia
acumulada y de esta manera se
considerará para localizarla para el
resto.
21. CUARTILES
Para la obtención del segundo cuartil
consideraremos k=2 por lo que
5.31
4
632
4
kn
Ing. William Jaime León Velásquez 21
Considerando que para este segundo cuartil ,
LRIi=50; Fi-1= 31; fi=5;
A=9
22. CUARTILES
con ello el cuartil tendrá un valor de
díasQ 9.509
5
31
4
)63(2
502
Ing. William Jaime León Velásquez 22
Interpretación:
Lo que indica que 50 % de los pacientes fueron
enviados a control de glucosa en 50.9 días y el
50% restante de los pacientes atendidos lo
hicieron después de 50.9 días.
23. CUARTILES
Ing. William Jaime León Velásquez 23
EJEMPLO
Nótese que efectivamente el
segundo cuartil corresponde a la
mediana, ya que si sustituimos k=2
tendremos la misma formula que
utilizamos para el calculo de la
mediana para datos agrupados
MeA
f
f
n
LA
f
f
n
LQ
i
iacum
i
i
iacum
i
11
2
24
2
24. CUARTILES
• Para el cálculo del tercer cuartil, k=3,
observamos que:
con 25.47
4
633
4
kn
Ing. William Jaime León Velásquez 24
LRIi=70; Fi-1= 43; fi=8;
A=9
25. CUARTILES
Interpretación:
díasQ 78.749
8
43
4
)63(3
703
Ing. William Jaime León Velásquez 25
lo cual indica que 75% de pacientes que
envió la clínica a realizarse estudios de
glucosa lo realizo en 74.78 días y el resto en
los siguientes días.
con ello el cuartil tendrá un valor de
26. CUARTILES
Ing. William Jaime León Velásquez 26
Nótese que para el cálculo del cuarto
cuartil es de manera inmediata, en
este se contempla la totalidad de la
muestra, por lo que no es necesario
realizar ningún cálculo, aunque si lo
realizamos observamos que cubre el
total de días.
27. CUARTILES PARA DATOS NO AGRUPADOS
• El procedimiento para calcular los
cuartiles cuando los datos no están
agrupados se da a través del
siguiente concepto:
• Para un número de n observaciones
en el que los datos no son
representados en clases, una vez
ordenados los datos la posición de
los cuartiles se pueden localizar de
la siguiente forma:
Ing. William Jaime León Velásquez 27
4y3,2,1,
4
1
k
nk
28. CUARTILES PARA DATOS NO AGRUPADOS
• En el caso en que la posición no corresponda
exactamente con la posición la interpolación
se realiza de la siguiente forma:
Donde:
4,3,2,1,
4
k
LLk
LQ is
ik
Ing. William Jaime León Velásquez 28
;SuperiorLimite;,inferiorlimite;Cuartil fik LLkQ
29. CUARTILES PARA DATOS NO AGRUPADOS
• Se tiene la siguiente tabla de temperaturas reportadas
en un experimento:
Ing. William Jaime León Velásquez 29
25 °C 28 °C 25 °C 26 °C 28 °C 28 °C
35 °C 32 °C 31 °C 31 °C 32 °C 27 °C
25 °C 29 °C 26 °C 28 °C 27 °C 28 °C
30 °C 30 °C 31 °C 31 °C 30 °C 31 °C
Ejemplo.
30. CUARTILES PARA DATOS NO AGRUPADOS
• Ordenando los datos tenemos:
25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28,
28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32,
32, 35
Ing. William Jaime León Velásquez 30
EJEMPLO:
Ejemplo.
La posición del primer cuartil es:
25.6
4
25
4
1241
31. CUARTILES PARA DATOS NO AGRUPADOS
lo que significa que el primer cuartil se encuentra
entre la posición 6 y 7, como en este caso el
número es el mismo entonces
por lo que el primer cuartil es igual a .
0 fi LL
Ing. William Jaime León Velásquez 31
EJEMPLO:
CQ 271
Ejemplo.
n 25 25 25 26 26 27 27 28 28 28 28 28 29 30 30 30 31 31 31 31 31 32 32 35
P 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 34
32. CUARTILES PARA DATOS NO AGRUPADOS
• La posición para el segundo cuartil es
5.12
4
50
4
1242
Ing. William Jaime León Velásquez 32
EJEMPLO:
33. CUARTILES PARA DATOS NO AGRUPADOS
• En este caso la posición 12 la ocupa la
temperatura 28°C y la posición 13 la temperatura
29°C entonces, la interpolación nos conduce a
5.28
4
28292
282
Q
Ing. William Jaime León Velásquez 33
EJEMPLO:
n 25 25 25 26 26 27 27 28 28 28 28 28 29 30 30 30 31 31 31 31 31 32 32 35
P 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 34
34. CUARTILES PARA DATOS NO AGRUPADOS
• La posición del tercer cuartil se puede
calcular como
75.18
4
1243
Ing. William Jaime León Velásquez 34
EJEMPLO:
35. CUARTILES PARA DATOS NO AGRUPADOS
• Como la posición 18 y 19 tienen la temperatura 30°C
entonces, por la misma razón que el primer cuartil, el
tercer cuartil es igual a 30°C.
Ing. William Jaime León Velásquez 35
EJEMPLO:
n 25 25 25 26 26 27 27 28 28 28 28 28 29 30 30 30 31 31 31 31 31 32 32 35
P 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 34
36. RANGO INTERCUARTIL
• Es la distancia que hay entre el tercer cuartil (Q 3 ) y el
primer cuartil (Q 1 ):
RIC = Q 3 - Q 1
RIC es la amplitud del intervalo que contiene el 50% central
de individuos.
Interpretación
Es como una medida de variabilidad;
Si es pequeña significará que los valores están muy
concentrados alrededor de la medida de tendencia central
(mediana) y
Si es grande hay gran dispersión.
Ing. William Jaime León Velásquez 36
37. DECILES
• Son valores que dividen al
total de los datos
ordenados, en diez partes
iguales; de modo que en
cada una de estas partes
se encuentre ubicado no
más del 10% del total.
Ing. William Jaime León Velásquez 37
38. Primer Decil (D1)
• El primer decil es aquel valor de una serie
que supera a 1/10 parte de los datos y es
superado por las 9/10 partes restantes
(respectivamente, hablando en porcentajes,
supera al 10% y es superado por el 90%
restante),
Ing. William Jaime León Velásquez 38
i
i
i
i A
f
F
n
LRD
1
1
10
1
39. Quinto Decil (D5)
• El quinto decil es aquel valor de una serie que
supera a 5/10 parte de los datos y es superado por
las 5/10 partes restantes (respectivamente,
hablando en porcentajes, supera al 50% y es
superado por el 50% restante),
Ing. William Jaime León Velásquez 39
ei
i
i
i MA
f
F
n
LRD
1
5
10
5
40. Noveno Decil (D9)
• El noveno decil es aquel valor de una serie que supera
a 9/10 parte de los datos y es superado por las 1/10
partes restantes (respectivamente, hablando en
porcentajes, supera al 90% y es superado por el 10%
restante),
Ing. William Jaime León Velásquez 40
i
i
i
i A
f
F
n
LRD
1
9
10
9
41. DECILES
Ing. William Jaime León Velásquez 41
• Como se observa, son formulas
parecidas a la del calculo de la
Mediana, cambiando solamente la
respectivas posiciones de las
medidas.
42. PERCENTILES
• Son valores que dividen
al total de los datos
ordenados, en cien
partes iguales: de
manera que en cada una
de estas partes se
encuentre ubicado no
más del 1% del total.
Ing. William Jaime León Velásquez 42
43. PERCENTILES
• De esta manera se puede establecer la siguiente
relación entre cuartiles, deciles y percentiles así
como también con la mediana.
Ing. William Jaime León Velásquez 43
DEFINICIÓN
44. Primer Percentil (P1)
• El primer percentil supera al uno por
ciento de los valores y es superado por el
noventa y nueve por ciento restante.
Formulas de P1, para series de Datos
Agrupados en Clase.
Ing. William Jaime León Velásquez 44
i
i
i
i A
f
F
n
LRP
1
1
100
1
45. Percentil 50 (P50)
• El percentil 50 supera al cincuenta por ciento
de los valores y es superado por el cincuenta
por ciento restante.
• Formulas de P50, para series de Datos
Agrupados en Clase.
Ing. William Jaime León Velásquez 45
ei
i
i
i MA
f
F
n
LRP
1
50
100
50
46. Percentil 99 (P99)
• El percentil 99 supera al noventa y nueve
por ciento de los valores y es superado por
el uno por ciento restante.
Formulas de P99, para series de Datos
Agrupados en Clase.
Ing. William Jaime León Velásquez 46
i
i
i
i A
f
F
n
LRP
1
99
100
99
47. PERCENTIL
Ing. William Jaime León Velásquez 47
• Como se observa, todas estas
medidas no son sino casos
particulares del percentil ya que el
primer cuartil no es sino el 25°
percentil, el tercer cuartil el 75°
percentil, el cuarto decil el 40°
percentil, etc.
48. PERCENTIL
Ing. William Jaime León Velásquez 48
Temperatu
ra
( C )
Nº días
10-15 8 8
15-18 9 17
18-25 12 29
25-30 7 36
30-34 6 42
lugar.vo157,14
100
4235
iF
Para la siguiente tabla de frecuencias que corresponde a la distribución de
42 días de acuerdo a la temperatura que se registró en cada día.
El 35% inferior de los días, ¿qué temperatura presentó como máximo?
Ejemplo:
49. • Luego:
PERCENTIL
49
Ing. William Jaime León
Velásquez
21 F
100
4235
F
235 IP
33,17
9
815
315P35
Interpretación:
En el 35% inferior de los días se registró una
temperatura de 17 C como máximo?
50. Ejemplo:
En una serie de 32 términos se
desea localizar el 4° sextil, 8°
decil y el 95° percentil.
CUANTILES PARA DATOS NO AGRUPADOS:
50
Ing. William Jaime León
Velásquez
51. CUANTILES PARA DATOS NO AGRUPADOS:
51
Ing. William Jaime León
Velásquez
Esto significa que
el 4° sextil se encuentra localizado en el termino numero
21, es decir, el que ocupa la 21° posición;
el 8° decil se encuentra localizado entre el termino
numero 25° y 26° ; y
el 95° percentil entre la posición 30° y 31° .
52. Ejemplo:
Determinación del primer
cuartil, el cuarto sextil, el
séptimo decil y el 30°
percentil.
CUANTILES PARA DATOS AGRUPADOS:
52
Ing. William Jaime León
Velásquez
Ejemplo
53. Ejemplo:
Determinar el primer cuartil, el cuarto sextil,
el séptimo decil y el 30° percentil.
CUANTILES PARA DATOS AGRUPADOS:
53
Ing. William Jaime León
Velásquez
Salarios(I. de
Clases)
N° de empleados (fi)
Fi
200 – 300 85 85
300 – 400 90 175
400 – 500 120 295
500 – 600 70 365
600 – 700 62 427
700 – 800 36 463
54. CUANTILES PARA DATOS AGRUPADOS:
Ejemplo:
.
Ing. William Jaime León Velásquez 54
Ejemplo
Estos resultados nos indican que el 25 por ciento de los
empleados ganan salarios por debajo de $. 334; y un 75 por
ciento de los empleados ganan por encima de $ 334
primer cuartil
5.115
4
463
334100
90
855.115
3001
Q
75.0
4
1
1
55. CUANTILES PARA DATOS AGRUPADOS:
Ejemplo:
.
Ing. William Jaime León Velásquez 55
Ejemplo
Estos resultados nos indican que sobre $. 519,51 ganan el
33,33 por ciento de los empleados;
el cuarto sextil
66.308
6
4634
x6
4xn
51.519100
70
29566.308
5004
Sex
33.0
6
4
1
56. CUANTILES PARA DATOS AGRUPADOS:
Ejemplo:
.
Ing. William Jaime León Velásquez 56
Estos resultados nos indican que sobre $. 541.57 ganan el
57 por ciento de los empleados;
el séptimo decil
1.324
10
4637
x
10
7xn
57.541100
70
2951.324
5007
De
57.0
10
7
1
57. CUANTILES PARA DATOS AGRUPADOS:
Ejemplo:
.
Ing. William Jaime León Velásquez 57
Estos resultados nos indican que sobre $. 359.89 ganan el
70 por ciento de los empleados;
el treinta percentil
9.138
100
46330
x
100
30xn
89.359100
90
859.138
30030
Pe
7.0
100
30
1
58. Muchas veces necesitamos
conocer el porcentaje de valores
que esta por debajo o por encima
de un valor dado; lo que
representa un problema contrario
al anterior, esto es, dado un cierto
valor en la abscisa determinar en la
ordenada el tanto por ciento de
valores inferiores y superiores al
valor dado.
CALCULO DEL PORCENTAJE DE VALORES
Ing. William Jaime León Velásquez 58
59. Operación que se resuelve utilizando la siguiente
formula general:
Donde:
Po: lugar percentil que se busca.
P: valor reconocido en la escala X.
Fj-1: frecuencia acumulada de la clase anterior a la
clase en que esta incluida P.
fj: frecuencia de la clase que contiene a p.
LRi: limite inferior de la clase que contiene a P.
A: amplitud de clase.
n: frecuencia total.
Ing. William Jaime León Velásquez 59
nA
LRPof
FP ii
j
100
1
CALCULO DEL PORCENTAJE DE VALORES
60. •
La tabla muestra una distribución de salarios y las
correspondientes cantidades de empleados, determinar que
porcentaje de personas ganan salarios inferiores a $ 450,00
Ing. William Jaime León Velásquez 60
Ejemplo:
CALCULO DEL PORCENTAJE DE VALORES
61. Ing. William Jaime León Velásquez 61
Ejemplo:
El 50,75 por ciento de las personas ganan salarios inferiores a $. 450
Fj-1=175
fi=120
Po=450
Lri=400
A=100
n=463
Po=450
CALCULO DEL PORCENTAJE DE VALORES
63. •Las características que representan son:
el centro, la dispersión, la desviación de la
simetría y la identificación de
observaciones que se alejan de manera
poco usual del resto de los datos, este tipo
de observaciones se conocen como
“valores atípicos”.
DIAGRAMAS DE CAJA. Definición
63
Ing. William Jaime León
Velásquez
Es una presentación visual que describe al mismo
tiempo varias características importantes de un
conjunto de datos,
64. DIAGRAMAS DE CAJA
64
Ing. William Jaime León
Velásquez
El diagrama de caja presenta los tres cuartiles, y los valores
mínimo y máximo de los datos sobre un rectángulo, alineado
horizontal o verticalmente.
El rectángulo delimita el rango intercuartílico con la arista
izquierda (o inferior) ubicada en el primer cuartil y la arista
derecha (o superior) en el tercer cuartil.
65. •Dentro del rectángulo se dibuja una línea en la posición que
corresponde a la mediana.
•Cuando la distribución es simétrica la mediana divide a la caja
en dos partes iguales.
DIAGRAMAS DE CAJA
65
Ing. William Jaime León
Velásquez
66. • Fuera del rectángulo se dibujan dos segmentos,
llamados `bigotes' o brazos que llegan hasta los
datos más lejos que estén a una distancia menor
o igual a 1.5 x (RI) del rectángulo, donde RI
representa el rango intercuartil.
• Cualquier punto que no esté incluido en este
rango se representa individualmente y se
considera un punto atípico (outlier).
DIAGRAMAS DE CAJA
66
Ing. William Jaime León
Velásquez
67. DIAGRAMAS DE CAJA
67
Ing. William Jaime León
Velásquez
1er. cuartil – 1.5 x (R.I.)
1.5R I + Q3
1.5R I - Q1
68. • Estos gráficos se utilizan para comparar la
distribución de los valores entre diferentes
grupos.
• Si en una caja la línea que representa al cuartil 1
está por encima de la línea que representa a la
mediana en la otra caja, entonces se concluye que
las medias de las poblaciones son diferentes.
CAJAS MÚLTIPLES
68
Ing. William Jaime León
Velásquez
69. RESUMEN DE CINCO NÚMEROS
69
Ing. William Jaime León
Velásquez
• Los cinco números son el valor mínimo, el primer cuartil, la
mediana,
• el tercer cuartil, y el valor máximo, respectivamente.
70. CARACTERÍSTICAS
a) La anchura de la caja refleja la amplitud intercuartil
(abreviado como RI), en ella está representado el 50% de la
muestra.
b) El borde superior de la caja es el percentil 75 (Q3).
c) El borde inferior es el percentil 25 (Q1).
d) La línea central de la caja es la mediana. Cuando el valor de
la mediana coincide con el punto medio de la caja (RI/2 +
Q1), la variable representada es simétrica.
• Diremos que es asimétrica positiva o a la derecha si está
próxima al borde izquierdo de la caja y, asimétrica negativa o
a la izquierda si está próxima al borde derecho
Ing. William Jaime León Velásquez 70
CAJAS Y BRAZOS
71. CARACTERÍSTICAS
e) Los valores que no son considerados extremos son aquéllos
comprendidos entre el límite inferior y el límite superior.
•Límite inferior = 1.5*RI - Q1
•Límite superior = 1.5*RI + Q3
• Los valores de las patillas corresponden a la primera y
última observación dentro de dichos límites.
f) Se señalan con signos (*,O) los casos muy alejados o
extremos.
g) Con una O se marcan los casos situados entre 1,5 y 3 veces
la amplitud intercuartil desde los dos extremos de la caja.
Ing. William Jaime León Velásquez 71
CAJAS Y BRAZOS
73. • Las distribuciones bidimensionales son aquellas en
las que se estudian al mismo tiempo dos variables
de cada elemento de la población:
DISTRIBUCIONES BIDIMENSIONALES
Ing. William Jaime León Velásquez 73
Ejemplo:
• Peso y altura de un grupo de
estudiantes;
• Superficie y precio de las
viviendas de una ciudad;
• Potencia y velocidad de una
grupo de autos deportivos.
74. • Las variables estadísticas bidimensionales se representan por el
par (X,Y), donde X es una variable unidimensional que toma los
valores x1,x2,....xn e Y es otra variable unidimensional que
toma los valores y1,y2,...yn.
ORGANIZACIÓN DE DATOS
• Si representamos estos pares
(x1,y1), (x2,y2)......en un
sistema de ejes cartesianos se
obtiene un conjunto de
puntos sobre el plano que se
denomina diagrama de
dispersión o nube de puntos.
Ing. William Jaime León Velásquez 74
75. Variable X Variable Y
MEDIA
VARIANZA
CÁLCULO DE LOS PARÁMETROS
A la raíz cuadrada positiva de las varianzas se la llama
desviación típica y se representa por Sx y por Sy.
n
nx
X ii
n
ny
Y ii
2
2
2
X
n
xn
S
ii
x
2
2
2
Y
n
yn
S
ii
y
Ing. William Jaime León Velásquez 75
• La variable estadística bidimensional (X,Y) utiliza las mismas
definiciones de media y varianza para distribuciones de
variable estadística unidimensional:
76. • Ejemplo 1.-
• Se realiza un estudio de la talla,
medida en cm. y el peso, medido en
kg. de un grupo de 10 personas,
• Los valores obtenidos figuran en la
tabla inferior:
VARIABLES ESTADÍSTICAS BIDIMENSIONALES
Talla
(cms)
160 165 168 170 171 175 175 180 180 182
Peso
(kgs)
55 58 58 61 67 62 66 74 79 83
Ing. William Jaime León Velásquez 76
77. • Se puede llamar X a la talla e Y al peso.
• Se obtiene la variable bidimensional (X, Y) que
toma 10 valores, que son las 10 parejas de valores
de la tabla anterior: (160,55), (165,58), etc.
83797466626761585855
Peso
(kgs)
182180180175175171170168165160
Talla
(cms)
83797466626761585855
Peso
(kgs)
182180180175175171170168165160
Talla
(cms)
VARIABLES ESTADÍSTICAS BIDIMENSIONALES
Ing. William Jaime León Velásquez 77
78. • En algunos casos el número de "parejas" de valores (x,y)
es grande y además muchos de ellos aparecen
repetidos; en este caso se utiliza una "Tabla de doble
entrada" o Tabla de frecuencias bidimensionales, tal
como se muestra en el figura siguiente
• En la primera fila se colocan los valores de una de las
características o variable que componen la variable
bidimensional Xi y en la primera columna los de la otra
variable Yj.
TABLA DE FRECUENCIAS BIDIMENSIONALES
Ing. William Jaime León Velásquez 78
X1 X2 Xi
Y1
Y2
Yj
79. • Ejemplo 2.- Se representa por X el número de hijos de 100
familias y por Y el número de hijas
# de hijas
(Y)
0 1 2 3
# de hijos (x)
---- ---- ---- ---
0 10 15 15 3
1 10 12 7 2
2 8 4 3 1
3 3 2 1 0
4 2 1 1 0
Ing. William Jaime León Velásquez 79
TABLA DE FRECUENCIAS BIDIMENSIONALES
80. • La lectura de esta tabla es sencilla.
• Por ejemplo: habría 7 familias que tendrían 1
hijo y 2 hijas y ninguna familia tendría 3 hijos
y 3 hijas. Ing. William Jaime León Velásquez 80
TABLA DE FRECUENCIAS BIDIMENSIONALES
81. • La gráfica de este tipo de variables
es en realidad semejante a la
representación de puntos en el
plano, usando unos ejes de
coordenadas.
• Cada pareja de valores da lugar a un
punto en el plano y el conjunto de
puntos que se obtiene se denomina
"diagrama de dispersión o nube de
puntos".
DIAGRAMAS DE DISPERSIÓN O NUBES DE
PUNTOS
Ing. William Jaime León Velásquez 81
82. DIAGRAMAS DE DISPERSIÓN O NUBES DE
PUNTOS
TALLA
PESO
• Del ejemplo 1 sobre la talla y el peso de 10 personas se
obtiene el siguiente diagrama de dispersión:
• El eje X representa la talla en cm. y el eje Y el peso en kg.)
Ing. William Jaime León Velásquez
82
83. • Se puede ver en el figura anterior del diagrama de talla -
peso que la serie de puntos presenta una tendencia
"ascendente" .
• Existe entre las dos variables una "dependencia directa"
• Si la tendencia es "descendente" existe una
"dependencia inversa "
• Si no se pueda observar una tendencia clara existirá una
dependencia muy débil que no se puede observar
mediante la nube de puntos
DIAGRAMAS DE DISPERSIÓN O NUBES
DE PUNTOS
Ing. William Jaime León Velásquez 83
85. DIAGRAMAS DE DISPERSIÓN O NUBES DE
PUNTOS
Ejemplo:
• Representar mediante un diagrama de dispersión las notas
de 12 alumnos de una clase en Matemáticas y Física
Ing. William Jaime León Velásquez 85
Matemáticas Física
2 1
3 3
4 2
4 4
5 4
6 4
6 6
7 4
7 6
8 7
10 9
10 10
86. • La covarianza mide la forma en que varía
conjuntamente dos variables X e Y
• Es el estudio simultaneo de dos variables, lo que
interesa saber es si existe algún tipo de relación
entre ellas.
COVARIANZA
Ing. William Jaime León Velásquez 86
87. • Sean (xi, yi ) pares de observaciones de
dos características X y Y, y sean 𝑋 𝑦 𝑌 sus
respectivas medias.
La covarianza entre las dos variables se define
por :
COVARIANZA
Ing. William Jaime León Velásquez 87
Donde xi e yi representan los pares de valores de la
variable y el producto 𝑋 𝑌 corresponde al producto
de las medias aritméticas de las variables X e Y
respectivamente.
88. COVARIANZA
Otras formas de obtener la covarianza:
Ing. William Jaime León Velásquez 88
Se utiliza cuando los datos están
organizados mediante una tabla
de doble entrada
89. COVARIANZA:
Si Sxy >0 hay dependencia directa (positiva), es decir
las variaciones de las variables tienen el
mismo sentido
Si Sxy = 0 l as variables están incorrelacionadas, es decir
no hay relación lineal, pero podría existir otro
tipo de relación.
Si Sxy < 0 hay dependencia inversa o negativa, es decir
las variaciones de las variables tienen sentido
opuesto.
Ing. William Jaime León Velásquez 89
90. COVARIANZA
• Gráficamente:
Ing. William Jaime León Velásquez 90
- La covarianza no es un parámetro acotado, y puede
tomar cualquier valor real, por lo que su magnitud
no es importante; lo significativo es el signo que
adopte la misma.
91. Paso 1: Se calcula Σxiyi , es decir la sumatoria de
los productos de las variables x y y; o sea:
(x1 * y1) + (x2 * y2) + ... +(xn * yn )
Paso 2: se define n, que es el numero de eventos o
el numero de pares de variables
Paso 3: Se calcula 𝑋 𝑌, que es el producto de las
medias de ambas variables
Paso 4: Obtenidos todos los datos se sustituyen en
la formula y se obtiene el resultado
CÁLCULO DE LA COVARIANZA DE UNA
SERIE DE EVENTOS
Ing. William Jaime León Velásquez 91
92. Calcular la covarianza para el primer ejemplo
correspondiente a las variables talla - peso
83797466626761585855
Peso
(kgs)
182180180175175171170168165160
Talla
(cms)
83797466626761585855
Peso
(kgs)
182180180175175171170168165160
Talla
(cms)
EJEMPLO
Ing. William Jaime León Velásquez 92
93. Paso 1:
La suma de todos los productos de los valores de x (talla) por
los de y (peso) sería:
∑ xi yi
160 · 55 + 165 · 58 + 168 · 58 + 170 · 61 + 171 · 67 + 175 · 62 +
175 · 66 + 180 · 74 + 180 · 79 + 182 · 83 = 114987
Paso 2:
Definir n como el numero de eventos en este caso es n=10
EJEMPLO
Ing. William Jaime León Velásquez 93
94. Paso 3:
A este valor se resta el producto de las medias de
ambas variables:
Media de x (talla): 172.6
Media de y (peso): 66.3
𝑋 𝑌 = 172.6 * 66.3 = 11443.38
De acuerdo a la formula se tiene que:
Sxy = (114987 / 10 ) – 11443.38
Sxy = 55.32
Se ha obtenido un valor positivo para la covarianza
que corresponde a una dependencia directa como
ya se había intuido con la nube de puntos
EJEMPLO
Ing. William Jaime León Velásquez 94
95. • La correlación indica la fuerza y la dirección de una
relación lineal y proporcionalidad entre dos variables
estadísticas.
CORRELACIÓN. Definición
Ing. William Jaime León Velásquez 95
• Se considera que dos variables
cuantitativas están correlacionadas
cuando los valores de una de ellas
varían sistemáticamente con respecto a
los valores homónimos de la otra: si
tenemos dos variables (A y B) existe
correlación si al aumentar los valores de
A lo hacen también los de B y
viceversa.
• La correlación entre dos variables no
implica, por sí misma, ninguna relación
de causalidad
96. Si se llama r, al coeficiente de correlación de Pearson
El valor se calcula mediante la relación: es:
• Se observará que el signo del coeficiente de correlación
es el mismo que el de la covarianza y puede deducirse
que el valor del mismo esta comprendido entre -1 y 1.
CORRELACIÓN. Coeficiente de correlación
de Pearson
Ing. William Jaime León Velásquez 96
97. CORRELACIÓN. Conclusiones
- El signo de r es el mismo de la covarianza,
luego si r es positivo la dependencia es directa
y si es negativo es inversa.
- Si r se acerca a -1 o a +1, la dependencia es
fuerte y por tanto las predicciones que se
realicen a partir de la recta de regresión serán
bastante fiables.
- Si r se acerca a 0 la dependencia es débil y por
tanto las predicciones que se realicen a partir
de la recta de regresión serán poco fiables
Ing. William Jaime León Velásquez 97
98. CORRELACIÓN. Línea de mejor ajuste
• La relación entre dos variables cuantitativas queda representada
mediante la línea de mejor ajuste, trazada a partir de la nube de
puntos.
• Los principales componentes elementales de una línea de ajuste
y, por lo tanto, de una correlación, son la fuerza, el sentido y la
forma:
• La fuerza extrema según el caso, mide el grado en que la línea
representa a la nube de puntos: si la nube es estrecha y alargada,
se representa por una línea recta, lo que indica que la relación es
fuerte; si la nube de puntos tiene una tendencia elíptica o circular,
la relación es débil.
• El sentido mide la variación de los valores de B con respecto a A:
si al crecer los valores de A lo hacen los de B, la relación es
directa (pendiente positiva); si al crecer los valores de A
disminuyen los de B, la relación es inversa (pendiente negativa).
• La forma establece el tipo de línea que define el mejor ajuste: la
línea recta, la curva monotónica o la curva no monotónica
Ing. William Jaime León Velásquez 98
99. Calcular la correlación para el ejemplo de las tallas y los
pesos
Sxy = 55.32
Sx = 50.71
Sy = 752.81
r = 55.32 / (50.71 * 752.81)
r =0.0014
r se acerca a 0 la dependencia es débil y por
tanto las predicciones que se realicen a partir de
la recta de regresión serán poco fiables
CORRELACIÓN. Ejemplo
Ing. William Jaime León Velásquez 99
100. • Dada la distribución bidimensional
verificar si existe correlación entre las
dos variables
EJERCICIOS 01
Ing. William Jaime León Velásquez 100
X 1 2 1 2 3 2 2 2 3 1
Y 3 5 2 3 5 4 3 5 5 3