Este documento presenta el esquema inicial de una clase práctica sobre probabilidades y estadística. Incluye los siguientes temas: tipos de datos, análisis de datos multidimensionales y unidimensionales. Solicita a los estudiantes encontrar ejemplos de datos nominales, ordinales e intervalares y analizar un conjunto de datos multidimensionales usando gráficos y representaciones como diagramas de estrellas y dispersión.
Análisis de datos multidimensionales de países de la OCDE
1. CLASE PRÁCTICA
Primera entrega
(UD 1)
Probabilidades y Estadística I
2. Esquema inicial
1. Tipos de datos
2. Análisis de datos multidimensionales
3. Análisis de datos unidimensionales
Probabilidades y Estadística I
3. Esquema inicial
1. Tipos de datos
2. Análisis de datos multidimensionales
3. Análisis de datos unidimensionales
1.1 Medida nominal
1.2 Medida ordinal
1.3 Medida de intervalo
Probabilidades y Estadística I
4. 1. Tipos de datos (1/6)
Buscar, dentro de la información contenida en anuarios, revistas,
etc. tres series de datos: una nominal, otra ordinal y otra de intervalo
o de razón (proporción).
DESCRIPTORES
a) Población
b) Carácter a estudio
c) Cuantificación del carácter (sólo para medidas nominales y ordinales)
d) Serie resultante
e) Fuente
Probabilidades y Estadística I
5. 1. Tipos de datos (2/6)
1.1 Medida nominal
Probabilidades y Estadística I
6. 1. Tipos de datos (3/6)
a) Población: Parados en la comarca aragonesa de Bajo Martín
durante el año 1997.
b) Carácter a estudio: Grupo profesional al que pertenecen
c) Cuantificación del carácter
...................................................................................1
...................................................2
...................................................3
.....................................................4
.....................................................5
........................................6
........................................7
...............................................................8
..........................................................9
..........................................................................10
Probabilidades y Estadística I
7. 1. Tipos de datos (4/6)
d) Serie resultante: 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4,....19.....,4,..
e) Fuente: Instituto Aragonés de Estadística
http://www.aragob.es/eco/estadistica/espanol/general/edicion/paseo_num_teruel/parte4.pdf
Probabilidades y Estadística I
8. 1. Tipos de datos (5/6)
1.2 Medida ordinal
Probabilidades y Estadística I
9. 1. Tipos de datos (6/6)
1.3 Medida de intervalo
Canadá Dinamarca España USA Finlandia Francia Grecia Holanda Irlanda Islandia
4,1 3,9 7,4 3,2 5,1 5,3 20,1 2,3 32,7 9,1
Italia Japón Luxemburgo Noruega N. Zelanda Portugal Gran Bretaña Suecia Suiza Turquía
9,1 1,7 3,2 5,8 16,3 15,9 5,9 6,7 3,4 40,5
RFA Australia Austria Bélgica
2,2 7,6 2,9 3,2
a) Población: Países de la OCDE durante el año 1985.
b) Carácter a estudio: IPC del año 1985
d) Serie resultante: 1.7, 2.2, 2.3, 2.9, 3.2, 3.2, 3.4, 3.9, 4.1, 4.6, 5.1,
5.3, 5.5, 5.8, 5.9, 6.7, 7.4, 7.6, 9.1, 15.9, 16.3, 20.1, 32.7, 40.5
e) Fuente: Libro de D. Peña (1991) Probabilidades y Estadística I
10. Esquema inicial
1. Tipos de datos
2. Análisis de datos multidimensionales
3. Análisis de datos unidimensionales
2.1 Representación gráfica de datos multidimensionales
2.2 Marginales y condicionadas
2.3 Representación gráfica de una distribución de frecuencias
bidimensional
Probabilidades y Estadística I
11. 2. Análisis de datos multidimensionales (1/17)
Sobre una variable estadística multidimensional que será
proporcionada por los profesores de la asignatura, se propone:
2.1 Describir gráficamente ese conjunto de datos multi-
dimensionales. Conclusiones.
Gráficos de dispersión
Punto en IRp dos a dos
x = (x1, x2,..., xp) AGR
CON
EL
Probabilidades y Estadística I
13. 2. Análisis de datos multidimensionales (3/17)
PREGUNTAS-OBJETIVO
• ¿Pueden establecerse similitudes entre los elementos
de la población?
A tenor de esto, ¿podían establecerse grupos (“clusters”)?
• Existen valores atípicos
TÉCNICAS
• Gráficos de estrella
• Caras de Chernoff
• Curvas de Andrews
• Gráficos de dispersión
Probabilidades y Estadística I
14. 2. Análisis de datos multidimensionales (4/17)
Gráficos de estrella (Star plots)
AGR
TC CON
SP EL
FIN
SER
MIN MAN
Probabilidades y Estadística I
15. 2. Análisis de datos multidimensionales (5/17)
Bélgica Dinamarca Francia RFA Irlanda
Italia Luxemburgo Holanda R. Unido Austria
Finlandia Grecia Noruega Portugal España
Suecia Suiza Turquía Bulgaria Checoslovaquia
RDA Hungría Polonia Rumania URSS
Probabilidades y Estadística I
16. 2. Análisis de datos multidimensionales (6/17)
Caras de Chernoff
Área de la cara (AG)
Forma de la cara (MIN)
Longitud de nariz (MAN) Localización boca (EL)
Curva de sonrisa (CON)
Probabilidades y Estadística I
17. 2. Análisis de datos multidimensionales (7/17)
Bélgica Italia Finlandia Suecia RDA
Dinamarca Luxemburgo Grecia Suiza Hungría
Francia Holanda Noruega Turquía Polonia
RFA R. Unido Portugal Bulgaria Rumania
Irlanda Austria España Checoslovaquia URSS
Probabilidades y Estadística I
18. 2. Análisis de datos multidimensionales (8/17)
Curvas de Andrews
Punto en IRp
x = (x1, x2,..., xp)
Curva en IR2
1
fx (t ) x1 x 2 sen( t ) x 3 cos(t ) x 4 sen( 2t ) x 5 cos( 2t ) .....
2
Probabilidades y Estadística I
19. 2. Análisis de datos multidimensionales (9/17)
Probabilidades y Estadística I
20. 2. Análisis de datos multidimensionales (10/17)
Gráfico de dispersiones
AGR
CON
EL
Probabilidades y Estadística I
21. 2. Análisis de datos multidimensionales (11/17)
Sobre una variable estadística multidimensional que será
proporcionada por los profesores de la asignatura, se propone:
2.1 Describir gráficamente ese conjunto de datos multi-
dimensionales. Conclusiones.
Diagrama de estrella (star plot) Scatterplot matrix
Probabilidades y Estadística I
22. 2. Análisis de datos multidimensionales (12/17)
2.2 Poner un ejemplo de una distribución marginal y de otra
condicionada, dando una interpretación de las mismas
a) Si es necesario, discretizar los valores de las variable continua
PASO 1 (Tabular los datos de la variable continua) (ver apartado III 1.)
Tabla de Frecuencias para consumo
--------------------------------------------------------------------------------
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Marca Frecuencia Relativa Acumulativa Acum.Rel.
--------------------------------------------------------------------------------
menor o igual 13,0 0 0,0000 0 0,0000
1 13,0 19,0 16,0 15 0,0974 15 0,0974
2 19,0 25,0 22,0 37 0,2403 52 0,3377
3 25,0 31,0 28,0 38 0,2468 90 0,5844
4 31,0 37,0 34,0 44 0,2857 134 0,8701
5 37,0 43,0 40,0 14 0,0909 148 0,9610
6 43,0 49,0 46,0 6 0,0390 154 1,0000
mayor 49,0 0 0,0000 154 1,0000
--------------------------------------------------------------------------------
Recodificación Intervalos a recodificar Probabilidades y Estadística I
23. 2. Análisis de datos multidimensionales (13/17)
PASO 2 (Recodificación)
13 19 1
19 25 2
25 31 3
31 37 4
37 43 5
43 49 6
Probabilidades y Estadística I
25. 2. Análisis de datos multidimensionales (15/17)
DISTRIBUCIONES MARGINALES
Probabilidades y Estadística I
26. 2. Análisis de datos multidimensionales (16/17)
DISTRIBUCIÓN CONDICIONADA
Probabilidades y Estadística I
27. 2. Análisis de datos multidimensionales (17/17)
2.3 Histogramas tridimensionales
Probabilidades y Estadística I
28. 3. Análisis de datos unidimensionales (1/5)
Realizar el siguiente estudio sobre una de las variables
unidimensionales de las que se compone la variable anterior:
3.1 Realizar una tabulación de frecuencia de datos
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
L í mi t e L í mi t e Fr ec uenc i a Fr ec uenc i a Fr ec uenc i a
Cl a s e I n f e r i o r Su p e r i o r Ma r c a Fr ec uenc i a Re l a t i v a A c u mu l a t i v a A c u m. Re l .
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
me n o r o i g u a l 13, 0 0 0, 0000 0 0, 0000
1 13, 0 19, 0 16, 0 15 0, 0974 15 0, 0974
2 19, 0 25, 0 22, 0 37 0, 2403 52 0, 3377
3 25, 0 31, 0 28, 0 38 0, 2468 90 0, 5844
4 31, 0 37, 0 34, 0 44 0, 2857 134 0, 8701
5 37, 0 43, 0 40, 0 14 0, 0909 148 0, 9610
6 43, 0 49, 0 46, 0 6 0, 0390 154 1, 0000
ma y o r 49, 0 0 0, 0000 154 1, 0000
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Probabilidades y Estadística I
29. 3. Análisis de datos unidimensionales (2/5)
3.1 Representar gráficamente dichos datos
Histograma Polígono de frecuencias rel. acumuladas
Probabilidades y Estadística I
30. 3. Análisis de datos unidimensionales (3/5)
3.3 Representar esas dos variables mediante un diagrama
tallo-hoja. Interpretaciones.
23 1| 56667777778888899999999
51 2| 0000000000111222333333333444
( 31) 2| 5555566666777777777788888899999
72 3| 00000111111112222222222233334444444444
34 3| 5556666666677777788888999
9 4| 00133444
1 4| 6
Probabilidades y Estadística I
31. 3. Análisis de datos unidimensionales (4/5)
3.4 Dar e interpretar los valores numéricos que resumen esos
conjuntos de datos.
Fr ec uenc i a = 154
Me d i a = 2 8 , 7 9 3 5
Me d i a n a = 2 8 , 9
Mo d a = 3 6 , 0
Me d i a g e o mé t r i c a = 2 7 , 8 2 1 9
Var i anza = 54, 4232
De s v i a c i ó n t í p i c a = 7 , 3 7 7 2 1
Er r o r e s t á n d a r = 0 , 5 9 4 4 7 3
Mí n i mo = 1 5 , 5
Má x i mo = 4 6 , 6
Ra n g o = 3 1 , 1
Pr i me r c u a r t i l = 2 2 , 4
Se g u n d o c u a r t i l = 3 4 , 3
Ra n g o i n t e r c u a r . = 1 1 , 9
A s i me t r í a = 0 , 1 1 2 6 5 7
A s i me t r í a t i p i . = 0 , 5 7 0 7 4 7
Cu r t o s i s = - 0 , 8 3 2 9 9 7
Cu r t o s i s t í p i f i c a d a = - 2 , 1 1 0 0 8
Co e f . d e v a r i a c i ó n = 2 5 , 6 2 1 1 %
Su ma = 4 4 3 4 , 2
Probabilidades y Estadística I
32. 3. Análisis de datos unidimensionales (5/5)
3.5 Reconocimiento de valores atípicos mediante el diagrama
de cajas
Gráfico de Caja y Bigotes
15 25 35 45 55
consumo
Probabilidades y Estadística I