Este documento presenta el temario de un curso de Análisis Exploratorio de Datos. Incluye secciones sobre introducción a conceptos estadísticos básicos como población y muestra, qué es el Análisis Exploratorio de Datos y cómo se aplica, tipos de variables estadísticas, distribuciones univariadas y representación gráfica de variables unidimensionales. El objetivo del curso es enseñar conceptos y métodos para organizar, describir y analizar datos.
1. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
ESTADÍSTICA Y PROBABILIDAD 523250.
Profesores: Guillermo Ferreira & Jean Paul Navarrete
August 8, 2022
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
2. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
1 Introducción
Definiciones de estadística, población y muestra
2 Qué es el Análisis Exploratorio de datos (AED)?
AED y el escenario en que se desenvuelve
Conceptos que Ud. usará
3 Variables estadísticas
Tipos de variables
Presentación de datos
4 Distribuciones univariadas
5 Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores
distintos
Variables cuantitativas continuas
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
3. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Definiciones de estadística, población y muestra
Introducción
"La estadística es la ciencia que trata de la recolección,
clasificación y presentación de los hechos sujetos a una
apreciación numérica como base a la explicación, descripción y
comparación de los fenómenos". (Yale y Kendal, 1954).
"La estadística comprende el conjunto de métodos y
procedimientos para obtener, describir e interpretar conjuntos
de datos y para basar decisiones y predecir fenómenos que
pueden expresarse en forma cuantitativa."(Horacio D’Ottone).
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
4. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Definiciones de estadística, población y muestra
Ciencia que recoge, organiza, presenta, analiza e interpreta
datos con el fin de propiciar una toma de decisiones más eficaz
En conclusión, la estadística es la ciencia que tiene que ver con la;
1 recolección
2 organización
3 presentación
4 análisis
5 e interpretación de datos
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
5. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Definiciones de estadística, población y muestra
El objetivo de este curso es que conozcas los conceptos y aprendas
a utilizar la Estadística Aplicada. Dividiremos la estadística
aplicada en tres partes:
1. Análisis de Datos: Se refiere a métodos e ideas para organizar
y describir los datos utilizando gráficos, resumen númericos, y
otras técnicas matemáticas más elaboradas. Capitulo 1-2
analizaremos en detalle el modulo de Estadística
descriptiva o exploratoria.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
6. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Definiciones de estadística, población y muestra
2. Producción de Datos: Proporciona métodos para producir o
generar bases de datos que pueden dar una clara respuesta a
preguntas especificas. Conceptos básicos de como seleccionar
muestras y diseñar experimentos son quizás las más influyentes
de todas las ideas estadísticas.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
7. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Definiciones de estadística, población y muestra
3. Estadśtica Inferencial: La inferencia estadística va más allá de
los datos disponibles para sacar conclusiones sobre un universo
más amplio. La inferencia estadística va más allá de los datos
disponibles para sacar conclusiones sobre un universo más
amplio. La inferencia estadística no solo saca conclusiones,
sino que acompaña esas conclusiones con una declaración
sobre cuán confiables son. La inferencia usa el lenguaje de la
probabilidad, que presentamos en el Capítulo 2. Los Capítulos
3 y 4 presentan la inferencia tal como se usa en la práctica en
varios escenarios simples. Los capítulos 5 y 6 ofrecen breves
introducciones a la inferencia en algunos escenarios más
complejos.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
8. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
AED y el escenario en que se desenvuelve
Conceptos que Ud. usará
Definiciones Básicas
La estadítica es la ciencia de los datos. Por lo tanto, comenzamos
nuestro estudio de la estadística dominando el arte de examinar
datos.
Definition 1 (Población)
Es la recolección completa de todas las observaciones de interés
para el investigador.
Definition 2 (Muestra)
Es una parte representativa de la población que se selecciona para
ser estudiada ya que la población es demasiado grande como para
analizarla en su totalidad.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
9. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
AED y el escenario en que se desenvuelve
Conceptos que Ud. usará
Definiciones Básicas
Example 1 (Proceso de producción)
Un fabricante de tarjetas para computadora desea minimizar los
defectos producidos en la cadena de producción. Un proceso de
muestreo implicaría recolectar información de 50 tarjetas de
computadora tomadas aleatoriamente durante el proceso.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
10. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
AED y el escenario en que se desenvuelve
Conceptos que Ud. usará
AED y el escenario en que se desenvuelve
AED es el proceso de examinar y resumir datos para revelar
caracterásticas, patrones y relaciones entre variables de un set
de datos.
Datos pueden explorarse tanto gráfica como numéricamente.
En esta parte del curso, Ud. usará ambas técnicas
intensivamente.
Note que cuando Ud. hace análisis descriptivo de datos (y no
inferencial), las conclusiones que Ud. establezca sólo
pueden referirse a la muestra y no a la población de la
cual provienen sus datos.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
11. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
AED y el escenario en que se desenvuelve
Conceptos que Ud. usará
Conceptos que Ud. usará
Gráfico de barras, gráfico de torta.
Histograma, gráfico de tallo y hoja.
Medidas de posición: media, moda, mediana, percentiles.
Medidas de dispersión: varianza, desviación estándar, rango,
rango intercuartil, desviación media absoluta.
Tablas de distribución de frecuencias.
Boxplots.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
12. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Variables
Cualquier conjunto de datos contiene información sobre algún
grupo de individuos. La información está organizada en variables.
Ambos conceptos se definen a continuación:
Definition 3 (Individuo)
Los individuos son los objetos descritos en el conjunto de datos.
Individuos pueden ser, personas, animales o cosas.
Definition 4 (Variable)
Es una caracterśtica de un individuo. Una variable puede tomar
diferentes valores para diferentes individuos.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
13. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Example 2
Considere los datos que describen la educación publica en los Estados de Unidos.
State Region Population SAT SAT Percent Dollars Teacher’s
Verbal Math taking per
pupil
pay
($1000)
.
.
.
CA PAC 29.760 419 484 45 4.826 39.6
CO MTN 3.294 456 513 28 4.809 31.8
CT NE 3.287 430 471 74 7.914 43.8
.
.
.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
14. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Tipos de variables
Variables cualitativas: describen cualidades y no pueden
operarse numéricamente (aún cuando, en ocasiones, están
representadas por números).
A su vez, éstas se dividen en:
Ordinales: Sus posibles valores admiten un orden.
(Calidad académica de un alumno. Posibles valores:
{Insuficiente, Suficiente, . . . , Muy bueno, Excelente}.
Puntuaciones en test de aptitud).
Nominales: Sus posibles valores no admiten un orden.
(Tipo de sangre. Posibles valores: {A, B, AB, O}. Profesión.
Nacionalidad. Provincia de origen).
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
15. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Tipos de variables
Variables cuantitativas: describen cantidades y sí pueden
operarse numéricamente.
A su vez, éstas se dividen en:
Discretas: Sus posibles valores forman un conjunto finito, o
bien infinito numerable.
(No. de hijos. Posibles valores: {0,1,2,...}).
Continuas: Sus posibles valores forman un conjunto infinito
no numerable.
(Edad, Altura, Tiempo entre dos llamadas telefónicas).
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
16. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
A modo de resumen, las variables se clasifican de la siguiente
manera:
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
17. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Tabla de Frecuencia
La distribución (ó tabla de frecuencia) de una variable nos indica
qué valores toma y con qué frecuencia toma estos valores.
Example 3
La distribución de una varaible categorica enumera las categorías y proporciona el
recuento o el porcentaje de personas que se encuentran en cada categoría. Por
ejemplo, aquí está la distribución del estado civil de todos los estadounidenses mayores
de 18 años.
Marital status Count (millons) Percent
Single 41.8 22.6
Married 113.3 61.1
Widowed 13.9 7.5
Divorced 16.3 8.8
Total 185.3 100
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
18. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
(a) (b)
Divorced Married Single Widowed
Grafico de barras
0
20
40
60
80
100
Divorced 9%
Married 61%
Single 23%
Widowed 8%
Grafico de torta
Figure: Distribución del estado civil: (a) Histograma o Gráfico de Barra.
(b) Gráfico Circular o de Torta
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
19. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Presentación de variable cualitativa
Example 4
La siguiente Tabla muestra datos simplificados del censo Estadístico de 1980 para una
provincia de España, clasificada por su relación laboral con la empresa en que trabaja.
Relación Laboral Frecuencia Frecuencia %
absoluta relativa
Patrones 4.548 0.033 3.3
Trabajadores autónomos 17.423 0.126 12.6
Cooperativas 2.406 0.017 17
Empleados fijos 61.935 0.448 44.8
Trabajadores eventuales 47.358 0.343 34.3
Trabaja en empresa familiar 3.580 0.026 2.6
Otros 998 0.007 07
Total 138.248 1 100
Table: Población activa de una Provincia 1980 según relación laboral.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
20. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Presentación de variable cualitativa
Example 5
Se cuenta con información sobre el nivel de estudios de un grupo de
n = 120 individuos. Los resultados de las observaciones se resumen
en la Tabla 2;
Nivel de estudios Frecuencia Frecuencia Frec. Abs. Frec. Rel.
absoluta relativa Acum. Acum.
sin estudios 5 0.042 5 0.042
primaria 30 0.25 35 0.292
secundaria 45 0.375 80 0.667
universitaria 40 0.333 120 1
Total 120 1
Table: Tabla de frecuencia para la variable nivel de estudios.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
21. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Distribuciones univariadas variable cuantitativa
Example 6
El siguiente conjunto de datos tiene información del salario
diario(en miles de pesos) de n = 50 trabajadores de una empresa de
confecciones. Determine la distribución de frecuencias de la variable
salario.
50 51 51 51 52 52 52 52 52 53
53 53 53 53 53 53 53 53 54 54
54 54 54 54 54 54 54 54 54 54
55 55 55 55 55 55 55 55 55 55
56 56 56 56 56 57 57 57 58 58
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
22. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Cont. Example
Variable Frecuencia Frecuencia Frec. Abs. Frec. Rel.
X absoluta relativa Acum. Acum.
50 1 0.02 1 0.02
51 3 0.06 4 0.08
52 5 0.10 9 0.18
53 9 0.18 18 0.36
54 12 0.24 30 0.60
55 10 0.20 40 0.80
56 5 0.10 45 0.90
57 3 0.06 48 0.96
58 2 0.04 50 1.00
Table: Tabla de frecuencias agrupada sin intervalos de clase.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
23. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Presentación de datos
Agrupación en intervalos o clases. Facilita la presentación
de datos cuantitativos.
Cuántos intervalos uno debe hacer?
De qué longitud debe ser cada intervalo?
Se recomienda usar entre 5 y 20 (ó 25) intervalos.
Número de clases. Suponga que Ud. tiene n datos.
Alternativa 1: El entero más próximo a k =
√
n.
Alternativa 2: El entero más próximo a k = 1+10/3·log10 n
(fórmula de Sturges).
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
24. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Tipos de variables
Presentación de datos
Presentación de datos
Denote por [L0,L1),[L1,L2),...,[Lk−1,Lk) a los intervalos.
Elementos asociados a las clases o intervalos:
Límites: Li−1, Li (límite inferior y límite superior,
respectivamente).
Marca de la clase ci = 1/2·(Li +Li−1).
Amplitud de la clase: bi = Li −Li−1.
El intervalo de clase es el rango de valores encontrados
dentro de una clase
IC =
xmax −xmin
k
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
25. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Distribuciones univariadas
Denote por n al total de datos en la muestra.
Frec. absoluta de la clase i es el número ni de datos que
están en el i-ésimo intervalo.
Frec. relativa de la clase i es el proporción ni /n de datos que
están en el i-ésimo intervalo.
Si la variable es cuantitativa, uno también define:
Frec. absoluta acumulada hasta la clase i es el número Ni
que se encuentran hasta la clase i.
Ni = n1 +n2 +···+ni
Frec. relativa acumulada hasta la clase i es la proporción
Ni /n que se encuentran hasta la clase i.
Ni /n = (n1 +n2 +···+ni )/n
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
26. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Distribuciones univariadas
Tablas para datos agrupados.
Clases Marca Frecuencia Frecuencia Frec. Abs. Frec. Rel.
de clase absoluta relativa Acum. Acum.
[L0,L1) c1 n1 n1/n N1 N1/n
[L1,L2) c2 n2 n2/n N2 N2/n
[L2,L3) c3 n3 n3/n N3 N3/n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
[Lk−1,Lk ] ck nk nk /n Nk Nk /n
Total n 1
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
27. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Distribuciones univariadas
Example 7
Como estadístico de una aerolínea se le solicita recopilar y agrupar los datos sobre el
número de pasajeros que han decidido viajar con L&P (en miles). Los datos
correspondientes a los últimos 21 días aparecen en la tabla
58 42 51 54 40 39 49
56 58 57 59 63 58 66
70 72 71 69 70 68 64
Para agrupar los datos utilizamos
k =
√
21 = 4.58 ≈ 5
IC =
72−39
5
=
33
5
= 6.6
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
28. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Distribuciones univariadas
Clases Marca Frecuencia Frecuencia Frec. Abs. Frec. Rel.
de clase absoluta relativa Acum. Acum.
[39 45,6) 42,3 3 0,1428 3 0,1428
[45,6 52,2) 48,9 2 0,0952 5 0,2381
[52,2 58,8) 55,5 6 0,2857 11 0,5238
[58,8 65,4) 62,1 3 0,1428 14 0,6667
[65,4 72] 68,7 7 0,3333 21 ≈ 1
21 ≈ 1
La aereolínea rara vez transporto menos de 39.000 pasajeros
En 6 días, ó el 29 % de los días, el número de pasajeros varía entre 52,2 y 58,8
miles.
En 14 días, el número de pasajeros es inferior a 65,400.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
29. Otra posibilidad a la hora de construir la tabla, y que nos permite
que trabajemos con cantidades más simples a la hora de construir
los intervalos, es aproximar hacia arriba o abajo el intervalo de clase.
k =
√
21 = 4.58 ≈ 5
IC =
72−39
5
=
33
5
= 6.6 ≈ 7
31. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Presentación de datos
Example 8
Suponga que Ud. tiene 20 observaciones que representan distancias de frenado (en
metros), en autos conducidos sobre autopista húmeda.
Suponga el mismo automóvil y velocidad en todos los casos.
35.8 30.5 35.9 41.6 35.9
39.2 41.9 38.6 39.2 37.3
35.3 37.3 35.6 38.0 36.7
40.1 36.1 37.0 35.9 38.3
Para agrupar los datos utilizamos
k = 1+10/3·log10 20 = 5.34 ≈ 6
IC =
41.9−30.5
6
= 1.83 ≈ 2
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
32. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Cont. Example
Example 9
Agrupación en clases.
Clases Marca Frecuencia Frecuencia Frec. Abs. Frec. Rel.
de clase absoluta relativa Acum. Acum.
[30,32) 31 1 1/20 1 1/20
[32,34) 33 0 0 1 1/20
[34,36) 35 6 6/20 7 7/20
[36,38) 37 5 5/20 12 12/20
[38,40) 39 5 5/20 17 17/20
[40,42] 41 3 3/20 20 1
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
33. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Distribuciones univariadas
Example 10
El siguiente conjunto de datos tiene información del salario diario(en miles de pesos)
de n = 50 trabajadores de una empresa de confecciones. Determine la distribución de
frecuencias de la variable salario.
50 51 51 51 52 52 52 52 52 53
53 53 53 53 53 53 53 53 54 54
54 54 54 54 54 54 54 54 54 54
55 55 55 55 55 55 55 55 55 55
56 56 56 56 56 57 57 57 58 58
Para agrupar los datos utilizamos
k =
√
50 = 7.07 ≈ 8
IC =
58−50
8
= 1 ≈ 1.1
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
35. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
The R Project for Statistical Computing:
https://www.r-project.org-https://www.rstudio.com
Python : https://jupyter.org-https://www.python.org
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
36. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cualitativas o cuantitativas con pocos valores distintos
Example 11
Ud. tiene los siguientes datos representando tipos de vehículos:
Tipo Frec. Abs.
Deportivo 14
Furgoneta 9
Camión 11
Moto 16
Pequeño 21
Tamaño medio 11
Ejemplo7 = as.factor(c(rep("Deportivo", 14),
Hola rep("Furgoneta", 9),
Hola rep("Camion", 11),
Hola rep("Moto", 16),
Hola rep("Pequeño", 21),
Hola rep("Tamaño medio", 11)))
n = length(Ejemplo7)
Frec.Abs.E7 = table(Ejemplo7)
Frec.Rel.E7 = table(Ejemplo7)/n
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
37. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cualitativas o cuantitativas con pocos valores distintos
Example 12 (Example 11: Cont.)
Tipo Frec. Abs. Frec. Rel. Ni .
Deportivo 14 0.17 14
Furgoneta 9 0.11 23
Camión 11 0.13 34
Moto 16 0.20 50
Pequeño 21 0.26 71
Tamaño medio 11 0.13 82
82 ≈ 1
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
38. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cualitativas o cuantitativas con pocos valores distintos
Diagrama de barras. Uno construye tantos rectángulos como
atributos o valores de este tipo de variable discreta.
La altura es la frecuencia absoluta o relativa de cada atributo
o posible valor de variables discretas de este tipo.
Tipo Frec. Abs. Frec. Rel.
Deportivo 14 0.17
Furgoneta 9 0.11
Camión 11 0.13
Moto 16 0.20
Pequeño 21 0.26
Tamaño medio 11 0.13
82 ≈ 1
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
39. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Código en R
barplot(Frec.Rel.E7,space=0.2, xlab="Tipo de vehiculo",
main="Grafico de barras Ejemplo 7",ylim=c(0,0.3),
col=c("gray20","gray30","gray40","gray50","gray60","gray70"))
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
40. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cualitativas o cuantitativas con pocos valores distintos
Gráfico de torta (piechart). Uno divide un círculo en tantos
sectores circulares como atributos tenga la variable cualitativa.
Cada sector circular es proporcional a la frecuencia absoluta (o
relativa).
Tipo Frec. Abs. Frec. Rel.
Deportivo 14 0.17
Furgoneta 9 0.11
Camión 11 0.13
Moto 16 0.20
Pequeño 21 0.26
Tamaño medio 11 0.13
82 ≈ 1
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
41. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Código en R
slices <- c( 0.13, 0.17, 0.11, 0.20, 0.26, 0.13)
lbls <- c("Camion", "Deportivo", "Furgoneta", "Moto", "Pequeno",
"Tamano medio")
pct <- round(slices/sum(slices)*100)
lbls <- paste(lbls, pct) # add percents to labels
lbls <- paste(lbls,"%",sep="") # ad % to labels
pie(slices,labels = lbls, col=c("gray20","gray30","gray40","gray50",
"gray60","gray70"), main="Grafico de torta Ejemplo 7")
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
42. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cualitativas o cuantitativas con pocos valores distintos
Gráfico de torta 3D (piechart).
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
43. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Código en R
install.packages("plotrix")
library(plotrix)
pie3D(slices,labels=lbls,explode=0.1,
main="Grafico de torta Ejemplo 7")
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
44. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas discreta
Ejemplo 8. Sa lanzan tres monedas al aire en 8 ocaciones y
se contabiliza el número de caras, X, obteniendose los
siguientes resultados;
2,1,0,1,3,2,1,2.
Representar gráficamente el resultado
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
45. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas continuas
Histograma. Se realiza desde datos agrupados en intervalos.
Eje horizontal: Escala de valores de la variable que se mide. Se
marcan los límites de intervalos.
Eje vertical: Escala de alturas.
Sobre cada clase o intervalo se eleva un rectángulo tal que su
área
Ai = {Base}×{Altura} = (Li −Li−1)×hi = λ ni
Así, hi = λ ni /(Li −Li−1), con λ : constante.
Las categorías no necesariamente deben estar equiespaciadas.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
46. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas continuas
Histograma. Usando los datos del Ejemplo 4, obtenga el
histograma:
Clases Marca Frecuencia
de clase absoluta
[30,32) 31 1
[32,34) 33 0
[34,36) 35 6
[36,38) 37 5
[38,40) 39 5
[40,42] 41 3
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
47. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Código en R
Ejemplo4 = c(35.8, 39.2, 35.3, 40.1, 30.5, 41.9, 37.3,
36.1, 35.9, 38.6, 35.6, 37.0, 41.6, 39.2, 38.0, 39.5,
39.5, 37.3, 36.7,38.3)
hist(Ejemplo4, freq=TRUE, right = FALSE,col="gray"
,main = "Histograma para Ejemplo 4",
xlab = "Distancia de frenado (en metros)",
ylab = "Frecuencias relativas")
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
48. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas continuas
Histograma. Usando los datos del Ejemplo 4, obtenga el
histograma:
Clases Marca Frecuencia %
de clase relativa
[30,32) 31 1/20 5
[32,34) 33 0 0
[34,36) 35 6/20 30
[36,38) 37 5/20 25
[38,40) 39 5/20 25
[40,42] 41 3/20 15
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
49. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas continuas
Ejemplo 8: Complete la tabla de distribución de frecuencias y
construya un histograma usando:
Clases Marca Frecuencia
de clase absoluta
[1.5,4) 2.75 3
[4,8) 6.00 9
[8,9) 8.50 1
[9,12) 10.50 10
[12,14) 13 5
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
50. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas continuas
Ejemplo 8: Cont. λ = 1
Clases Marca Frecuencia Frecuencia
de clase Li −Li−1 absoluta hi = ni
bi
relativa
ci bi ni fi
[1.5,4) 2.75 3.5 3 0.86 0.11
[4,8) 6.00 4 9 2.25 0.32
[8,9) 8.50 1 1 1 0.04
[9,12) 10.50 3 10 3.33 0.36
[12,14) 13 2 5 2.5 0.18
28 ≈ 1
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
51. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas continuas
Polígono de frecuencias acumuladas.
Eje horizontal: Escala de valores de la variable que se mide. Se
marcan los límites de intervalos.
Eje vertical: Escala de frecuencias acumuladas (relativas o
absolutas).
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
52. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas continuas
Usando los datos del Ejemplo 4:
Clases Marca Frec. Rel.
de clase acumulada
[30,32) 31 0.05
[32,34) 33 0.05
[34,36) 35 0.25
[36,38) 37 0.50
[38,40) 39 0.85
[40,42] 41 1
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
53. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Código en R
n1.E01 = length(Ejemplo4[Ejemplo4>=30 & Ejemplo4<32])
n2.E01 = length(Ejemplo4[Ejemplo4>=32 & Ejemplo4<34])
n3.E01 = length(Ejemplo4[Ejemplo4>=34 & Ejemplo4<36])
n4.E01 = length(Ejemplo4[Ejemplo4>=36 & Ejemplo4<38])
n5.E01 = length(Ejemplo4[Ejemplo4>=38 & Ejemplo4<40])
n6.E01 = length(Ejemplo4[Ejemplo4>=40 & Ejemplo4<42])
limsups = c(32, 34, 36, 38, 40, 42)
frec.rel.acum.E01 = cumsum(c(n1.E01, n2.E01, n3.E01, n4.E01, n5.E01,
n6.E01))/length(Ejemplo4)
plot(limsups, frec.rel.acum.E01, type="l", lwd=2,
main = "Diagrama acumulativo de frecuencias relativas",
ylab = "", xlab="distancia de frenado en mts.")
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
54. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas continuas
Diagrama de tallo y hoja (Stem and leaf).
Se construye como sigue:
(1).Exprese datos en unidades convenientes, redondeando a 2 ó 3
cifras significativas y ordénelos de menor a mayor.
(2).Coloque sus datos con dos columnas separadas por una línea
como sigue:
Para datos con 2 d’igitos, escriba a la izquierda de la línea los
dígitos de las decenas (tallo) y a la derecha los de las unidades
(hojas).
Para datos con tres dígitos, el tallo serán las centenas y
decenas (a la izquierda de la línea) y las hojas serán las
unidades.
(3).Cada tallo define una clase y uno lo escribe sólo una vez; el
número de hojas representa la frecuencia de la clase
correspondiente al tallo.
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
55. Temario
Introducción
Qué es el Análisis Exploratorio de datos (AED)?
Variables estadísticas
Distribuciones univariadas
Representación gráfica de variables unidimensionales
Variables cualitativas o cuantitativas con pocos valores distinto
Variables cuantitativas continuas
Variables cuantitativas continuas
Usando los datos del Ejemplo 4 (distancia de frenado):
30 | 5
31 |
32 |
33 |
34 |
35 | 3 6 8 9
36 | 1 7
37 | 0 3 3
38 | 0 3 6
39 | 2 2 5 5
40 | 1
41 | 6 9
Esto se obtiene en R usando stem(Ejemplo4, scale = 3).
Profesores: Guillermo Ferreira & Jean Paul Navarrete ESTADÍSTICA Y PROBABILIDAD 523250.
56. Resumen
Resumen: Principales Gráficos según el tipo de variable:.
1 Variable Cualitativa: Barras, sectores, pictogramas.
2 Variable Discreta: Gráfico de barras, en escalera.
3 Variable Continua: Histograma, polígono de frecuencias,
diagramas acumulados (ojiva).