11. Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué?
Data Analysis Lifecycle
EDA
12. ANÁLISIS DE LAS FUENTES
INCONSISTENCIAS MODELO
CONFIRMAREMOS PLANTEAMIENTO
NUEVOS PRISMAS ANÁLISIS
MAYOR EFICIENCIA
AHORRO EN DISGUSTOS
Data Analysis Lifecycle
ANÁLISIS EXPLORATORIO DE DATOS
16. # Diverging Barcharts
ggplot(mtcars, aes(x=`car name`, y=mpg_z, label=mpg_z)) +
geom_bar(stat='identity', aes(fill=mpg_type), width=.5) +
scale_fill_manual(name="Mileage",
labels = c("Above Average", "Below Average"),
values = c("above"="#00ba38", "below"="#f8766d")) +
labs(subtitle="Normalised mileage from 'mtcars'",
title= "Diverging Bars") +
coord_flip()
num_bins = 50
fig, ax = plt.subplots()
n, bins, patches = ax.hist(x, num_bins, normed=1)
y = mlab.normpdf(bins, mu, sigma)
ax.plot(bins, y, '--')
ax.set_xlabel('Smarts')
ax.set_ylabel('Probability density')
ax.set_title(r'Histogram of IQ: $mu=100$, $sigma=15$')
# Tweak spacing to prevent clipping of ylabel
fig.tight_layout()
plt.show()
Data Analysis Lifecycle
LENGUAJES Y HERRAMIENTAS
17. Mediante EDA buscaremos inconsistencias en el modelo
o errores de formato mediante técnicas de data
cleaning, que puede implicar múltiples casuísiticas.
Dos grupos de datos a corregir:
1. Datos con errores de formato: NA’s, datos
erróneos, formatos erróneos, constantes,
duplicados, categorización errónea...
2. Datos con errores de intuición: Outliers,
distribuciones, segmentación errónea … datos
que contradicen el planteamiento, escenario o
hipótesis inicial del análisis.
Source: Ander Toons
Data Analysis Lifecycle
INCONSISTENCIAS
18. Sencillo de detectar, pero cada lenguaje/formato lo identifica de una
manera diferente: NaN, NA, “”,None, NULL….
En otras ocasiones, un valor dummy ocupa un valor sin información como
999, -999, ...9 ?
Missing Values
Data Analysis Lifecycle
MISSING VALUES
19. A veces muy obvio como en este ejemplo, pero otras veces no lo
es tanto. El contexto y definición del análisis determinarán si un
valor es un outlier o no.
Missing values Outliers
Data Analysis Lifecycle
OUTLIERS
20. Información innecesaria dentro de nuestro
modelo o fuente
Missing values Outliers Constants
Data Analysis Lifecycle
CONSTANTS
21. Quizá tengamos categorización duplicada
Evitamos tener una columna doble y conclusiones
erróneas
a
b
c
a
b
Missing values Outliers Constants
Cloned
features
Data Analysis Lifecycle
CATEGORIZACIÓN DUPLICADA
22. Errores de datos en las fuentes de
origen.
a
b
c
a
b
Missing values Outliers Constants
Cloned
features
Incorrect
labels
Data Analysis Lifecycle
CATEGORIZACIÓN INCORRECTA
28. Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué?
Data Analysis Lifecycle
MODELO
29. Fact table
Dimension
table I
Dimension
table I
Dim
table III
Dim
table IV
Dim
table V
Fact table
Dimension
table I
Dimension
table I
Dim
table III
Dim
table IV
Dim
table V
Subdimension table
Subdimension table
Subdimension table ID # * ... n
ID1 #1 *1 ... n1
ID2 #2 *2 ... n2
ID3 #3 *3 ... n3
IDn #n *n ... nn
ESTRELLA COPO DE NIEVE TABLÓN
OTROS MAPAS GIS---> JSON
Data Analysis Lifecycle
DATAMODEL
30. SQL ESTÁNDAR ANALYTICS
BAJAS VOLUMETRÍAS ALTAS VOLUMETRÍAS / AGRUPA TB DATOS
RELACIONAL COLUMNAR
Data Analysis Lifecycle
OLAP
DATABASES
OLTP
31. DATAMART /
DATABASE
DWH
DATALAKE
✔
~
TAMAÑO ESTRUCTURADO TIPO ESTRUCTURA
-
-
✔
CLOUD
1- Coste por uso: Control de costes
2- Seguridad y privacidad: Acceso físico, control de acceso y
explotación de la información
3- Escalabilidad: Aumento y disminución rápido y automático de
recursos
Data Analysis Lifecycle
ARQUITECTURA