Keepler | Data Analysis Lifecycle

DATA ANALYSIS
LIFECYCLE
www.keepler.io

HELLO!
Marcos Sobrino
Data Analyst en Keepler Data Tech
marcos.sobrino@keepler.io
WHAT?
HOW?
WHERE?
TRANSFORMACIÓN AGILE
METODOLOGÍA / FRAMEWORK DEVOPS
ENFOQUE DATA PRODUCT
EXCELENCIA TÉCNICA
Cloud Computing
Big Data
Artificial Intelligence

¿CUÁLES SON LA ETAPAS REALES
EN UN ANÁLISIS DE DATOS?

Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué?
Data Analysis Lifecycle
ETAPAS

TOMA DE REQUISITOS
FUENTES DE DATOS

REQUERIMIENTOS Y REQUISITOS
Product
Owner
Data
Analyst
Data
Engineer
REQUISITOS
ANÁLISIS
FUENTES

DISTINTAS FUENTES DE DATOS PARA EL ANÁLISIS

señor/a data analyst señor/a data engineer
REQUISITOS
fUENTES
aNÁLISIS
TENEMOS REQUISITOS, FUENTES Y ANÁLISIS A REALIZAR...

Data
Analyst
Data
Engineer
Product
Owner
SER ESCÉPTICO NO IMPLICA DESCONFIANZA

EDA

ANÁLISIS DE LAS FUENTES
INCONSISTENCIAS MODELO
CONFIRMAREMOS PLANTEAMIENTO
NUEVOS PRISMAS ANÁLISIS
MAYOR EFICIENCIA
AHORRO EN DISGUSTOS
ANÁLISIS EXPLORATORIO DE DATOS

LENGUAJES Y HERRAMIENTAS

Variables
PlotsConsola
Editor

# Diverging Barcharts
ggplot(mtcars, aes(x=`car name`, y=mpg_z, label=mpg_z)) +
geom_bar(stat='identity', aes(fill=mpg_type), width=.5) +
scale_fill_manual(name="Mileage",
labels = c("Above Average", "Below Average"),
values = c("above"="#00ba38", "below"="#f8766d")) +
labs(subtitle="Normalised mileage from 'mtcars'",
title= "Diverging Bars") +
coord_flip()
num_bins = 50
fig, ax = plt.subplots()
n, bins, patches = ax.hist(x, num_bins, normed=1)
y = mlab.normpdf(bins, mu, sigma)
ax.plot(bins, y, '--')
ax.set_xlabel('Smarts')
ax.set_ylabel('Probability density')
ax.set_title(r'Histogram of IQ: $mu=100$, $sigma=15$')
# Tweak spacing to prevent clipping of ylabel
fig.tight_layout()
plt.show()

Mediante EDA buscaremos inconsistencias en el modelo
o errores de formato mediante técnicas de data
cleaning, que puede implicar múltiples casuísiticas.
Dos grupos de datos a corregir:
1. Datos con errores de formato: NA’s, datos
erróneos, formatos erróneos, constantes,
duplicados, categorización errónea...
2. Datos con errores de intuición: Outliers,
distribuciones, segmentación errónea … datos
que contradicen el planteamiento, escenario o
hipótesis inicial del análisis.
Source: Ander Toons
INCONSISTENCIAS

Sencillo de detectar, pero cada lenguaje/formato lo identifica de una
manera diferente: NaN, NA, “”,None, NULL….
En otras ocasiones, un valor dummy ocupa un valor sin información como
999, -999, ...9 ?
Missing Values
MISSING VALUES

A veces muy obvio como en este ejemplo, pero otras veces no lo
es tanto. El contexto y definición del análisis determinarán si un
valor es un outlier o no.
Missing values Outliers
OUTLIERS

Información innecesaria dentro de nuestro
modelo o fuente
Missing values Outliers Constants
CONSTANTS

Quizá tengamos categorización duplicada
Evitamos tener una columna doble y conclusiones
erróneas
a
b
c
a
b
Cloned
features
CATEGORIZACIÓN DUPLICADA

Errores de datos en las fuentes de
origen.
a
b
c
a
b
Cloned
features
Incorrect
labels
CATEGORIZACIÓN INCORRECTA

VIABILIDAD, VALIDEZ, VARIABILIDAD

ANALIZADO DISTINTAS FUENTES
LIMPIADO FUENTES
NORMALIZADO DATOS
ANÁLISIS INICIAL VIABLE
ANÁLISIS 2.0
CONOCIMIENTO DATO
CONOCIMIENTO CONTEXTO
MODELO
BONUS

MORALEJA

MODELO DE DATOS &
ARQUITECTURA

MODELO

Fact table
Dimension
table I
Dimension
table I
Dim
table III
Dim
table IV
Dim
table V
Fact table
Dimension
table I
Dimension
table I
Dim
table III
Dim
table IV
Dim
table V
Subdimension table
Subdimension table
Subdimension table ID # * ... n
ID1 #1 *1 ... n1
ID2 #2 *2 ... n2
ID3 #3 *3 ... n3
IDn #n *n ... nn
ESTRELLA COPO DE NIEVE TABLÓN
OTROS MAPAS GIS---> JSON
DATAMODEL

SQL ESTÁNDAR ANALYTICS
BAJAS VOLUMETRÍAS ALTAS VOLUMETRÍAS / AGRUPA TB DATOS
RELACIONAL COLUMNAR
OLAP
DATABASES
OLTP

DATAMART /
DATABASE
DWH
DATALAKE
✔
~
TAMAÑO ESTRUCTURADO TIPO ESTRUCTURA
-
-
✔
CLOUD
1- Coste por uso: Control de costes
2- Seguridad y privacidad: Acceso físico, control de acceso y
explotación de la información
3- Escalabilidad: Aumento y disminución rápido y automático de
recursos
ARQUITECTURA

DATAVIZ

MODELO
AUTOGESTIONADO
MODELO
HÍBRIDO
MODELO
DIY
TIPOLOGÍA DE MODELOS

HERRAMIENTAS COMERCIALES
Microstrategy
Tableau
BO
Power BI
Spotfire
Qlik
Cognos
TODO EN 1 ADMIN MULTIDISCIPLINAR MULTIPERFIL DISTRIBUCIÓN
ANÁLISIS
DASHBOARDS
DOCUMENTS | REPORTS
AUTOCONSUMO
MODELO AUTOGESTIONADO

VISIÓN
GLOBAL
KPIS
MODELO AUTOGESTIONADO - DASHBOARDS

VISIÓN
GLOBAL
ANÁLISIS EVOLUTIVO
KPIS

VISIÓN
GLOBAL
MULTIDIMIENSIONALES
ANÁLISIS EVOLUTIVO
KPIS

VISIÓN
GLOBAL
MULTIDIMIENSIONALES
ANÁLISIS EVOLUTIVO
KPIS
DINÁMICOS

DINÁMICOS
ANÁLISIS ALTO NIVEL
ESCALABLES
DETECCIÓN PATRONES
PALANCAS DE CAMBIO
IMPACTOS
TODOS USUARIOS
VISIÓN
GLOBAL
MULTIDIMIENSIONALES
ANÁLISIS EVOLUTIVO
✔
✔
✔
✔
✔
✔
KPIS

COMPLEMENTO DASHBOARD
DINÁMICOS / ESTÁTICOS
EJECUTIVO (alto nivel)
DETALLE (bajo nivel)
DISTRIBUIBLES
CUSTOMIZABLES / MODIFICABLES
NIVEL INTERMEDIO ANÁLISIS
USUARIOS MEDIOS
✔
✔
✔
✔
✔
✔
✔
✔
MODELO AUTOGESTIONADO - DOCUMENTOS/REPORTS

MODELADO DEL DWH
MULTIDIMENSIONAL - 360º
ATRIBUTOS, MÉTRICAS
FILTROS
RELACIONES, JERARQUÍAS
ALTO CONOCIMIENTO DEL MODELO
ALTO CONOCIMIENTO DE NEGOCIO
ANÁLISIS AD HOC
USUARIOS AVANZADOS
✔
✔
✔
✔
✔
✔
✔
✔
✔
MODELO AUTOGESTIONADO - AUTOCONSUMO

ANÁLISIS INTERACTIVO APPS STANDALONE
DOCUMENTOS
DASHBOARDS
MODELO HÍBRIDO - SHINY I

MODELO HÍBRIDO - SHINY II

MODELO HÍBRIDO - SHINY III

MODELO DIY - D3.js: VISUALIZACIONES A MEDIDA

MODELO
AUTOGESTIONADO
MODELO
HÍBRIDO
MODELO
DIY
DESARROLLO FLEXIBILIDAD COSTE
COMPARATIVA DE MODELOS

REQUISITOS
EDA
DATA MODEL
DATAVIZ
REQUISITOS EDA
DATA MODELDATAVIZ
ANÁLISIS

THANKS.
www.keepler.io
Marcos Sobrino
Data Analyst en Keepler Data Tech
marcos.sobrino@keepler.io
No Pie Charts were harmed in the making of this presentation.
keepler.io/#empleo
people@keepler.io

Keepler | Data Analysis Lifecycle

Recomendados

Recomendados

Más contenido relacionado

Similar a Keepler | Data Analysis Lifecycle

Similar a Keepler | Data Analysis Lifecycle (20)

Más de Keepler Data Tech

Más de Keepler Data Tech (10)

Último

Último (20)

Keepler | Data Analysis Lifecycle