SlideShare una empresa de Scribd logo
1 de 42
Descargar para leer sin conexión
1 / 42
¿Por qué preocuparse por
mejorar la calidad de los datos?
Jordi Rosell (@jrosell)
CTO en The ducks in a row
jordi@thediar.com
https://www.thediar.com/
2 / 42
La calidad, ¿te hace feliz?
3 / 42
Si usamos basura,
obtendremos basura
La respuesta es 324.¿Cuál es el secreto de la felicidad?
4 / 42
Datos apropiados para
cada propósito
Mañana hay previsión de
sol en Barcelona
¿Qué tiempo hará
mañana en Barcelona?
5 / 42
Cada segundo, se generan en
Internet 50TB de datos
6 / 42
Y sumando...
●
18 productos vendidos en Amazon
●
823 imágenes subidas en Instagram
●
2937 llamadas en Skype
●
7890 mensajes nuevos en Twitter
●
12500 canciones reproducidas en Spotify
●
64619 búsquedas en Google
●
72226 vídeos reproducidos en Youtube
7 / 42
Sumando datos erróneos
8 / 42
Incluso con autocorrector
9 / 42
¿Cuáles son los problemas
más comunes?
10 / 42
Inexactitud
Grado en el que un dato se corresponde
con la realidad o en unos valores
aceptables
11 / 42
12 / 42
¿Lo hacen a propósito o usan
malos instrumentos?
Es preciso
pero inexacto
Ni preciso
ni exacto
Es exacto
pero impreciso
Es exacto
y preciso
13 / 42
Inconsistencia
Grado en el que un dato podría ser
contradictorio o incoherente
14 / 42
Una pregunta rápida: ¿Cómo
defines el open rate de un
email?
Para responder:
●
Abre https://slido.com
●
Introduce el event code: A388
●
Join y contesta la pregunta.
15 / 42
Faltan datos: datos incompletos
o pérdida de datos
Grado en el que están todos los datos
que deberían estar
16 / 42
¿Qué zonas del avión
deberíamos reforzar?
17 / 42
Datos sin actualizar
Aunque necesitemos datos del día anterior,
hay datos de los que sólo dispondremos
pasados unos días.
18 / 42
Poca confianza en los datos
¿Se puede confiar en los datos mostrados?
19 / 42
Si un registro está duplicado,
¿cuál es el bueno?
20 / 42
¿Por qué ocurren estos
problemas?
21 / 42
No conocemos los datos
¿Qué qué significan los datos?
¿Significan otra cosa de la esperada?
●
Suele ser señal de que la estructura es
demasiado compleja
22 / 42
En fuentes de datos de
terceros, pueden cambiar la
definición de los datos
An improvement to our data
collection was applied from 1/1/16
23 / 42
Variedad de las fuentes
¿Cuántas fuentes de datos se integran?
●
Cuando se trata de integrar datos de una
gran variedad de fuentes de datos, es
necesario un gran esfuerzo previo de
modelización antes de poder limpiar y cruzar
la información de forma adecuada
24 / 42
¿Cuántos pedidos hubo el
último mes?
No es lo mismo lo que diga el CMS que lo que
diga Google Analytics.
●
En este caso, una rectificación del pedido era
un nuevo pedido para el CMS y no para
Google Analytics
25 / 42
Errores del sistema
Caídas de servidores, funcionamiento
anómalo, datos que han quedado huérfanos
o duplicados, etc.
26 / 42
¿Y que podemos hacer para
mejorar la calidad de los
datos?
27 / 42
Para mejorar algo, primero
hay que medirlo
●
Extrae los últimos 100 registros creados o editados
en una hoja de cálculo. Deja sólo los 10-15 campos
críticos de cada registro.
●
Reúnete 1h-2h con 2-3 personas más que conozcan
los datos.
●
Registro por registro, se marcan los errores evidentes
en rojo. (Ej: Un nombre mal escrito, columna
incorrecta, formatos incorrectos, valores fuera de
rango, datos falsos para evadir un control, etc)
●
¿El registro esta completamente correcto? SI/NO
●
El KPI será el porcentaje de registros completamente
correctos
28 / 42
Calcula tu propio KPI de
gestión de calidad de datos
29 / 42
Una vez ya se ha usado el
dato erróneo
Ya está hecho el daño
Puede implicar:
●
Haber tomado decisiones en base a datos
incorrectos.
●
Pérdidas de tiempo.
●
Devoluciones de pedidos.
●
Instatisfacción o incluso pérdida del cliente.
●
etc
30 / 42
Arreglar la mala calidad de
los datos
Un «cortafuegos» para reducir el riesgo
de que se produzcan incidencias
●
Reglas automáticas para limpiar, deduplicar,
etc
●
Equipo de validación y corrección de
possibles errores detectados via Inteligencia
Artificial o modelos probabilísticos
31 / 42
Prevención de errores en la
introducción de datos
Son la mayor fuente de datos erróneos
●
Por ejemplo, por errores tipográficos o por
equivocaciones al transcribir desde el
teléfono o copiar del papel
32 / 42
Una opción, campos de
confirmación
33 / 42
Otra opción, sugerencias
34 / 42
Priorizemos la prevención
35 / 42
1. Inventariado de los datos, acordar
definiciones y requerimientos
2. Identifica las causas de la mala
calidad de los datos
3. Diseña, desarrolla y ejecuta los
procesos de mejora de calidad
(limpieza, homologación,
enriquecido...)
4. Monitoriza el progreso en la mejora
de la calidad de los datos
36 / 42
Air France-KLM corrige más de 1
millón de registros cada mes
●
Emails y teléfonos de los pasajeros
●
Reconciliación de fuentes online y offline
●
Recopilado y procesado de datos personales
desde multiples fuentes para programas de
fidelidad
●
Hacer anónima información sensible para
aquellos que no tengan acceso autorizado
37 / 42
Save The Children UK mejorando la
calidad de los datos mejora la
comunicación con sus socios y
donantes
●
Desduplicación de las importaciones de
donaciones realizadas para evitar envíos
multiples al mismo socio.
●
Relacionar adecuadamente los datos de
donantes y de socios.
●
Poder unificar cartas postales para los
habitantes de un mismo piso
38 / 42
Travis Perkins mejorando la calidad
del catálogo de productos de su sitio
web mejoró la conversión un 30%
●
La información de producto no era
consistente (distintos proveedores)
●
Se realizó un proceso para estanderizar
datos, campos y valores ya que aunque
hubiera un equipo no llegaba a todo
●
Detección probailística de duplicados y uso
de barcodes
●
Todo ello, resultó en un sitio web con
información de producto más precisa y
consistente
39 / 42
Amazon mejora de la calidad de los
datos de su buscador para convertir
el doble que sus competidores
40 / 42
¿Y qué conseguimos mejorando la
calidad de los datos?
41 / 42
Que los datos sean un
activo para el negocio
●
Tener un visión única de los datos.
●
Enriquecidos desde distintas fuentes de datos
de forma controlada.
●
Ser operativamente solventes, para poder
ofrecer datos completos y consistentes
●
Trabajar estratégicamente, consiguiendo
unos datos valiosos para su función.
●
Cumplimiento normativo (Multas de 2% de
facturación).
42 / 42
¡Gracias! ¿Preguntas?
Jordi Rosell (@jrosell)
CTO en The ducks in a row
jordi@thediar.com
https://www.thediar.com/

Más contenido relacionado

Similar a ¿Por qué preocuparse por mejorar la calidad de los datos?

éXitos Y Fracasos De Un Sistema
éXitos Y Fracasos De Un SistemaéXitos Y Fracasos De Un Sistema
éXitos Y Fracasos De Un Sistemaguest6948f9c
 
Trabajo empresarial
Trabajo empresarialTrabajo empresarial
Trabajo empresarialflorlisbeth
 
Entregable 6 auditoria de bases de datos - rendimiento
Entregable 6   auditoria de bases de datos - rendimientoEntregable 6   auditoria de bases de datos - rendimiento
Entregable 6 auditoria de bases de datos - rendimientonoriarman
 
2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdfNathalLpez
 
Sistemas de Información
Sistemas de Información Sistemas de Información
Sistemas de Información Ana Castañeda
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8John Bulla
 
Entregable 6 auditoria de bases de datos - rendimiento
Entregable 6   auditoria de bases de datos - rendimientoEntregable 6   auditoria de bases de datos - rendimiento
Entregable 6 auditoria de bases de datos - rendimientonoriarman
 
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...Ramón Hernández
 
Creando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organizaciónCreando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organizaciónRamón Hernández
 
Data integration
Data integrationData integration
Data integrationPowerData
 
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfeBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfNubiral
 
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...UNIVERSIDAD MAGISTER (Sitio Oficial)
 
[SPANISH ]Codealike en MUG Argentina
[SPANISH ]Codealike en MUG Argentina[SPANISH ]Codealike en MUG Argentina
[SPANISH ]Codealike en MUG ArgentinaCodealike
 
Ponencia Ismael Caballero desayuno AFSM
Ponencia Ismael Caballero desayuno AFSMPonencia Ismael Caballero desayuno AFSM
Ponencia Ismael Caballero desayuno AFSMData Quality Team SL
 
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosAlex Rayón Jerez
 
Administración de proyectos de sistemas de información
Administración de proyectos de sistemas de informaciónAdministración de proyectos de sistemas de información
Administración de proyectos de sistemas de informaciónDanny Carolina Medina
 
Big Data para procesos. De TV3 a cualquier PYME
Big Data para procesos. De TV3 a cualquier PYMEBig Data para procesos. De TV3 a cualquier PYME
Big Data para procesos. De TV3 a cualquier PYMEOpenBigDataManagement
 

Similar a ¿Por qué preocuparse por mejorar la calidad de los datos? (20)

éXitos Y Fracasos De Un Sistema
éXitos Y Fracasos De Un SistemaéXitos Y Fracasos De Un Sistema
éXitos Y Fracasos De Un Sistema
 
Trabajo empresarial
Trabajo empresarialTrabajo empresarial
Trabajo empresarial
 
Entregable 6 auditoria de bases de datos - rendimiento
Entregable 6   auditoria de bases de datos - rendimientoEntregable 6   auditoria de bases de datos - rendimiento
Entregable 6 auditoria de bases de datos - rendimiento
 
Data pipeline
Data pipelineData pipeline
Data pipeline
 
2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf
 
IN Unidad 3: Minería de datos
IN Unidad 3: Minería de datosIN Unidad 3: Minería de datos
IN Unidad 3: Minería de datos
 
Sistemas de Información
Sistemas de Información Sistemas de Información
Sistemas de Información
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8
 
Entregable 6 auditoria de bases de datos - rendimiento
Entregable 6   auditoria de bases de datos - rendimientoEntregable 6   auditoria de bases de datos - rendimiento
Entregable 6 auditoria de bases de datos - rendimiento
 
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
 
Creando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organizaciónCreando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organización
 
Data integration
Data integrationData integration
Data integration
 
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfeBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
 
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
 
Analisis ups
Analisis upsAnalisis ups
Analisis ups
 
[SPANISH ]Codealike en MUG Argentina
[SPANISH ]Codealike en MUG Argentina[SPANISH ]Codealike en MUG Argentina
[SPANISH ]Codealike en MUG Argentina
 
Ponencia Ismael Caballero desayuno AFSM
Ponencia Ismael Caballero desayuno AFSMPonencia Ismael Caballero desayuno AFSM
Ponencia Ismael Caballero desayuno AFSM
 
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
 
Administración de proyectos de sistemas de información
Administración de proyectos de sistemas de informaciónAdministración de proyectos de sistemas de información
Administración de proyectos de sistemas de información
 
Big Data para procesos. De TV3 a cualquier PYME
Big Data para procesos. De TV3 a cualquier PYMEBig Data para procesos. De TV3 a cualquier PYME
Big Data para procesos. De TV3 a cualquier PYME
 

Más de Jordi Rosell

Optimización de la conversión de un e-commerce
Optimización de la conversión de un e-commerceOptimización de la conversión de un e-commerce
Optimización de la conversión de un e-commerceJordi Rosell
 
Marketineo Bilbao 2019: Proyectos CRO
Marketineo Bilbao 2019: Proyectos CROMarketineo Bilbao 2019: Proyectos CRO
Marketineo Bilbao 2019: Proyectos CROJordi Rosell
 
Reporting para la accionabilidad
Reporting para la accionabilidadReporting para la accionabilidad
Reporting para la accionabilidadJordi Rosell
 
Aprendiendo de una #cagadaEcommerce
Aprendiendo de una #cagadaEcommerceAprendiendo de una #cagadaEcommerce
Aprendiendo de una #cagadaEcommerceJordi Rosell
 
Happy product pages
Happy product pagesHappy product pages
Happy product pagesJordi Rosell
 
Elección de Magento como plataforma E-commerce
Elección de Magento como plataforma E-commerceElección de Magento como plataforma E-commerce
Elección de Magento como plataforma E-commerceJordi Rosell
 
Páginas aterrizaje que convierten
Páginas aterrizaje que conviertenPáginas aterrizaje que convierten
Páginas aterrizaje que conviertenJordi Rosell
 
Optimizar la conversión en Magento
Optimizar la conversión en MagentoOptimizar la conversión en Magento
Optimizar la conversión en MagentoJordi Rosell
 
Optimización de la Conversión #einnovamwc
Optimización de la Conversión #einnovamwcOptimización de la Conversión #einnovamwc
Optimización de la Conversión #einnovamwcJordi Rosell
 
Web Performance para Magento
Web Performance para MagentoWeb Performance para Magento
Web Performance para MagentoJordi Rosell
 
Desenvolupar una botiga online amb èxit
Desenvolupar una botiga online amb èxitDesenvolupar una botiga online amb èxit
Desenvolupar una botiga online amb èxitJordi Rosell
 

Más de Jordi Rosell (12)

Full stack R
Full stack RFull stack R
Full stack R
 
Optimización de la conversión de un e-commerce
Optimización de la conversión de un e-commerceOptimización de la conversión de un e-commerce
Optimización de la conversión de un e-commerce
 
Marketineo Bilbao 2019: Proyectos CRO
Marketineo Bilbao 2019: Proyectos CROMarketineo Bilbao 2019: Proyectos CRO
Marketineo Bilbao 2019: Proyectos CRO
 
Reporting para la accionabilidad
Reporting para la accionabilidadReporting para la accionabilidad
Reporting para la accionabilidad
 
Aprendiendo de una #cagadaEcommerce
Aprendiendo de una #cagadaEcommerceAprendiendo de una #cagadaEcommerce
Aprendiendo de una #cagadaEcommerce
 
Happy product pages
Happy product pagesHappy product pages
Happy product pages
 
Elección de Magento como plataforma E-commerce
Elección de Magento como plataforma E-commerceElección de Magento como plataforma E-commerce
Elección de Magento como plataforma E-commerce
 
Páginas aterrizaje que convierten
Páginas aterrizaje que conviertenPáginas aterrizaje que convierten
Páginas aterrizaje que convierten
 
Optimizar la conversión en Magento
Optimizar la conversión en MagentoOptimizar la conversión en Magento
Optimizar la conversión en Magento
 
Optimización de la Conversión #einnovamwc
Optimización de la Conversión #einnovamwcOptimización de la Conversión #einnovamwc
Optimización de la Conversión #einnovamwc
 
Web Performance para Magento
Web Performance para MagentoWeb Performance para Magento
Web Performance para Magento
 
Desenvolupar una botiga online amb èxit
Desenvolupar una botiga online amb èxitDesenvolupar una botiga online amb èxit
Desenvolupar una botiga online amb èxit
 

Último

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 

Último (10)

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 

¿Por qué preocuparse por mejorar la calidad de los datos?

  • 1. 1 / 42 ¿Por qué preocuparse por mejorar la calidad de los datos? Jordi Rosell (@jrosell) CTO en The ducks in a row jordi@thediar.com https://www.thediar.com/
  • 2. 2 / 42 La calidad, ¿te hace feliz?
  • 3. 3 / 42 Si usamos basura, obtendremos basura La respuesta es 324.¿Cuál es el secreto de la felicidad?
  • 4. 4 / 42 Datos apropiados para cada propósito Mañana hay previsión de sol en Barcelona ¿Qué tiempo hará mañana en Barcelona?
  • 5. 5 / 42 Cada segundo, se generan en Internet 50TB de datos
  • 6. 6 / 42 Y sumando... ● 18 productos vendidos en Amazon ● 823 imágenes subidas en Instagram ● 2937 llamadas en Skype ● 7890 mensajes nuevos en Twitter ● 12500 canciones reproducidas en Spotify ● 64619 búsquedas en Google ● 72226 vídeos reproducidos en Youtube
  • 7. 7 / 42 Sumando datos erróneos
  • 8. 8 / 42 Incluso con autocorrector
  • 9. 9 / 42 ¿Cuáles son los problemas más comunes?
  • 10. 10 / 42 Inexactitud Grado en el que un dato se corresponde con la realidad o en unos valores aceptables
  • 12. 12 / 42 ¿Lo hacen a propósito o usan malos instrumentos? Es preciso pero inexacto Ni preciso ni exacto Es exacto pero impreciso Es exacto y preciso
  • 13. 13 / 42 Inconsistencia Grado en el que un dato podría ser contradictorio o incoherente
  • 14. 14 / 42 Una pregunta rápida: ¿Cómo defines el open rate de un email? Para responder: ● Abre https://slido.com ● Introduce el event code: A388 ● Join y contesta la pregunta.
  • 15. 15 / 42 Faltan datos: datos incompletos o pérdida de datos Grado en el que están todos los datos que deberían estar
  • 16. 16 / 42 ¿Qué zonas del avión deberíamos reforzar?
  • 17. 17 / 42 Datos sin actualizar Aunque necesitemos datos del día anterior, hay datos de los que sólo dispondremos pasados unos días.
  • 18. 18 / 42 Poca confianza en los datos ¿Se puede confiar en los datos mostrados?
  • 19. 19 / 42 Si un registro está duplicado, ¿cuál es el bueno?
  • 20. 20 / 42 ¿Por qué ocurren estos problemas?
  • 21. 21 / 42 No conocemos los datos ¿Qué qué significan los datos? ¿Significan otra cosa de la esperada? ● Suele ser señal de que la estructura es demasiado compleja
  • 22. 22 / 42 En fuentes de datos de terceros, pueden cambiar la definición de los datos An improvement to our data collection was applied from 1/1/16
  • 23. 23 / 42 Variedad de las fuentes ¿Cuántas fuentes de datos se integran? ● Cuando se trata de integrar datos de una gran variedad de fuentes de datos, es necesario un gran esfuerzo previo de modelización antes de poder limpiar y cruzar la información de forma adecuada
  • 24. 24 / 42 ¿Cuántos pedidos hubo el último mes? No es lo mismo lo que diga el CMS que lo que diga Google Analytics. ● En este caso, una rectificación del pedido era un nuevo pedido para el CMS y no para Google Analytics
  • 25. 25 / 42 Errores del sistema Caídas de servidores, funcionamiento anómalo, datos que han quedado huérfanos o duplicados, etc.
  • 26. 26 / 42 ¿Y que podemos hacer para mejorar la calidad de los datos?
  • 27. 27 / 42 Para mejorar algo, primero hay que medirlo ● Extrae los últimos 100 registros creados o editados en una hoja de cálculo. Deja sólo los 10-15 campos críticos de cada registro. ● Reúnete 1h-2h con 2-3 personas más que conozcan los datos. ● Registro por registro, se marcan los errores evidentes en rojo. (Ej: Un nombre mal escrito, columna incorrecta, formatos incorrectos, valores fuera de rango, datos falsos para evadir un control, etc) ● ¿El registro esta completamente correcto? SI/NO ● El KPI será el porcentaje de registros completamente correctos
  • 28. 28 / 42 Calcula tu propio KPI de gestión de calidad de datos
  • 29. 29 / 42 Una vez ya se ha usado el dato erróneo Ya está hecho el daño Puede implicar: ● Haber tomado decisiones en base a datos incorrectos. ● Pérdidas de tiempo. ● Devoluciones de pedidos. ● Instatisfacción o incluso pérdida del cliente. ● etc
  • 30. 30 / 42 Arreglar la mala calidad de los datos Un «cortafuegos» para reducir el riesgo de que se produzcan incidencias ● Reglas automáticas para limpiar, deduplicar, etc ● Equipo de validación y corrección de possibles errores detectados via Inteligencia Artificial o modelos probabilísticos
  • 31. 31 / 42 Prevención de errores en la introducción de datos Son la mayor fuente de datos erróneos ● Por ejemplo, por errores tipográficos o por equivocaciones al transcribir desde el teléfono o copiar del papel
  • 32. 32 / 42 Una opción, campos de confirmación
  • 33. 33 / 42 Otra opción, sugerencias
  • 34. 34 / 42 Priorizemos la prevención
  • 35. 35 / 42 1. Inventariado de los datos, acordar definiciones y requerimientos 2. Identifica las causas de la mala calidad de los datos 3. Diseña, desarrolla y ejecuta los procesos de mejora de calidad (limpieza, homologación, enriquecido...) 4. Monitoriza el progreso en la mejora de la calidad de los datos
  • 36. 36 / 42 Air France-KLM corrige más de 1 millón de registros cada mes ● Emails y teléfonos de los pasajeros ● Reconciliación de fuentes online y offline ● Recopilado y procesado de datos personales desde multiples fuentes para programas de fidelidad ● Hacer anónima información sensible para aquellos que no tengan acceso autorizado
  • 37. 37 / 42 Save The Children UK mejorando la calidad de los datos mejora la comunicación con sus socios y donantes ● Desduplicación de las importaciones de donaciones realizadas para evitar envíos multiples al mismo socio. ● Relacionar adecuadamente los datos de donantes y de socios. ● Poder unificar cartas postales para los habitantes de un mismo piso
  • 38. 38 / 42 Travis Perkins mejorando la calidad del catálogo de productos de su sitio web mejoró la conversión un 30% ● La información de producto no era consistente (distintos proveedores) ● Se realizó un proceso para estanderizar datos, campos y valores ya que aunque hubiera un equipo no llegaba a todo ● Detección probailística de duplicados y uso de barcodes ● Todo ello, resultó en un sitio web con información de producto más precisa y consistente
  • 39. 39 / 42 Amazon mejora de la calidad de los datos de su buscador para convertir el doble que sus competidores
  • 40. 40 / 42 ¿Y qué conseguimos mejorando la calidad de los datos?
  • 41. 41 / 42 Que los datos sean un activo para el negocio ● Tener un visión única de los datos. ● Enriquecidos desde distintas fuentes de datos de forma controlada. ● Ser operativamente solventes, para poder ofrecer datos completos y consistentes ● Trabajar estratégicamente, consiguiendo unos datos valiosos para su función. ● Cumplimiento normativo (Multas de 2% de facturación).
  • 42. 42 / 42 ¡Gracias! ¿Preguntas? Jordi Rosell (@jrosell) CTO en The ducks in a row jordi@thediar.com https://www.thediar.com/