El aseguramiento de la calidad de datos es el proceso que más demanda tiempo, gente y dinero dentro de nuestros proyectos de BI. Entendiendo el efecto clave en el proceso de la toma de decisiones que genera el” business intelligence”, no puede tratarse la calidad de los datos como un proceso tardío. En esta sesión vamos a conocer cómo tras una metodología de calidad de datos, los servicios de Data Quality Services de Microsoft SQL Server nos ayuda en este proceso de ahorrar tiempo y garantizar datos sanos y correctos para nuestros sistemas de BI.
Asegurando la calidad del dato en mi entorno de business intelligence
1. Asegurando la Calidad del Dato en
nuestros entornos de BI
Mary Arcia
SQL PASS Venezuela
maryarcia@outlook.com
@maryarcia
https://ve.linkedin.com/pub/mary-arcia/
Blog: geeks.ms/blogs/marcia
MCTS SQL Server 2005/2008
4. AGENDA
Introducción a la calidad de datos
Calidad de datos en Poyectos de BI
Metodología de Calidad de Datos en BI
Capacidades de Data Quality Services
Proyectos de Data Quality Services
Preguntas
4 |
5. Qué es Calidad de Datos?
Algunos problemas
5 |
Nuestros envíos postales
tienen un grado de
devolución muy alto.
Los datos de ventas
no me cuadran.
El sistema está
maloMuchas personas
Muchas verdades
6. Por qué necesito calidad de datos?
Imprescindible para una toma de decisiones
correcta.
Pieza básica en la gestión de información
corporativa.
Impacto directo en el negocio.
ROI inmediato.
6 |
“Si los datos son la materia prima con la cual creamos
la Información; entonces la confiabilidad de la
información depende directamente de la calidad de los
datos utilizados para producirla”
8. A Quién afecta la falta de calidad de datos
Áreas Productivas del Negocio
8 |
Ventas no dispone de información correcta.
Marketing realiza segmentaciones erróneas,
campañas no eficientes.
Dirección toma decisiones basándose en
información errónea.
Atención al Cliente sufre y es causante a la vez de
la mala calidad de los datos.
Tecnología toma tiempos muy largos para la
culminación de los proyectos (Time To Market).
9. A quién afecta la falta de calidad….
Todo es Dinero….
9 |as
Baja la rentabilidad del negocio
Pérdida de clientes. Segmentación
Poco control sobre el gasto
Análisis de fraude limitado
10. Qué nos resuelve calidad de datos
10 |
Ahorra dinero.
Aumenta Ventas
Aumenta
rentabilidad del
negocio
11. Impacto en Múltiples Proyectos
En BI buenos datos….buenas decisiones
11 |
Análisis predictivo
MDM (visión única del cliente/proveedor/producto)
Migraciones: Sistema nuevo con datos buenos
(Garbage In/Garbage Out)
Cumplimiento de normativas y leyes
Gestión del CRM, ERP , etc.
12. Ciclo de Vida en la Calidad de los datos
12 |
1.
Descubrir
2. Perfilar
3. Limpiar
4. Match
5.
Consolidar
6.
Monitorizar
Identificar y medir la calidad de los datos
Definir reglas y
objetivos
de la calidad
de los datos
Diseñar los procesos
de mejora de la
calidad de los datos
Matcheo de información y estadísticas
Implementar
los procesos
de mejora
de calidad
Monitorear
la calidad de
los datos
vs los objetivos
13. Dimensiones de la calidad de datos
Dimensión Qué mide?
Perfilado de
columna
Cuáles son las caracteríticas físicas de los datos?
Relación Qué relación existe entre grupos de datos?
Redundancia Es un dato redundante?
Existencia Qué dato falta o no nos es útil?
Conformidad Qué dato está almacenado en formato no estándar?
Consistencia Qué datos aportan información no conflictiva?
Precisión Qué datos son incorrectos o están caducados?
Duplicados Qué datos o atributos están repetidos?
Integridad Qué información no está referenciada?
Rango Qué resultados, cálculos, valores están fuera de
rango?
13 |
14. Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Existencia
Existencia
Existencia
Existencia Tenemos todos los datos completos?
15. Dimensiones de calidad de datos
Ejemplo: Maestra de ClientesConformidad
Conformidad El dato tiene un formato correcto?
Conformidad
Conformidad
Conformidad
Conformidad
16. Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Consistencia
Consistencia El dato tiene el formato correcto pero rompe las reglas de negocio
Consistencia
Consistencia
17. Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Duplicidad Los datos aparecen varias veces? Coincidencia difusa
Duplicidad
Duplicidad
18. Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Integridad Las relaciones del dato son consistentes?
Integridad
19. Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Rango Se encuentran los valores entre rangos aceptables?
Rango
Rango
20. Dimensiones de calidad de datos
Ejemplo: Maestra de Clientes
Precisión El dato representa la realidad exacta? Son las fuentes verificables?
Precisión
Precisión
22. Qué es Data Quality Services?
Data Quality Services (DQS) es una
solución basada en el conocimiento
de la calidad de datos que permite a
los administradores de datos y
profesionales de IT la mejora de la
calidad de sus datos fácilmente.
23. En qué nos apoya Data Quality Services?
Conocimiento
Limpieza
Consolidación
Aporte de Valor
24. Arquitectura de DQS
CLIENTE
Data Quality Services
Client
Componente Integration
Services
SERVIDOR
DQS_MAIN
DQS_PROJECT
DQS_STAGING
25. Arquitectura de DQS
Dominios
Reglas de
matching
Dominios
Compuestos
Bases de
Conocimiento
Dominio
Reglas y
Relacion
es
Valores
Referencias
Externas
26. Base de Conocimiento
ENTIDAD
Tarjetahabientes
Apellidos y
Nombres
Nacionalidad
Nro. Tarjeta
Tipo Producto
Limite de Crédito
Atributos
DQKB_Tarjetahabiente
Dominios
Tipo de Producto
Límite de Crédito
Nacionalidad
6 dígitos dent
de un rango
Lista de
Valores y
correcciones
Lista de
Valores y
correcciones
28. Proyectos DQS
Proyectos de Cleansing
Limpieza de
Datos
Partiendo de la
Base de Conocimiento
Información
Extra
Sobre las decisiones
que toma
Base de
Conocimiento
en la nube
Consumir datos
29. Proyectos DQS
Proyectos de Matching
Creación de
Reglas
Política de comportamiento
del motor DQS
Matching
Lógica Difusa
Agrega Metadatos
Exportación
Datos que quedan
en el modelo
SQL Server, Excel, DQS
30. Ciclo de Vida de Proyectos BI sin DQ
Detectar
Orígenes
Información
Extra
Pruebas
de Carga
de Datos
Desarrollo
de
Informes
Pruebas y
cuadresUATAceptación
Final
31. Ciclo de Vida de Proyectos BI con DQ
Detectar
Orígenes
Información
Extra
Análisis de
Perfilado
de Datos
Procesos
de Carga
Enriqueci
miento y
Matching
UAT
Aceptación
Final
Monitorear
DQ
Pruebas y
cuadres
Desarrollo
de
Informes
32. Impacto de DQ en Proyectos de BI
Aumenta la rapidez de implementación
Menor Time To Market del Proyecto
Menor esfuerzo en la fase de pruebas y UAT
Mejora la calidad de la información decisiones
Genera origenes de datos de calidad para
Campañas
Mayor confianza y usabilidad de la aplicación
Mayor cumplimiento de expectativas y
obtención de mayor satisfacción.
33 |