Introducción a Data Quality: Qué es, Por qué, Conceptos, Beneficios de Data Quality
Data Quality & Business Intelligence:
Pilares del BI
Integración de datos
Mejores prácticas
Opensource & Data Quality:
Data Quality & Pentaho (PDI)
PDI / ETLs / Integridad / Validación
Data Cleaner
Integración Data Cleaner y PDI
Data Integration & Data Quality Open Source (spanish)
1. Data Integration & Data QualityData Integration & Data Quality
Your open source based BI solution!!
by
2. Introducción a Data Quality
Qué es
Por qué
Conceptos
Beneficios de Data Quality
Data Quality & Business Intelligence
Pilares del BI
Integración de datos
Mejores prácticas
Opensource & Data Quality
Data Quality & Pentaho (PDI)
PDI / ETLs / Integridad / Validación
Data Cleaner
Integración Data Cleaner y PDI
Índice
5. Introducción a Data QualityIntroducción a Data Quality
http://optimizeyourdataquality.wordpress.com/
6. Introducción
¿Qué es Data Quality?¿Qué es Data Quality?
Definición no estándar
“Proceso constante de percepción o evaluación
del grado de conveniencia de los datos que
sirven para un propósito en un determinado
contexto”
Búsqueda de atributos en los datos:
Precisión
Fidelidad
Integridad
Relevancia
http://unitar.org
9. Gobernanza de datos
Toma de decisiones
mejor y más rápida
Crítico disponer de
datos de calidad
Introducción
Fundamental realizar tareas de Data Quality en los
procesos de integración de datos
10. Beneficios de Data QualityBeneficios de Data Quality
Introducción
Segmentación de clientes adecuada Satisfacción de clientes
Evita tratar información errónea Reducción de costes
Mayor confianza y valor de la información
Mejor eficacia en los procesos de negocio Incremento en los
ingresos
12. ¿Qué es Business Intelligence?
(BI)
Habilidad para transformar
datos en información,
información en conocimiento y
optimizar el proceso de toma
de decisiones en los negocios
Data Quality & Business Intelligence
Herramientas Visuales para un
Análisis óptimo y sencillo
Datos robustos y confiables
Pilares del Business IntelligencePilares del Business Intelligence
Procesos involucrados:
•Integración de datos
•Explotación de información
13. Integración de datosIntegración de datos
Clave para cualquier proyecto BI
ETL = Extract, Transform and Load
Proceso para mover datos de diferentes fuentes, tratarlos y
cargarlos en bases de datos unificadas: data warehouse / data
marts.
Data Quality & Business Intelligence
Tareas principales:
Extraer datos de múltiples fuentes
Aplicar calidad y consistencia (limpiar) a los datos
Conformar (unificar) los datos
Cargar los datos en un DW
http://blog.bootstraptoday.com
CRM
ERP
BPM
CMS
14. Data Quality & Business Intelligence
DESAFÍOS:
Fuentes heterogéneas
Grandes volúmenes de datos
Mejorar eficiencia operativa
Sincronismo de las fuentes
Escalabilidad
Integración de datos y Data Quality muy relacionadosIntegración de datos y Data Quality muy relacionados
Integración de datosIntegración de datos
15. El Proceso de Data Quality puede realizarse de forma:
Manual Consultas ad-hoc, búsqueda en ficheros, etc…
Automatizada Incluido en el proceso de integración de datos
Son métodos complementarios, aunque:
Tareas de Data Quality como parte del proceso de Integración de Datos (ETL)Tareas de Data Quality como parte del proceso de Integración de Datos (ETL)
Data Quality & Business Intelligence
Integración de datosIntegración de datos
16. Mejores prácticas en ETLMejores prácticas en ETL
Centralizar procedimientos: asegura la homogeneidad y coherencia de
datos de diferentes fuentes.
Evitar redundancia de cálculos: si un dato está calculado en origen, no
volver a calcularlo. Mejora el rendimiento y evita posibles inconsistencias.
Establecer puntos de “control de calidad”: asegura la ejecución en puntos
clave del proceso y permite registrar información de seguimiento para
futuras auditorías.
Implementar procesos de recarga de la información: útiles ante posibles
errores de carga inicial.
Utilizar estructuras intermedias: facilita la monitorización y seguimiento del
proceso.
Data Quality & Business Intelligence
17. Mejores prácticas en ETLMejores prácticas en ETL
Data Quality & Business Intelligence
Procesos centralizados
y estandarizados
Puntos de control y registro
Estructuras intermedias
Aplicar filosofía BI al
proceso de calidad de
datos
Explotar y analizar
resultados de Data Quality
Permite
19. Herramientas ETL y Data QualityHerramientas ETL y Data Quality
Pentaho Data Integration
Talend Open Studio
DataCleaner
Talend Data Quality
Google Refine
Opensource & Data Quality
Algunas Soluciones Data Quality Opensource:
Principales Soluciones ETL Opensource
20. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
Herramienta ETL intuitiva basada en trabajos y transformaciones
Libertad para decidir dónde y cómo realizar tareas de: profiling, cleansing,
integrity, validation; en base a metadatos.
Disponibilidad en transformaciones de componentes orientados a Data
Quality:
No es herramienta pura de profiling, pero se puede integrar DataCleaner
Arquitectura de Plug-in que permite expandir sus funcionalidades.
Opensource & Data Quality
21. Opensource & Data Quality
Variedad de componentes:
Limpieza
Scripting (sql, javascript)
Validación
Estadísticas
Etc…
Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
22. Data Quality & Pentaho Data IntegrationData Quality & Pentaho Data Integration
Opensource & Data Quality
Importante buen diseño de ETL distribuido en fases:
1. Preparación del proceso
2. Recepción de datos
3. Procesamiento de datos
4. Carga final
5. Informes de resultados
6. Control de actividades transversal
Este planteamiento permite:
Estandarizar los procesos en una organización
Escalar mejor al incrementar el número de fuentes
Controlar de forma centralizada los resultados de los procesos
23. Data CleanerData Cleaner
Opensource & Data Quality
Herramienta de Profiling recomendada por Pentaho
Alternativas de uso:
Herramienta de escritorio
Herramienta web
Plugin para PDI
24. Data Cleaner DesktopData Cleaner Desktop
Opensource & Data Quality
Funcionalidades:
Limpieza de datos
Definición de
diccionarios de datos
Búsqueda de patrones,
duplicados, nulos, etc.
Monitorización
Estadísticas de
resultados completa
Etc.
25. Data Cleaner Monitor (web)Data Cleaner Monitor (web)
Opensource & Data Quality
Funcionalidades:
Monitorización
centralizada
Visualización elegante
Programación de
trabajos Data Cleaner y
PDI
Definición de métricas
propias
Etc.
26. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI
Opensource & Data Quality
Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso:
Opción A Hacer profiling de los datos resultantes de un paso PDI
27. Integración Data Cleaner / PDIIntegración Data Cleaner / PDI
Opensource & Data Quality
Al instalar el plugin de Data Cleaner para PDI, existen dos posibles uso:
Opción B Ejecutar un trabajo de Data Cleaner
28. Referencias
International Association for Information and Data
Quality:
http://iaidq.org/
Pentaho Data Integration:
http://www.pentaho.com/explore/pentaho-data-integration/
Data Cleaner:
http://datacleaner.org/
Data Profiling: proceso de examinar los datos que existen en las fuentes de origen y recopilar estadísticas e información sobre los mismos. Data Cleansing: proceso de detectar y corregir datos corruptos, incoherentes o erróneos. Data Integrity: proceso de analizar la consistencia de los datos y las relaciones entre los diferentes conjuntos de datos. Data Validation: proceso de aplicar reglas de validación a los datos basándose en diccionarios de datos y/o reglas de negocio. Master Data Management: conjunto de procesos, políticas, estándares y herramientas que sirven para gestionar Datos Maestros de una organización (normalmente información no transaccional). Data Auditing: proceso de gestionar cómo los datos se ajustan a los propósitos definidos por la organización. Es necesario establecer las políticas necesarias. Actuar + Vigilar. Data Governance: concepto que engloba a todos los procesos anteriores y que permite a una organización disponer de una información confiable.