Servicios de Calidad de Datos Empresariales con Data Quality Service "Denali"
1. Servicios de Calidad de Datos
Empresariales con Data Quality Services
"Denali"
José Redondo
Chapter Leader – SQL PASS Venezuela
www.sqlpass.org.ve
Correo: redondoj@gmail.com
Twitter: @redondoj
2. AGENDA
• Introducción
• Características
• Arquitectura
• Instalación y Configuración
• Base de conocimiento ‘Knowledge Base’
• Proyecto de Calidad de Datos ‘Data Quality
Project’
• Demos
• Preguntas
3. INTRODUCCIÓN
• ¿Qué es Calidad de Datos?
– El grado en que los datos de una entidad están aptos para usos
comerciales.
– Se pueden definir, medir y administrar a través de varias
Dimensiones y Métricas.
• Precisión
• Consistencia
• Integridad
• Duplicados
• Puntualidad
– Personas + Tecnología + Procesos.
4. INTRODUCCIÓN
• ¿Porqué es importante la Calidad de Datos?
– Es el fundamento de todo negocio.
– La deficiencia tiene un impacto negativo y significativo
en las iniciativas empresariales mas estratégicas del
negocio.
– Mala información = (Tiempo extra * (Perdida de
credibilidad + Insatisfacción de los clientes)) /
Problemas de incumplimiento + Malos ingresos.
5. INTRODUCCIÓN
¿Problemas comunes de Calidad de Datos?
Calidad de
Problemática Ejemplo
Datos
Estandarización Son elementos de datos coherentemente Tipo Sexo:
definidos y entendidos? • M, F, I en un sistema.
• 0, 1, 2 en otro sistema.
Formateo Qué normativa estándar llevan los Número de teléfono pueden aparecer como:
siguientes datos? • 02129999999
• (212)-9999999
• +58 212 9999999
Consistentes Los valores representan el mismo Los montos se presentan en Bolívares Fuertes así como
significado? en Euros o en Dólares?
Afinamiento Es necesario mostrar todos los datos? • 20% de los apellidos de los clientes están en blanco.
• 50% de los códigos postales son 999999.
Exactitud Los datos se muestran con exactitud real o Un proveedor esta en el sistema como “Activo” pero dejo
proviene de una fuente verificable? de estar operativo desde hacen 6 años.
Validación Qué significan los valores que se Los montos salariales deben rondar entre BsF. 26,000 a
encuentran dentro de rangos aceptables? BsF. 35,000.
Unicidad Los datos son repetidos? Tanto Alba Rivero como Alma Rivero aparecen en el
sistema. ¿Son la misma persona?
6. INTRODUCCIÓN
Requerimientos de una solución de Calidad de Datos.
Monitoreo Limpieza
Seguimiento y monitoreo del Modificar, eliminar y
estados de las actividades de enriquecer los datos
Calidad de Datos. incorrectos o incompletos.
Esto incluye la corrección, la
estandarización y
enriquecimiento de los datos.
Perfilamiento Coincidencia
Análisis de la fuente de datos Identificando, enlazando y
para dar una idea del estado combinando las entradas
de los datos y ayudar a relacionadas dentro o a
identificar problemas de través de los conjuntos de
Calidad de Datos.. datos..
7. INTRODUCCIÓN
• ¿Qué es Data Quality Services “DQS”?
– Es una solución enfocada:
• Conocimiento.
• Data Quality Knowledge Base - "DQKB“.
– Limpieza de datos.
– Coincidentes.
– El concepto principal:
• Rápido.
• Fácil de implementar.
• Fácil de usar.
8. INTRODUCCIÓN
• ¿Qué es Data Quality Knowledge Base “DQKB”?
– Es el núcleo de DQS.
– Almacena todos los conocimientos.
• Tipo específico de orígenes.
• Fuentes de datos.
– Componentes:
• Orígenes de datos.
• Dominios de datos.
– Almacena:
• Términos identificados.
• Errores de ortografía.
• Reglas de validación y de negocios.
• Datos de referencia.
10. CARACTERÍSTICAS
• Gestión del conocimiento.
– Descubrir el conocimiento.
– Administración de dominios.
– Políticas de combinación.
– Servicios de referencias.
11. CARACTERÍSTICAS
• Proyectos de calidad de datos.
– Limpieza y depuración.
– Coincidencias y deduplicación.
– Perfiles y notificaciones.
13. CARACTERÍSTICAS
Hacer accesible datos de calidad para todos.
– Mejorar la calidad de los datos con DQS.
• Limpiar los datos y mantenerlos limpios.
• Fomentar la confianza en los datos de la empresa.
• Compartir la responsabilidad de la calidad de los
datos.
– Eliminar las barreras para la calidad de los datos.
• Diseñado para su facilidad de uso.
• Capacitar a los usuarios de negocio.
• Ver los resultados en minutos en lugar de meses.
14. CARACTERÍSTICAS
Administración del conocimiento
Creación
Datos de
referencia Descubrir / Explorar datos / Conectar
Datos
empresariales
Perfilamiento
Base de
Notificaciones Conocimiento
Use
Procesos de DQS Proyecto de Calidad de Datos
15. ARQUITECTURA
DQS se conforma por los siguientes componentes:
– Servidor DQS.
– Cliente DQS.
Servicios externos:
– Servicios de la nube de DQS.
– Servicios de terceros.
17. ARQUITECTURA
Servidor DQS
API de Servicios RD API de Referencia de Datos
Servidor DQ (Browse, Set, Validate…) (Browse, Get, Update…)
Motor DQ
Perfilamiento de Limpieza
Descubriendo el
Datos
Datos & Referenciados
Conocimiento Exploración
Coincidencias
Almacén de Proyectos DQ Almacén Común de Conocimiento Almacén de Base de
Conocimiento
Base de
Dominios de Dominio de Conocimiento
Proyectos Activos DQ Datos MS Datos Locales Publicada
18. ARQUITECTURA
Cliente DQS
Cliente DQ
Interfaz gráfica DQS
Descubriendo y
Administrando el
Conocimiento
Clientes futuros:
Componente MS Office Excel,
DQ SSIS MS SharePoint, etc.
Proyecto DQ Interactivo
Exploración de Datos
20. ARQUITECTURA
Servicios de la nube de DQS
MS Windows Azure Marketplace DataMarket
Servicio de Referencias de Referencias de Datos Almacén de Dominios de
Datos Categorizados Categorizados MS DQ
29. INSTALACIÓN Y CONFIGURACIÓN
• Tareas Post Instalación
– Habilitar el rol de usuario DQS.
– Habilitar permisos en la base de datos
Origen / Destino.
– Habilitar el protocolo TCP-IP para acceso
remoto.
38. BASE DE CONOCIMIENTO
Valores
Composición
de Dominios
Representación
de Dominios de
los tipos de
datos
Datos de Base de
Referencias Reglas
de 3ras &
Dominios Conocimiento
partes Relaciones
Políticas de
Coincidencias
39. PROYECTO DE CALIDAD DE DATOS
• Limpieza de datos.
• Componente SSIS.
• Coincidencia de datos.
40.
41. RESUMEN
Basado en el Facil de usar Abierto &
Conocimiento Extensible
• Base de Conocimiento • Enfocado a la productividad • Enfocado a la
enriquecida. y experiencia del usuario. referencialidad de los datos
• Continua mejoras y • Diseñado para usuarios basados en la nube.
adquisición de empresariales. • Creado por usuarios de
conocimiento. • Externo a un criterio de conocimiento.
• Una vez creada, se conocimiento. • Integración con SSIS
incrementa su uso.