24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi - Mary Arcia
1. Asegurando la Calidad del
Dato en mi Proyecto de BI
Mary Arcia
MCTS SQL Server
SQL PASS Venezuela
maryarcia@hotmail.com
Moderador: David Sanchez
2. Gracias a nuestros auspiciadores
Database Security as Easy as A-B-C
http://www.greensql.com
Hardcore Developer and IT
Training
http://www.pluralsight.com
SQL Server Performance
Try PlanExplorer today!
http://www.sqlsentry.com
3. Próximos SQL Saturday
6 de Diciembre de 2014
https://www.sqlsaturday.com/351/register.aspx
24 de Enero de 2015
https://www.sqlsaturday.com/346/register.aspx
18 de Abril de 2015
https://www.sqlsaturday.com/368/register.aspx
9 de Mayo de 2015
https://www.sqlsaturday.com/373/register.aspx
4. Capítulo Global PASS en Español
4
4
Reuniones semanales todos los miércoles a
las 12PM UTC-5 (Hora de Colombia)
https://www.facebook.com/SpanishPASSVC
5. 5
Asistencia Técnica
Si requiere asistencia
durante la sesión debe
usar la sección de
preguntas que esta en el
menú de la derecha.
Use el botón de Zoom
para ajustar su pantalla
al tamaño deseado
Escriba sus preguntas
en la sección de
preguntas que esta en el
menú de la derecha
6. Mary es Especialista de Business Intelligence en Grupo de Desarrollo GD,
Caracas, Venezuela
Lleva +12 años trabajando en proyectos de Business Intelligence y
Administracion de Bases de Datos.
Colaborador activo de eventos SQL Server para LATAM (IT Woman PASS
LATAM, 24 Horas de PASS en español)
Coordinador del Cápítulo de PASS en Venezuela.
7. 7
Agenda
o Qué es la Calidad del Dato
o Cinco estilos de BI que impactan la calidad del dato
o Procesos para asegurar la Calidad del Dato
o Qué es Data Quality Services
o Proyectos de Data Quality Services
7
9. Qué es calidad de datos
Se refiere a los procesos, técnicas, algoritmos y operaciones
encaminados a mejorar la calidad de los datos existentes en las
empresas y organizaciones.
9
Según el TDWI
Se define como la medida de correspondencia y exactitud
entre los datos de un sistema de información y su valor y
significado en el mundo real.
9
10. Etapas de Madurez de los datos
10
10
Conocimiento
Información
Datos
• Información
Consolidada para la
toma de decisiones
• Datos combinados y
agregados para
responder preguntas
sencillas del negocio
• Aplicaciones ERP, CRM
y otros sistemas que
guardan la
transaccionabilidad
Soporte a
Decisiones
estratégicas
Soporte a
Operativa
Del negocio
11. Problemas de la mala calidad de los datos
Calidad de Dato Problema Ejemplo
Formato Tenemos un formateo consistente
en los estándares?
11 11
Nro de teléfono:
(xxx)-xxx-xxxx,
58+ xxx.xxx.xx.xx, xxx-xxxx
Estandarización Son los elementos de dato
definidos y se comprenden sus
valores?
Código de Género:
M, F, U,
0, 1, 2
Consistencia Representan los valores lo mismo?
Tienen el mismo significado?
Consumos representados en
Bs, $, reales o pesos
Completitud Se encuentra completa toda la data
que necesitamos?
20% de los apellidos de los
clientes están en blanco, 50%
de las direcciones no tienen
código postal
12. Problemas de la mala calidad de los datos (cont)
Calidad de Dato Problema Ejemplo
Exactitud Representa la data la realidad
exacta? Son las fuentes
verificables?
12 12
Los clientes no se encuentran
en las direcciones registradas.
Los proveedores listados como
activos no lo están desde hace
6 años
Validez Se encuentran los valores entre los
rangos aceptables?
Los límites de crédito de los
clientes no corresponden a su
perfil
Duplicidad Los datos aparecen varias veces? Los clientes Maria Alejandra
Pérez y Marialejandra Pérez
son lo mismo
13. Características de nuestros sistemas de BI …
o Datos extraídos de sistemas y aplicaciones dispares.
o Único punto de consulta o reporting en la organización.
o Información correcta expresada de otra forma.
o Reflejo de la realidad de lo que está pasando en la empresa.
13
13
14. Implementaciones comunes en BI y sus requisitos de
calidad de datos
o Cuadros de Mando y Tablas de Resultados
14
o Reporting Empresarial
o Análisis de Cubos OLAP
o Análisis Avanzado-Predictivo
o Notificaciones y Alertas
14
15. Por qué prestar atención a la calidad de los datos?
o Los datos necesitan estar accesibles y ser agregados para poder
consumirse por el BI.
Independientemente del formato donde sea que el usuario los necesite
o Las acciones que los usuarios emprenden están influenciadas por la
precisión de los datos en los informes.
o La confianza en los datos es un aspecto crítico entre los equipos de IT y los
usuarios de BI
La confianza debe ganarse y los datos no son la excepción
15
15
16. Por qué prestar atención a la calidad de los datos? (Cont)
o Los conocimientos empresariales obtenidos a través del BI se convierten en
16
útiles con mayor rapidez.
o Los directivos, responsables y usuarios de negocio pueden actuar
inmediatamente ante nuevos patrones y tendencias con una granularidad y
precisión mas elevada.
o Identificar sobrecostes y oportunidades para ahorrar y reducir gastos.
o Se incrementa la auditabilidad y visibilidad del dato para futuras revisiones y
monitoreo.
o El ROI sobre el BI es directo e inmediato.
16
17. Qué podemos hacer para asegurar la calidad de los datos
17
Monitorear la calidad
de los datos vs los
objetivos
17
1. Descubrir
2. Perfilar
3. Limpiar
4. Match
6.
Monitorizar
5. Consolidar
Identificar y medir la calidad de los datos
Definir reglas y objetivos
de la calidad de los datos
Diseñar los procesos de
mejora de la calidad de los
datos
Matcheo de información y
estadísticas
Implementar los
procesos de mejora
de calidad
20. Qué es Data Quality Services
Data Quality Services (DQS) es una solución
basada en el conocimiento de la calidad de datos
que permite a los administradores de datos y
profesionales de IT la mejora de la calidad de sus
datos fácilmente.
20
20
21. En qué nos apoya Data Quality Services?
Conocimiento
Limpieza
Consolidación
Aporte de Valor
21 21
22. Arquitectura Básica de DQS
CLIENTE SERVIDOR
Data Quality Services Client
Componente Integration
Services
22 22
DQS_MAIN
DQS_PROJECT
DQS_STAGING
27. Proyectos de Matching
Creación de
Reglas
Matching Exportación
Política de
comportamiento del
motor DQS
Lógica Difusa
Agrega Metadatos
27 27
Datos que quedan en el
modelo
SQL Server, Excel, DQS
28. Proyectos de Cleansing
Limpieza de
datos
Información
Extra
28 28
Base de
Conocimiento
en la Nube
Partiendo de la Base
de Conocimiento
Sobre las decisiones
que toma Consumir datos
30. Resumen
o Qué es la calidad de los datos
o Implementaciones de BI y sus requisitos de calidad de datos
o Qué es Data Quality Services
o Desarrollo de Bases de Conocmiento
o Proyectos de Data Quality Services
30
30
31. Conclusiones
o Al adoptar un enfoque de calidad de datos en toda la empresa, los estrategas y arquitectos
de la solución de BI pueden diseñar e implementar estilos de BI con mucha mayor
confianza.
o Data Quality Services es una herramienta que permite velar por la integridad de los datos
basada en una base de conocimiento diseñada a partir de valores y reglas de negocio y con
el propósito de conseguir datos de mayor calidad de una manera fácil e intuitiva para el
trabajo en conjunto entre equipo de IT y usuarios de negocio.
o El despliegue exitoso de la calidad de datos ayuda a una organización a maximizar los
retornos sobre sus inversiones de BI, mediante la mejora de su capacidad para aprovechar
el BI impulsando la ventaja competitiva y el liderazgo de mercado.
31
31
La falta de calidad de los datos es uno de los principales problemas a los que se enfrentan los responsables de sistemas de información y las empresas en general, pues representa claramente uno de los problemas "ocultos" más graves y persistentes en cualquier organización.
En efecto, una buena calidad de datos es el activo corporativo más potente, ya que permite acelerar el crecimiento y administrar de mejor manera los costos y las iniciativas para obtener mejores rentabilidades.
Calidad de datos se refiere a los procesos, técnicas, algoritmos y operaciones encaminados a mejorar la calidad de los datos existentes en empresas y organismos.
Cuando decimos si un dato tiene calidad o no, nos referimos a lo útil que es ese dato para una aplicación en concreto o para un usuario. Si el dato responde a nuestras preguntas podemos decir que el dato es adecuado o de calidad para nosotros
Generalmente cuando hablamos de calidad de los datos, nos referimos al mejoramiento de la calidad de los datos de personas, ya que éstos probablemente son los datos que más tienden a degradarse y cuya falta de calidad más impacta en la productividad de las organizaciones.
Un dato puede ser muy válido para un uso pero puede no servir de nada para otro.
Según el TDWI., la calidad de los datos se define como la medida de correspondencia y exactitud entre los datos de un sistema de información y su valor y significado en el mundo real. La premisa fundamental es: “Si los datos son la materia prima con la cual creamos la Información; entonces la confiabilidad de la información depende directamente de la calidad de los datos utilizados para producirla”
---------------------
Según lo que plantea la norma ISO 9000: 2000, la calidad se podría definir como “el grado en el que un conjunto de características inherentes cumple con los requisitos, esto es, con la necesidad o expectativa establecida, generalmente implícita u obligatoria".
Los problemas de calidad de datos existen, en diferentes medidas, en todas las organizaciones. Por lo general la baja calidad de datos obedece, no a una mala gestión, sino a la ejecución normal de los procesos asociados con el manejo de información en la organización.
Los datos ingresan a nuestras organizaciones a través de las aplicaciones, los cuales guardan la transaccionalidad de la empresa y por sí solos arrojan luces de lo que ocurre en la realidad del negocio. Estos datos combinados y agregados proporcionan información que puede responder a preguntas sencillas del negocio. Ejemplos ()
Cuando esta información es consolidada es utilizada para el apoyo en la toma de decisiones estratégicas y se usa para revelar tendencias, concer patrones de comportamiento en ventas, etc. Es el momento clave para la organización en las decisiones estratégicas que tomen
Datos e Información dan soporte a la operativa de negocio
Información y Conocimiento dan soporte a las decisiones del negocio.
.xx
En la operación diaria de cada negocio, a cada minuto se toman decisiones, la mayoría de éstas en base a información del negocio, mientras más utilizamos esta información disponible y menos la intuición, más seguros podemos estar de tomar la decisión acertada.
Es aquí donde surgen las dudas ¿Es una fuente única con la que todos en la compañía tomamos una decisión? , ¿Existe un sistema formal que apoye el proceso de toma de decisiones en la empresa? ¿Existen otras fuentes de información disponibles para validar las existencias de inventarios, los precios de los productos, los pedidos de los clientes, los gastos de un centro de costos, las ventas netas de la compañía?
El primer paso para tener una administración basada en información es tener una sola fuente o un único punto de consulta o reporting. Una vez logrado esto, debemos asegurarnos que esta fuente única de información tenga la información correcta, expresado de otra forma, que la información de nuestro sistema refleje la realidad de lo que está pasando en la empresa. Es aquí donde toman parte los procesos de calidad de datos.
Muchas organizaciones consideran que la calidad de datos es una de las principales cuestiones que afectan al
análisis y soporte para la toma de decisiones. Por un lado, la proliferación del BI, con datos extraídos de
sistemas y aplicaciones dispares, puede empeorar la calidad de los datos y provocar una pérdida de confianza
en el reporting BI.
A continuación se exponen los cinco estilos de BI que intentan dar respuesta a los crecientes requisitos que debe cumplir una organización y al creciente nivel de actividades de misión crítica. Cada uno de estos estilos tiene su propio conjunto de requisitos de calidad de datos.
Cuadros de Mando y Tablas de Resultados
Consumir y actuar rápidamente sobre datos completos en los indicadores de cuadros de mando.
Lograr una visión integrada utilizando datos estandarizados.
Profundizar para ver datos precisos sobre el rendimiento a nivel grupal e individual.
Reporting Empresarial
Navegar en múltiples informes e imprimirlos en múltiples formularios que agreguen datos de fuentes dispares.
Seleccionar una variedad de parámetros y personalizar informes con datos normalizados.
Permitir que los usuarios de negocio creen sus propios informes con datos de alta fidelidad.
Reducir comprobaciones y auditorias manuales con datos limpios y comparados para la gestión de la copnformidad.
Análisis de cubos OLAP
Recortar conjuntos interrelacionados de datos o “cubos” interactivamente y “al vuelo” con datos bien formateados y conformes .
Navegar por cualquier dimensión para una investigación profunda con completo acceso a los datos “target”.
Realizar análisis oportunos dirigidos por el usuario con datos correctos en múltiples dimensiones..
Análisis avanzado-predictivo
Buscar patrones y formatos de datos predictivos por formatos de datos estandarizados.
Lograr confianza en el hallazgo de tendencias interdependientes y resultados esperados.
Emplear regresión de múltiples variantes y otras técnicas sobre datos precisos.
Probar hipótesis con datos certificados.
Notificaciones y Alertas
Distribuir alertas a un amplio rango de puntos de usuario desde cualquier fuente de datos.
Mitigar el riesgo de distribuir alertas y notificaciones incorrectas con una calidad de datos predefinida y aprobada.
Aprovechar los datos autentificados para la personalización del contenido y la filiación de grupos.
Permitir dedencadenar alertas en tiempo real cuando múltiples datos de eventos cumplen umbrales específicos.
La amplia adopción del BI en todos los niveles de la organización ha propiciado que el BI avanzase más allá de las tradicionales funciones de query,
reporting analítico y procesamiento analítico online (OLAP), para incluir ahora cuadros de mando
operacionales, tablas de resultados personalizables y avanzadas técnicas de visualización.
Desde la perspectiva de la cadena de suministro de la información, esto implica que los datos necesitan estar
accesibles y ser agregados y racionalizados para poder consumirse por el BI, independientemente
del formato, donde sea que el usuario lo necesite. Y, cada día, la apuesta es más alta.
Frente a las tradicionales aplicaciones de BI centradas en las queries y las analíticas, muchos
nuevos usuarios de BI se centran en las decisiones operacionales y las consiguientes acciones. Esto
significa que toda acción que los usuarios emprenden basándose en la fortaleza de los informes y
las alertas está influida por la precisión de los datos utilizados para los informes, así como por la
capacidad que los usuarios tengan para confiar en estos datos. ¿Con qué frecuencia nos parecen
los datos raros o poco fiables cuando vemos los informes BI? Esta inquietante sensación, esté o no
justificada, provoca retrasos e incluso paraliza las acciones necesarias que resultan críticas para el
negocionales, tablas de resultados personalizables y avanzadas técnicas de visualización.
Si los datos están incompletos, son imprecisos o están llenos de duplicidades,
todo el sistema de confianza estará debilitado y la gente será reacia a utilizar sus herramientas de
BI. Pero más allá de la obvia limpieza y comparación de los datos está la red de confianza que debe construirse alrededor del data warehouse, los almacenes operacionales y otros sistemas y aplicaciones que generan una corriente continua de datos por toda la empresa. Por esta razón, un creciente número de organizaciones están emprendiendo iniciativas de calidad de datos como principio central de sus iniciativas de BI en la empresa.
La capacidad para perfilar, limpiar y suministrar todo tipo de datos con altos niveles de calidad en todo momento, independientemente de los volúmenes y complejidad de los datos, está en la base del éxito de BI. Y la recompensa es directa y muy alta.
Con una buena calidad de datos, los conocimientos empresariales obtenidos a través del BI se convierten en útiles con mayor rapidez (con frecuencia, con mucha mayor rapidez). Al incrementar la confianza en los datos, los directivos, responsables y usuarios de negocio pueden reconocer y actuar inmediatamente ante nuevos patrones y tendencias, así como ante los signos de peligro para el negocio, con una granularidad y precisión más elevadas. Identificar los sobrecostes y otras oportunidades para reducir gastos y ahorrar pueden ser resultados directos de la capacidad de los usuarios de negocio al utilizar datos precisos y verificables procedentes del reporting y las alertas. Y la gestión de la calidad de datos de punto a punto incrementa también la auditabilidad y la visibilidad
del reporting de BI, un aspecto especialmente valioso para los propósitos de conformidad y gestión de riesgos.
Un despliegue exitoso
de Business Intelligence (BI) puede ayudar a valorar la salud de una organización, establecer los
indicadores de rendimiento oportunos y monitorizar las operaciones del día a día con un ojo puesto
en el crecimiento global. Por consiguiente, la demanda de datos precisos para realizar las tareas de
BI continúa creciendo tanto en el lado de la demanda como en el del suministro de información.