SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
Introducción
“Para ser capaces de relacionar los problemas de la calidad de datos con su impacto en el negocio, tenemos que ser capaces de clasificar tanto
nuestras expectativas de calidad de datos, así como los criterios de impacto en la empresa.”
David Loshin
President of Knowledge Integrity, Inc.
Si nos detenemos a pensar un poco, el problema al que nos enfrentamos estos días (Integración de distintas fuentes, homologación y limpieza
de datos) es el resultado de la evolución natural de los sistemas.
¿Qué sucedía el principio? Cuando se inició la revolución informática en el mundo, lo que ocurrió, es que salieron múltiples compañías
ofreciendo sus soluciones propietarias, es decir, pensadas en solo solucionar un problema en específico (nominas, departamentos de finanzas,
RH, etc.) y sin la visión de compartir la información con otros sistemas. Al pasar el tiempo se vio la necesidad de compartir la información de las
diferentes fuentes con las que contaba una compañía.
Figura 1
Para resolver este tema, la solución fue generar conectores entre los diferentes sistemas, lo cual funcionaba de una manera limitada ya que
había que generar un conector por cada sistema con el cual se querían comunicar, provocando esto un difícil mantenimiento para soportar las
diferentes comunicaciones entre sistemas.
Figura II
Con esta conectividad nació el problema de comunicación entre los diferentes sistemas, es decir, como ya mencionamos, cada sistema tenía su
propio formato para almacenar la información, por lo que, al interactuar con otros sistemas, los desarrolladores se vieron forzados a homologar
y estandarizar dicha información por cada conector para poderla interpretarla y así se pudiera comunicar con las demás.
El siguiente paso en esta evolución fue buscar la manera de evitar múltiples conectores, buscando con esto la manera de tener todo
centralizado dando como resultado un mantenimiento más fácil; así nació la integración de la información.
Figura 3
Con esta integración también se logró la centralización de los procesos para limpieza y calidad de datos, dándole más forma y peso a estas
tecnologías. Un buen ejemplo de esto son los DataWareHouse, en donde tenemos que integrar, homologar, estandarizar y limpiar la información
(Data Quality) antes de poblar los modelos. Lo que nos lleva a nuestra siguiente pregunta.
¿Qué es la calidad de datos?
La calidad de datos se refiere a los procesos y técnicas enfocados a mejorar la eficacia de los datos existentes en nuestras bases de datos.
Para que un proceso de calidad de datos sea realmente eficaz, este deberá ser repetible y fácil de entender de manera que permita generar un
proceso que se vuelva un ciclo de mejora y que cada vez que sea ejecutado genere datos con mayor calidad.
Este proceso deberá de incluir perfilamiento, normalización, correspondencia (match) y consolidación, los cuales generarán reportes para dar
seguimiento a los progresos y permitir la mejora continua de la calidad de los datos.
Algunos de los beneficios de la calidad de datos son:
 Ahorrar costos directos: evitando tener información duplicada.
 Supervisar y limpiar de forma proactiva los datos de todas las aplicaciones, y mantener limpios esos datos.
 Permitir al negocio compartir la responsabilidad de la calidad y del gobierno de datos.
 Impulsar mejores resultados con unos datos empresariales fiables.
Proceso de la calidad de datos
Lo primero que necesitamos saber para implementar los procesos de limpieza y calidad de datos, es ¿Qué tan bien o mal están mis datos?, es
decir, debemos de tener un punto de partida (métrica), que me indique el estado de los datos que estoy utilizando. Para lograr esto, se lleva a
cabo un perfilamiento de los datos, el cual me indica cómo se encuentran estos y a partir de ahí, detectar que es lo que necesito corregir.
Para llevar a cabo estas correcciones, también debo de contar con unos parámetros de control que me ayuden a medir el avance en mis
procesos de calidad. Estos parámetros son conocidos como, las seis dimensiones de calidad de datos.
Las seis dimensiones de la calidad de datos
Estas son consideradas como los puntos clave que debe de cubrir la calidad de los datos, para asegurar nuestros procesos de limpieza y calidad;
dichos puntos se enumeran a continuación:
DIMENSIONES PARA LA CALIDAD DE DATOS
Completitud
En una tabla o conjunto de datos (dataset), ¿tenemos campos en blanco, o
fueron llenados con valores por default? ¿Los datos son utilizables? En
algunos casos, los datos que no están, son irrelevantes, pero cuando se
vuelven necesarios para un proceso del negocio, estos se vuelven críticos.
Conformidad Los datos que están en los campos de la tabla, ¿están en un formato estándar
y legible?
Consistencia Al hacer el cruce de información con los registros, ¿existe información
contradictoria?
DIMENSIONES PARA LA CALIDAD DE DATOS
Precisión / Exactitud Si los datos no son precisos, estos no pueden ser utilizados. Para detectar si
estos son precisos, se compara el dato con una fuente de referencia.
Duplicación ¿Tenemos la misma información en formatos iguales o similares dentro de la
tabla?
Integridad ¿Toda la información relevante de un registro está presente de forma que se
pueda utilizar?
El entendimiento de estas seis claves es el primer paso para la mejora de la calidad de datos. Ser capaz de separar los defectos de los datos
clasificándolos por estas dimensiones, nos permite aplicar las técnicas adecuadas para mejorar tanto la información como los procesos que
crean y manipulan la información.
ID Nombre_Cliente
Tipo_person
a
Ultima_fecha
_facturacion
Estatus
_client
e Direccion_1 Direccion_2 Direccion_3
541 Juan Luis Valdez Persona 23-Jan-12 Activo Av. Del Corral #45 Col. San Juan Monterrey, N.L.
542 IBM Empresa 11-Jul-12 Activo Periferico Sur 39 Int.41 Col. Chapultepec Mexico, D.F.
543 Andrea Sanchez Persona Activo Av. Hidalgo No. 129 Col. Chapulin Gdl.
544 Jose Luis Rosas Persona 23-May-12 Baja 24F Del. Juarez Taxco
545 Coca-Cola Corp. Empresa 6-Feb-13 Activo Juan Polainas 253 Col. Alta Mata Veracruz
546 Baby Crazy Persona 23-Mar-12 Activo Calle 4 No. 78 Del. Alvaro Obregon Mexico, D.F.
547 Emilio Contreras Chavez Empresa 18-Apr-12 Activo Av. Insurgentes 31 Col. Escutia Puebla
548 Felipe Calderon del Rio Persona 11-Jun-13 Activo C/O Juan de la Barrera Col. Pedrito San Luis
549
Maria del Corral de
Garduno Persona 30-Sep-12 Activo Av. 7 #428 Col. San Sergio
Chalco, Edo.
Mexico
550 OXXO Empresa 4-Oct-12 Activo
Paseo de la Reforma No.
32 Col. Cuahutemoc Mexico, D.F.
551 Karina Salgado Marmolejo Persona 3-Dec-12 Baja Tollocan 52 Diamante Acapulco, Guerrero
552 Julian Garduno Flores Persona 1-Feb-13 Activo Xochitecatl 295 Del. Xochimilco Mexico, D.F.
553 Juan Valdes Persona 23-Nov-12 Activo Av. Del Corral #45 Col. San Juan Monterrey, N.L.
Completitud: Falta la fecha para Andrea
Sanchez.
Conformidad: Las direcciones no estan de acuerdo a los
estandadres
Consistencia: Baby Crazy es empresa y Emilio contreras es
persona.
Duplicacion.
Integridad: Puede existir en la misma tabla o cruzando con otras, en este caso no se determnina que pueden ser familiarees.
Precision/ Exactitud: No siempre se obtiene de la misma tabla, se puede validar con catalogos.
Pasos a seguir
Perfilamiento
Como primer paso en la calidad de datos, se necesita generar un perfil acerca de los mismos, el cual ofrece una completa investigación del
contenido de cada uno de los datos del cliente que son críticos para la organización.
El objetivo es identificar los problemas que podrían impedir el correcto uso de los datos. El perfilamiento de los datos le permite a las
organizaciones responder los siguientes puntos sobre la información calve de sus datos.
¿Cuáles son los campos adecuados a utilizar para los procesos de coincidencia (mach)?
 ¿cuáles campos cuentan con la integridad suficiente? Ejemplo: si el campo edad es llenado o poblado el 25% de las veces, este no será
un campo con suficiente integridad.
 ¿Cuántos campos contienen valores válidos y coherentes o consistentes? Ejemplo: el campo que almacena la fecha de nacimiento puede
contener el 20% con el valor pre-establecido 01/01/1901
 ¿Qué procesos de estandarización/limpieza requiere cada campo para ser utilizados de forma correcta?
 ¿Cuáles reglas son eficaces? Ejemplo: campos incompletos o inválidos pueden ser utilizados en los diferentes procesos, pero se deben de
definir las reglas para que sean utilizados solo cuando la salida del proceso sea válida.
El perfilamiento consiste en aplicar algoritmos especializados para investigar el contenido de los diferentes tipos de campos:
• Perfiles de texto para nombre, dirección, correo electrónico y otros campos de texto libre.
• Perfiles de carácter para los campos de código de fecha, números de teléfono y otros.
• Contadores de frecuencia para valores definidos como: genero, ocupación, estado civil, etc.
Durante la fase de perfilamiento se debe de revisar que los valores utilizados sean reales o patrones de datos obtenidos en las tablas de
búsqueda (lookup). Los resultados obtenidos de esta fase serán una serie de reportes que identifican los problemas de calidad de datos para
cada atributo seleccionado.
Estandarización / normalización
El objetivo de la fase de normalización de un proceso de gestión de calidad de los datos es eliminar o etiquetar los problemas detectados antes
de pasar a la siguiente fase. En la fase de normalización cada uno de los campos clave se pasan a través de una serie de reglas definidas por el
usuario para eliminar inconsistencias y discordancias identificadas durante la etapa de perfilado de datos. La salida es una gama de nuevos
campos de datos que contienen datos normalizados y mejorados.
Durante la estandarización las tareas a realizar son:
 Eliminación de ruido, ejemplo: comentarios en campo de texto libre tales como “Dirección invalida”, los cuales podrían causar conflictos
en el procesamiento de datos.
 Análisis de datos; ejemplo, nombre, dirección, descripción.
 Estandarización de términos; ejemplo, la utilización de diccionarios para corregir faltas de ortografía comunes, o el uso de funciones
para estandarizar formatos como números telefónicos
 Obtener valores faltantes; ejemplo: obtener género a partir del nombre.
 Generación de indicadores de calidad de datos para su uso en las reglas de coincidencia (match); por ejemplo, registros con múltiples
valores incompletos o no válidos pueden ser marcados.
Los nuevos campos de datos creados durante la fase de normalización pueden ser utilizados únicamente para el proceso de coincidencia
(match). También se pueden escribir al archivo fuente original para remplazar los datos originales con baja calidad de datos.
Correspondencia/Match
La correspondencia o match, identifica aquellos registros equivalentes, duplicados y relacionados dentro de una tabla o conjunto de datos
(pueden ser más de dos tablas).
De la misma manera, se puede identificar los datos inexactos mediante la comparación del conjunto de datos actual con un conjunto de datos de
referencia.
La búsqueda de coincidencia de identidad se puede utilizar para los datos de identidad y es particularmente efectiva en los datos no
normalizados o sucios.
La búsqueda de coincidencias, se hace sobre uno o varios atributos. Por ejemplo, se busca la coincidencia de personas utilizando su nombre,
apellidos, fecha de nacimiento, teléfonos, etc. Estos elementos deberán de ser parte del atributo del elemento a buscar, en este caso, personas.
Consolidación
La consolidación es el último paso en el proceso de calidad de los datos a pesar de que su salida puede formar parte de la base de datos que se
utilizara para una iteración subsiguiente del ciclo de vida de calidad de los datos.
La consolidación de datos administra el proceso de integración o vinculación de registros duplicados o relacionados. Facilitando la consolidación
de los registros de una base de datos única o varias bases de datos. También se pueden añadir los datos consolidados a tablas de referencia o
sobrescribir datos inexactos.
http://sesa78.wordpress.com/

Más contenido relacionado

La actualidad más candente

El Gobierno de Datos está listo para mostrar su Atractivo [Data Governance is...
El Gobierno de Datos está listo para mostrar su Atractivo [Data Governance is...El Gobierno de Datos está listo para mostrar su Atractivo [Data Governance is...
El Gobierno de Datos está listo para mostrar su Atractivo [Data Governance is...Software Guru
 
1.1 Observación del comportamiento y del ambiente.
1.1 Observación del comportamiento y del ambiente.1.1 Observación del comportamiento y del ambiente.
1.1 Observación del comportamiento y del ambiente.Jesus González
 
Modelado de requisitos
Modelado de requisitosModelado de requisitos
Modelado de requisitosKleo Jorgee
 
Diagramas de paquetes
Diagramas de paquetesDiagramas de paquetes
Diagramas de paquetesMoises Cruz
 
109 Metodologia Para La Estimacion De Tiempos De Un Proyecto
109 Metodologia Para La Estimacion De Tiempos De Un Proyecto109 Metodologia Para La Estimacion De Tiempos De Un Proyecto
109 Metodologia Para La Estimacion De Tiempos De Un ProyectoGeneXus
 
Diccionario de datos Unefa
Diccionario de datos UnefaDiccionario de datos Unefa
Diccionario de datos Unefaginotamborero
 
Reglas de codd y normalizacion
Reglas de codd y normalizacionReglas de codd y normalizacion
Reglas de codd y normalizacionKevyn Martir
 
Apache Cassandra
Apache CassandraApache Cassandra
Apache CassandraLuis Ojeda
 
Arquitectura de software
Arquitectura de softwareArquitectura de software
Arquitectura de softwareLiliana Pacheco
 
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric LógicoMejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric LógicoDenodo
 
Diseño de salidas para sistemas de información
Diseño de salidas para sistemas de informaciónDiseño de salidas para sistemas de información
Diseño de salidas para sistemas de informaciónYaskelly Yedra
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidosTensor
 
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del añoJuan Polo Cosme
 

La actualidad más candente (20)

Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4jBases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
 
CUADRO COMPARATIVO DE BUENAS PRACTICAS DE GOBIERNO DE TI
CUADRO COMPARATIVO DE BUENAS PRACTICAS DE GOBIERNO DE TICUADRO COMPARATIVO DE BUENAS PRACTICAS DE GOBIERNO DE TI
CUADRO COMPARATIVO DE BUENAS PRACTICAS DE GOBIERNO DE TI
 
El Gobierno de Datos está listo para mostrar su Atractivo [Data Governance is...
El Gobierno de Datos está listo para mostrar su Atractivo [Data Governance is...El Gobierno de Datos está listo para mostrar su Atractivo [Data Governance is...
El Gobierno de Datos está listo para mostrar su Atractivo [Data Governance is...
 
1.1 Observación del comportamiento y del ambiente.
1.1 Observación del comportamiento y del ambiente.1.1 Observación del comportamiento y del ambiente.
1.1 Observación del comportamiento y del ambiente.
 
Modelado de requisitos
Modelado de requisitosModelado de requisitos
Modelado de requisitos
 
Diccionario de datos
Diccionario de datosDiccionario de datos
Diccionario de datos
 
Apache CouchDB
Apache CouchDBApache CouchDB
Apache CouchDB
 
Diagramas de paquetes
Diagramas de paquetesDiagramas de paquetes
Diagramas de paquetes
 
SQA
SQASQA
SQA
 
109 Metodologia Para La Estimacion De Tiempos De Un Proyecto
109 Metodologia Para La Estimacion De Tiempos De Un Proyecto109 Metodologia Para La Estimacion De Tiempos De Un Proyecto
109 Metodologia Para La Estimacion De Tiempos De Un Proyecto
 
Diccionario de datos Unefa
Diccionario de datos UnefaDiccionario de datos Unefa
Diccionario de datos Unefa
 
SQLite
SQLiteSQLite
SQLite
 
Reglas de codd y normalizacion
Reglas de codd y normalizacionReglas de codd y normalizacion
Reglas de codd y normalizacion
 
Apache Cassandra
Apache CassandraApache Cassandra
Apache Cassandra
 
Arquitectura de software
Arquitectura de softwareArquitectura de software
Arquitectura de software
 
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric LógicoMejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
 
Diseño de salidas para sistemas de información
Diseño de salidas para sistemas de informaciónDiseño de salidas para sistemas de información
Diseño de salidas para sistemas de información
 
Sistemas distribuidos
Sistemas distribuidosSistemas distribuidos
Sistemas distribuidos
 
ETL
ETLETL
ETL
 
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del añoInforme v2.1  Base de Datos II - Proyecto TodoAutos : venta de carros del año
Informe v2.1 Base de Datos II - Proyecto TodoAutos : venta de carros del año
 

Similar a Calidad de datos (data quality)

Conceptos de minería de datos
Conceptos de minería de datosConceptos de minería de datos
Conceptos de minería de datosedwin
 
Proyecto big data
Proyecto big dataProyecto big data
Proyecto big dataASOziel
 
3ra entrega forumación de proyectos
3ra entrega forumación de proyectos3ra entrega forumación de proyectos
3ra entrega forumación de proyectospaolaperez013
 
4ta entrega forumación de proyectos
4ta entrega forumación de proyectos4ta entrega forumación de proyectos
4ta entrega forumación de proyectospaolaperez013
 
3ra entrega forumación de proyectos
3ra entrega forumación de proyectos3ra entrega forumación de proyectos
3ra entrega forumación de proyectospaolaperez013
 
Unidad 2 sim karla itzayana robles
Unidad 2 sim karla itzayana roblesUnidad 2 sim karla itzayana robles
Unidad 2 sim karla itzayana robleskire robles
 
Sistema de información yiljanny cortez
Sistema de información yiljanny cortezSistema de información yiljanny cortez
Sistema de información yiljanny cortezyiljanny cortez
 
Asegurando la calidad del dato en mi entorno de business intelligence
Asegurando la calidad del dato en mi entorno de business intelligenceAsegurando la calidad del dato en mi entorno de business intelligence
Asegurando la calidad del dato en mi entorno de business intelligenceMary Arcia
 
Unidad III Sistema de Información Gerencial
Unidad III Sistema de Información GerencialUnidad III Sistema de Información Gerencial
Unidad III Sistema de Información GerencialNeliza Queralez Duran
 
Tarea 5 de infotecnologia
Tarea 5 de infotecnologiaTarea 5 de infotecnologia
Tarea 5 de infotecnologiakeyla Cuevas
 
Master Data Management - MDM - Pasos para implementar MDM
Master Data Management - MDM - Pasos para implementar MDMMaster Data Management - MDM - Pasos para implementar MDM
Master Data Management - MDM - Pasos para implementar MDMJose Pla
 
Funcionamiento de un sistema en la empresa
Funcionamiento de un sistema en la empresaFuncionamiento de un sistema en la empresa
Funcionamiento de un sistema en la empresaKeytlinReyes28
 
Gestión de la Calidad de Datos V1.0 (Ago 10)
Gestión de la Calidad de Datos V1.0 (Ago 10)Gestión de la Calidad de Datos V1.0 (Ago 10)
Gestión de la Calidad de Datos V1.0 (Ago 10)Alejandro Indarte
 
2da entrega forumación de proyectos
2da entrega forumación de proyectos2da entrega forumación de proyectos
2da entrega forumación de proyectospaolaperez013
 
bases de datos.Gallardo.pdf
bases de datos.Gallardo.pdfbases de datos.Gallardo.pdf
bases de datos.Gallardo.pdfTuripip
 

Similar a Calidad de datos (data quality) (20)

Conceptos de minería de datos
Conceptos de minería de datosConceptos de minería de datos
Conceptos de minería de datos
 
Proyecto big data
Proyecto big dataProyecto big data
Proyecto big data
 
Sistema de Informacion Zoraida Garcia
Sistema de Informacion Zoraida GarciaSistema de Informacion Zoraida Garcia
Sistema de Informacion Zoraida Garcia
 
3ra entrega forumación de proyectos
3ra entrega forumación de proyectos3ra entrega forumación de proyectos
3ra entrega forumación de proyectos
 
4ta entrega forumación de proyectos
4ta entrega forumación de proyectos4ta entrega forumación de proyectos
4ta entrega forumación de proyectos
 
3ra entrega forumación de proyectos
3ra entrega forumación de proyectos3ra entrega forumación de proyectos
3ra entrega forumación de proyectos
 
Unidad 2 sim karla itzayana robles
Unidad 2 sim karla itzayana roblesUnidad 2 sim karla itzayana robles
Unidad 2 sim karla itzayana robles
 
Sistema de información yiljanny cortez
Sistema de información yiljanny cortezSistema de información yiljanny cortez
Sistema de información yiljanny cortez
 
Cuestiones Capitulo15
Cuestiones Capitulo15Cuestiones Capitulo15
Cuestiones Capitulo15
 
Asegurando la calidad del dato en mi entorno de business intelligence
Asegurando la calidad del dato en mi entorno de business intelligenceAsegurando la calidad del dato en mi entorno de business intelligence
Asegurando la calidad del dato en mi entorno de business intelligence
 
Unidad III Sistema de Información Gerencial
Unidad III Sistema de Información GerencialUnidad III Sistema de Información Gerencial
Unidad III Sistema de Información Gerencial
 
Tarea 5 de infotecnologia
Tarea 5 de infotecnologiaTarea 5 de infotecnologia
Tarea 5 de infotecnologia
 
Programacion
ProgramacionProgramacion
Programacion
 
Evaluacion de la informacion
Evaluacion de la informacionEvaluacion de la informacion
Evaluacion de la informacion
 
Master Data Management - MDM - Pasos para implementar MDM
Master Data Management - MDM - Pasos para implementar MDMMaster Data Management - MDM - Pasos para implementar MDM
Master Data Management - MDM - Pasos para implementar MDM
 
Data quality
Data qualityData quality
Data quality
 
Funcionamiento de un sistema en la empresa
Funcionamiento de un sistema en la empresaFuncionamiento de un sistema en la empresa
Funcionamiento de un sistema en la empresa
 
Gestión de la Calidad de Datos V1.0 (Ago 10)
Gestión de la Calidad de Datos V1.0 (Ago 10)Gestión de la Calidad de Datos V1.0 (Ago 10)
Gestión de la Calidad de Datos V1.0 (Ago 10)
 
2da entrega forumación de proyectos
2da entrega forumación de proyectos2da entrega forumación de proyectos
2da entrega forumación de proyectos
 
bases de datos.Gallardo.pdf
bases de datos.Gallardo.pdfbases de datos.Gallardo.pdf
bases de datos.Gallardo.pdf
 

Calidad de datos (data quality)

  • 1. Introducción “Para ser capaces de relacionar los problemas de la calidad de datos con su impacto en el negocio, tenemos que ser capaces de clasificar tanto nuestras expectativas de calidad de datos, así como los criterios de impacto en la empresa.” David Loshin President of Knowledge Integrity, Inc. Si nos detenemos a pensar un poco, el problema al que nos enfrentamos estos días (Integración de distintas fuentes, homologación y limpieza de datos) es el resultado de la evolución natural de los sistemas. ¿Qué sucedía el principio? Cuando se inició la revolución informática en el mundo, lo que ocurrió, es que salieron múltiples compañías ofreciendo sus soluciones propietarias, es decir, pensadas en solo solucionar un problema en específico (nominas, departamentos de finanzas, RH, etc.) y sin la visión de compartir la información con otros sistemas. Al pasar el tiempo se vio la necesidad de compartir la información de las diferentes fuentes con las que contaba una compañía. Figura 1
  • 2. Para resolver este tema, la solución fue generar conectores entre los diferentes sistemas, lo cual funcionaba de una manera limitada ya que había que generar un conector por cada sistema con el cual se querían comunicar, provocando esto un difícil mantenimiento para soportar las diferentes comunicaciones entre sistemas. Figura II Con esta conectividad nació el problema de comunicación entre los diferentes sistemas, es decir, como ya mencionamos, cada sistema tenía su propio formato para almacenar la información, por lo que, al interactuar con otros sistemas, los desarrolladores se vieron forzados a homologar y estandarizar dicha información por cada conector para poderla interpretarla y así se pudiera comunicar con las demás. El siguiente paso en esta evolución fue buscar la manera de evitar múltiples conectores, buscando con esto la manera de tener todo centralizado dando como resultado un mantenimiento más fácil; así nació la integración de la información.
  • 3. Figura 3 Con esta integración también se logró la centralización de los procesos para limpieza y calidad de datos, dándole más forma y peso a estas tecnologías. Un buen ejemplo de esto son los DataWareHouse, en donde tenemos que integrar, homologar, estandarizar y limpiar la información (Data Quality) antes de poblar los modelos. Lo que nos lleva a nuestra siguiente pregunta. ¿Qué es la calidad de datos? La calidad de datos se refiere a los procesos y técnicas enfocados a mejorar la eficacia de los datos existentes en nuestras bases de datos. Para que un proceso de calidad de datos sea realmente eficaz, este deberá ser repetible y fácil de entender de manera que permita generar un proceso que se vuelva un ciclo de mejora y que cada vez que sea ejecutado genere datos con mayor calidad. Este proceso deberá de incluir perfilamiento, normalización, correspondencia (match) y consolidación, los cuales generarán reportes para dar seguimiento a los progresos y permitir la mejora continua de la calidad de los datos. Algunos de los beneficios de la calidad de datos son:
  • 4.  Ahorrar costos directos: evitando tener información duplicada.  Supervisar y limpiar de forma proactiva los datos de todas las aplicaciones, y mantener limpios esos datos.  Permitir al negocio compartir la responsabilidad de la calidad y del gobierno de datos.  Impulsar mejores resultados con unos datos empresariales fiables. Proceso de la calidad de datos Lo primero que necesitamos saber para implementar los procesos de limpieza y calidad de datos, es ¿Qué tan bien o mal están mis datos?, es decir, debemos de tener un punto de partida (métrica), que me indique el estado de los datos que estoy utilizando. Para lograr esto, se lleva a cabo un perfilamiento de los datos, el cual me indica cómo se encuentran estos y a partir de ahí, detectar que es lo que necesito corregir. Para llevar a cabo estas correcciones, también debo de contar con unos parámetros de control que me ayuden a medir el avance en mis procesos de calidad. Estos parámetros son conocidos como, las seis dimensiones de calidad de datos. Las seis dimensiones de la calidad de datos Estas son consideradas como los puntos clave que debe de cubrir la calidad de los datos, para asegurar nuestros procesos de limpieza y calidad; dichos puntos se enumeran a continuación: DIMENSIONES PARA LA CALIDAD DE DATOS Completitud En una tabla o conjunto de datos (dataset), ¿tenemos campos en blanco, o fueron llenados con valores por default? ¿Los datos son utilizables? En algunos casos, los datos que no están, son irrelevantes, pero cuando se vuelven necesarios para un proceso del negocio, estos se vuelven críticos. Conformidad Los datos que están en los campos de la tabla, ¿están en un formato estándar y legible? Consistencia Al hacer el cruce de información con los registros, ¿existe información contradictoria?
  • 5. DIMENSIONES PARA LA CALIDAD DE DATOS Precisión / Exactitud Si los datos no son precisos, estos no pueden ser utilizados. Para detectar si estos son precisos, se compara el dato con una fuente de referencia. Duplicación ¿Tenemos la misma información en formatos iguales o similares dentro de la tabla? Integridad ¿Toda la información relevante de un registro está presente de forma que se pueda utilizar? El entendimiento de estas seis claves es el primer paso para la mejora de la calidad de datos. Ser capaz de separar los defectos de los datos clasificándolos por estas dimensiones, nos permite aplicar las técnicas adecuadas para mejorar tanto la información como los procesos que crean y manipulan la información. ID Nombre_Cliente Tipo_person a Ultima_fecha _facturacion Estatus _client e Direccion_1 Direccion_2 Direccion_3 541 Juan Luis Valdez Persona 23-Jan-12 Activo Av. Del Corral #45 Col. San Juan Monterrey, N.L. 542 IBM Empresa 11-Jul-12 Activo Periferico Sur 39 Int.41 Col. Chapultepec Mexico, D.F. 543 Andrea Sanchez Persona Activo Av. Hidalgo No. 129 Col. Chapulin Gdl. 544 Jose Luis Rosas Persona 23-May-12 Baja 24F Del. Juarez Taxco 545 Coca-Cola Corp. Empresa 6-Feb-13 Activo Juan Polainas 253 Col. Alta Mata Veracruz 546 Baby Crazy Persona 23-Mar-12 Activo Calle 4 No. 78 Del. Alvaro Obregon Mexico, D.F. 547 Emilio Contreras Chavez Empresa 18-Apr-12 Activo Av. Insurgentes 31 Col. Escutia Puebla 548 Felipe Calderon del Rio Persona 11-Jun-13 Activo C/O Juan de la Barrera Col. Pedrito San Luis 549 Maria del Corral de Garduno Persona 30-Sep-12 Activo Av. 7 #428 Col. San Sergio Chalco, Edo. Mexico 550 OXXO Empresa 4-Oct-12 Activo Paseo de la Reforma No. 32 Col. Cuahutemoc Mexico, D.F. 551 Karina Salgado Marmolejo Persona 3-Dec-12 Baja Tollocan 52 Diamante Acapulco, Guerrero 552 Julian Garduno Flores Persona 1-Feb-13 Activo Xochitecatl 295 Del. Xochimilco Mexico, D.F. 553 Juan Valdes Persona 23-Nov-12 Activo Av. Del Corral #45 Col. San Juan Monterrey, N.L.
  • 6. Completitud: Falta la fecha para Andrea Sanchez. Conformidad: Las direcciones no estan de acuerdo a los estandadres Consistencia: Baby Crazy es empresa y Emilio contreras es persona. Duplicacion. Integridad: Puede existir en la misma tabla o cruzando con otras, en este caso no se determnina que pueden ser familiarees. Precision/ Exactitud: No siempre se obtiene de la misma tabla, se puede validar con catalogos.
  • 7. Pasos a seguir Perfilamiento Como primer paso en la calidad de datos, se necesita generar un perfil acerca de los mismos, el cual ofrece una completa investigación del contenido de cada uno de los datos del cliente que son críticos para la organización. El objetivo es identificar los problemas que podrían impedir el correcto uso de los datos. El perfilamiento de los datos le permite a las organizaciones responder los siguientes puntos sobre la información calve de sus datos. ¿Cuáles son los campos adecuados a utilizar para los procesos de coincidencia (mach)?  ¿cuáles campos cuentan con la integridad suficiente? Ejemplo: si el campo edad es llenado o poblado el 25% de las veces, este no será un campo con suficiente integridad.  ¿Cuántos campos contienen valores válidos y coherentes o consistentes? Ejemplo: el campo que almacena la fecha de nacimiento puede contener el 20% con el valor pre-establecido 01/01/1901  ¿Qué procesos de estandarización/limpieza requiere cada campo para ser utilizados de forma correcta?  ¿Cuáles reglas son eficaces? Ejemplo: campos incompletos o inválidos pueden ser utilizados en los diferentes procesos, pero se deben de definir las reglas para que sean utilizados solo cuando la salida del proceso sea válida. El perfilamiento consiste en aplicar algoritmos especializados para investigar el contenido de los diferentes tipos de campos: • Perfiles de texto para nombre, dirección, correo electrónico y otros campos de texto libre. • Perfiles de carácter para los campos de código de fecha, números de teléfono y otros. • Contadores de frecuencia para valores definidos como: genero, ocupación, estado civil, etc. Durante la fase de perfilamiento se debe de revisar que los valores utilizados sean reales o patrones de datos obtenidos en las tablas de búsqueda (lookup). Los resultados obtenidos de esta fase serán una serie de reportes que identifican los problemas de calidad de datos para cada atributo seleccionado. Estandarización / normalización El objetivo de la fase de normalización de un proceso de gestión de calidad de los datos es eliminar o etiquetar los problemas detectados antes de pasar a la siguiente fase. En la fase de normalización cada uno de los campos clave se pasan a través de una serie de reglas definidas por el
  • 8. usuario para eliminar inconsistencias y discordancias identificadas durante la etapa de perfilado de datos. La salida es una gama de nuevos campos de datos que contienen datos normalizados y mejorados. Durante la estandarización las tareas a realizar son:  Eliminación de ruido, ejemplo: comentarios en campo de texto libre tales como “Dirección invalida”, los cuales podrían causar conflictos en el procesamiento de datos.  Análisis de datos; ejemplo, nombre, dirección, descripción.  Estandarización de términos; ejemplo, la utilización de diccionarios para corregir faltas de ortografía comunes, o el uso de funciones para estandarizar formatos como números telefónicos  Obtener valores faltantes; ejemplo: obtener género a partir del nombre.  Generación de indicadores de calidad de datos para su uso en las reglas de coincidencia (match); por ejemplo, registros con múltiples valores incompletos o no válidos pueden ser marcados. Los nuevos campos de datos creados durante la fase de normalización pueden ser utilizados únicamente para el proceso de coincidencia (match). También se pueden escribir al archivo fuente original para remplazar los datos originales con baja calidad de datos. Correspondencia/Match La correspondencia o match, identifica aquellos registros equivalentes, duplicados y relacionados dentro de una tabla o conjunto de datos (pueden ser más de dos tablas). De la misma manera, se puede identificar los datos inexactos mediante la comparación del conjunto de datos actual con un conjunto de datos de referencia. La búsqueda de coincidencia de identidad se puede utilizar para los datos de identidad y es particularmente efectiva en los datos no normalizados o sucios. La búsqueda de coincidencias, se hace sobre uno o varios atributos. Por ejemplo, se busca la coincidencia de personas utilizando su nombre, apellidos, fecha de nacimiento, teléfonos, etc. Estos elementos deberán de ser parte del atributo del elemento a buscar, en este caso, personas.
  • 9. Consolidación La consolidación es el último paso en el proceso de calidad de los datos a pesar de que su salida puede formar parte de la base de datos que se utilizara para una iteración subsiguiente del ciclo de vida de calidad de los datos. La consolidación de datos administra el proceso de integración o vinculación de registros duplicados o relacionados. Facilitando la consolidación de los registros de una base de datos única o varias bases de datos. También se pueden añadir los datos consolidados a tablas de referencia o sobrescribir datos inexactos. http://sesa78.wordpress.com/