SlideShare una empresa de Scribd logo
1 de 30
Descargar para leer sin conexión
BI – 300003

Trabajando con Data Quality Services


Pau Sempere Sánchez
DPS – BI Division
MAP 2012
psempere@solidq.com
Objetivos

Conocer Data Quality Services

Posicionar el producto Data Quality Services en el ciclo de
 Data Quality Management

Reflejar el conocimiento sobre calidad de datos en bases
 de conocimiento e integrarlo en nuestros procesos.
Agenda

La importancia de la calidad de datos

Data Quality Services

Bases de conocimiento
  Dominios
  Reglas
  Valoressasasasasasas
Agenda

Proyectos DQS:
  Matching
  Cleansing

Data Quality Services en Integration Services
LA IMPORTANCIA DE LA CALIDAD DE DATOS
Etapas en la madurez de los datos


          Conocimiento               Soporte decisiones
                                     de negocio


           Información



             Datos                       Soporte operativa
                                         de negocio

                            Otros
  ERP         CRM
                         sistemas…
Los datos y las personas




  Un software sano no puede funcionar
            sin datos sanos
Los problemas de salud de los datos

Enfermedad        Descripción               Síntoma
Estandarización   Datos incoherentes        Código Género = H, M, U
                                            en un sistema y Código
                                            Género= 0, 1, 2 en otro

Completitud       Nos faltan datos para     Códigos postales vacíos
                  representar la realidad   en el 50% de nuestro
                                            callejero
Precisión         Tenemos datos que no      Tenemos proveedores
                  representan la realidad   marcados como activos
                  del negocio               que están muertos hace 6
                                            años
Los problemas de salud de los datos

Enfermedad     Descripción               Síntoma
Validez        Datos rebeldes que no     Los sueldos deben estar
               cumplen nuestras reglas   entre 60.000€ y 120.000€
                                         al año
Unicidad       La entidad del modelo     Javier Torrenteras y Javi
               de datos aparece más      Torrenteras son el mismo
               de una vez                empleado
El extraño caso de los hombres embarazados y
otros fenómenos británicos
Entre 2009 y 2010, unos 20.000 hombres en Reino Unido
 requirieron servicios de matrona, según el Sistema
 Nacional de Salud británico (NHS)

Más de 8.000 hombres llegaron a ver a un ginecólogo

Casi 3.000 menores de edad accedieron a servicios de
 geriatría.
Los costes de los datos de mala calidad

Recursos adicionales para corregir los problemas de los
 datos

Difícil mantenimiento de los mecanismos de corrección de
 datos.

Pérdida de oportunidades negocio.
DEMO
Visualizando datos de mala calidad
DATA QUALITY SERVICES
¿Qué es Data Quality Services?


    Data Quality Services (DQS) es
      una solución basada en el
   conocimiento de la calidad de
        datos que permite a los
      administradores de datos y
   profesionales de IT la mejora de
  la calidad de sus datos fácilmente
Al aplicar Data Quality Services…

             Conocimiento
             • Centralización del conocimiento de la calidad de datos del
               negocio


             Limpieza
             • Corrección de datos con proyectos de cleansing



             Consolidación
             • Consolidación y de-duplicación con proyectos de
               matching


             Aporte de valor
             • Gestión sencilla del conocimiento sobre la calidad de los
               datos por parte de los usuarios de negocio
¿Dónde encaja Data Quality Services?


                    Sistemas
                    de origen


                Data
               Quality
               Services


                     Integración
                     de datos en
                         otros
                       sistemas
Arquitectura básica DQS


      Data Quality         DQS_MAIN
     Services Client

                          DQS_PROJECTS
       Componente
   Integration Services
                          DQS_STAGING
BASES DE CONOCIMIENTO
Bases de conocimiento

          Referencias
           externas                              Reglas de
                                                 matching




          Dominio
                                                  Bases de
                                                conocimiento
                         Reglas y
Valores                 relaciones                              Dominios
                                     Dominios
                                                               compuestos
Bases de conocimiento
      Entidad           Data Quality Services

Jugador                    DQKB Jugador


•   Nombre                                4 dígitos
                         Salarios         dentro de
•   Equipo                                un rango

•   Año de debut
•   Posición                                Lista de
                         Equipos           valores y
•   Salario                               correciones

       Atributos             Dominios
Combinando dominios

                  DQKB Jugador


                Nombre

                Equipo

              Regla:
              Si Nombre = Pau Gasol
              Entonces Equipo = Los Angeles Lakers

             Dominio compuesto
DEMO
Construyendo una base de conocimiento
PROYECTOS DE DATA QUALITY SERVICES
Proyectos de Matching




 Creación de            Matching              Exportación
 regla(s)               • Lógica difusa       • ¿Quién se queda en el
 • Política de          • Agrega metadatos.     modelo?
   comportamiento del                         • SQL Server, Excel y CSV
   motor DQS
DEMO
Reglas y proyectos de matching
Proyectos de Cleansing

Limpieza de datos partiendo de una base de
 conocimiento

Información extra sobre las decisiones que toma.

Consumir bases de conocimiento en la nube.
Integración con SSIS

Nuevo componente: Data Cleansing Component

Data Cleansing Project en un paquete SSIS.

Añade la potencia de SSIS para tratar la información
 obtenida.
DEMO
Limpiando datos con SSIS
¿Qué hemos visto?

La importancia de la calidad de los datos

Desarrollo de bases de conocimiento y dominios

Reglas y proyectos de matching.

Data Cleansing Projects

Integración con SSIS – Data Cleansing Component
Si quieres disfrutar de las mejores sesiones de
nuestros mentores de España y Latino América,
             ésta es tu oportunidad.
      http://summit.solidq.com/madrid/
                    Síguenos:

Más contenido relacionado

Más de SolidQ

SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?SolidQ
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en LinuxSolidQ
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida realSolidQ
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízateSolidQ
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksSolidQ
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BISolidQ
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesSolidQ
 
R en relacional
R en relacionalR en relacional
R en relacionalSolidQ
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!SolidQ
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en AzureSolidQ
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018SolidQ
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018SolidQ
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018SolidQ
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018SolidQ
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...SolidQ
 
Novedades de SSAS 2017
Novedades de SSAS 2017Novedades de SSAS 2017
Novedades de SSAS 2017SolidQ
 
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...SolidQ
 

Más de SolidQ (20)

SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantes
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en Linux
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida real
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízate
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocks
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BI
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para Dummies
 
R en relacional
R en relacionalR en relacional
R en relacional
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en Azure
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
 
Novedades de SSAS 2017
Novedades de SSAS 2017Novedades de SSAS 2017
Novedades de SSAS 2017
 
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
Afinando la Administración de SQL Server y Novedades de Administración 2016 -...
 

Último

KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 

Último (16)

KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 

Trabajando con Data Quality Services | SolidQ Summit 2012

  • 1. BI – 300003 Trabajando con Data Quality Services Pau Sempere Sánchez DPS – BI Division MAP 2012 psempere@solidq.com
  • 2. Objetivos Conocer Data Quality Services Posicionar el producto Data Quality Services en el ciclo de Data Quality Management Reflejar el conocimiento sobre calidad de datos en bases de conocimiento e integrarlo en nuestros procesos.
  • 3. Agenda La importancia de la calidad de datos Data Quality Services Bases de conocimiento  Dominios  Reglas  Valoressasasasasasas
  • 4. Agenda Proyectos DQS:  Matching  Cleansing Data Quality Services en Integration Services
  • 5. LA IMPORTANCIA DE LA CALIDAD DE DATOS
  • 6. Etapas en la madurez de los datos Conocimiento Soporte decisiones de negocio Información Datos Soporte operativa de negocio Otros ERP CRM sistemas…
  • 7. Los datos y las personas Un software sano no puede funcionar sin datos sanos
  • 8. Los problemas de salud de los datos Enfermedad Descripción Síntoma Estandarización Datos incoherentes Código Género = H, M, U en un sistema y Código Género= 0, 1, 2 en otro Completitud Nos faltan datos para Códigos postales vacíos representar la realidad en el 50% de nuestro callejero Precisión Tenemos datos que no Tenemos proveedores representan la realidad marcados como activos del negocio que están muertos hace 6 años
  • 9. Los problemas de salud de los datos Enfermedad Descripción Síntoma Validez Datos rebeldes que no Los sueldos deben estar cumplen nuestras reglas entre 60.000€ y 120.000€ al año Unicidad La entidad del modelo Javier Torrenteras y Javi de datos aparece más Torrenteras son el mismo de una vez empleado
  • 10. El extraño caso de los hombres embarazados y otros fenómenos británicos Entre 2009 y 2010, unos 20.000 hombres en Reino Unido requirieron servicios de matrona, según el Sistema Nacional de Salud británico (NHS) Más de 8.000 hombres llegaron a ver a un ginecólogo Casi 3.000 menores de edad accedieron a servicios de geriatría.
  • 11. Los costes de los datos de mala calidad Recursos adicionales para corregir los problemas de los datos Difícil mantenimiento de los mecanismos de corrección de datos. Pérdida de oportunidades negocio.
  • 14. ¿Qué es Data Quality Services? Data Quality Services (DQS) es una solución basada en el conocimiento de la calidad de datos que permite a los administradores de datos y profesionales de IT la mejora de la calidad de sus datos fácilmente
  • 15. Al aplicar Data Quality Services… Conocimiento • Centralización del conocimiento de la calidad de datos del negocio Limpieza • Corrección de datos con proyectos de cleansing Consolidación • Consolidación y de-duplicación con proyectos de matching Aporte de valor • Gestión sencilla del conocimiento sobre la calidad de los datos por parte de los usuarios de negocio
  • 16. ¿Dónde encaja Data Quality Services? Sistemas de origen Data Quality Services Integración de datos en otros sistemas
  • 17. Arquitectura básica DQS Data Quality DQS_MAIN Services Client DQS_PROJECTS Componente Integration Services DQS_STAGING
  • 19. Bases de conocimiento Referencias externas Reglas de matching Dominio Bases de conocimiento Reglas y Valores relaciones Dominios Dominios compuestos
  • 20. Bases de conocimiento Entidad Data Quality Services Jugador DQKB Jugador • Nombre 4 dígitos Salarios dentro de • Equipo un rango • Año de debut • Posición Lista de Equipos valores y • Salario correciones Atributos Dominios
  • 21. Combinando dominios DQKB Jugador Nombre Equipo Regla: Si Nombre = Pau Gasol Entonces Equipo = Los Angeles Lakers Dominio compuesto
  • 22. DEMO Construyendo una base de conocimiento
  • 23. PROYECTOS DE DATA QUALITY SERVICES
  • 24. Proyectos de Matching Creación de Matching Exportación regla(s) • Lógica difusa • ¿Quién se queda en el • Política de • Agrega metadatos. modelo? comportamiento del • SQL Server, Excel y CSV motor DQS
  • 25. DEMO Reglas y proyectos de matching
  • 26. Proyectos de Cleansing Limpieza de datos partiendo de una base de conocimiento Información extra sobre las decisiones que toma. Consumir bases de conocimiento en la nube.
  • 27. Integración con SSIS Nuevo componente: Data Cleansing Component Data Cleansing Project en un paquete SSIS. Añade la potencia de SSIS para tratar la información obtenida.
  • 29. ¿Qué hemos visto? La importancia de la calidad de los datos Desarrollo de bases de conocimiento y dominios Reglas y proyectos de matching. Data Cleansing Projects Integración con SSIS – Data Cleansing Component
  • 30. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com/madrid/ Síguenos: