SlideShare una empresa de Scribd logo
1 de 12
Calidad de datos:
conceptos y métodos
David Moner
damoca@veratech.es
Calidad de datos
• Un uso (o reúso) adecuado de los datos de salud pasa por asegurar la
calidad de dichos datos.
• ¿En qué consiste?
• Los datos representan correctamente la realidad a la que se refieren
• Los datos son los adecuados para el uso esperado
• El uso de datos de baja calidad puede tener consecuencias directas sobre
el proceso de atención de los pacientes, las investigaciones clínicas o la
gestión sanitaria.
Calidad de datos: conceptos y métodos - VeraTech for Health 2
Calidad de datos
• Tradicionalmente se evalúa la calidad de los datos según diferentes dimensiones. Proponemos siete:
• Unicidad: ¿Existen datos replicados?
• Completitud: ¿Faltan datos?
• Consistencia: ¿Los datos cumplen con las reglas estrablecidas (tipos, rangos, ocurrencias, etc.)?
• Corrección: ¿Existen datos anómalos?
• Estabilidad Temporal: ¿Existe variabilidad en los datos a lo largo del tiempo?
• Estabilidad Multifuente: ¿Existe variabilidad en los datos en función de su origen o fuente (hospitales,
departamentos, profesionales, etc.)?
• Valor Predictivo: ¿Puedo utilizar alguna variable de mis datos para construir un sistema de ayuda a la decisión?
Calidad de datos: conceptos y métodos - VeraTech for Health 3
¿Cómo podemos definir un patrón de
calidad de datos?
1. Definiendo completamente el modelo de información sanitaria
• It’s the archetypes, stupid!
• Generamos Schematron a partir de los arquetipos para evaluar las reglas de calidad
• Completitud, consistencia
2. Aplicando métodos estadísticos
• Por ejemplo, en una métrica estabilidad multifuente se mide disimilaridad de una fuente
de datos con una tendencia central global del conjunto de todas las fuentes
• Corrección, estabilidad temporal, estabilidad multifuente, valor predictivo
Calidad de datos: conceptos y métodos - VeraTech for Health 4
qualize
• VeraTech ha desarrollado qualize como nuestro marco de referencia para
la evaluación de la calidad de datos
Calidad de datos: conceptos y métodos - VeraTech for Health 5
www.qualize.net
qualize – Dimensión de completitud
• Comprobamos la existencia o no de cada atributo de los datos
• Es un problema complejo cuando tratamos con estructuras de datos anidadas y
multivaluadas.
Calidad de datos: conceptos y métodos - VeraTech for Health 6
qualize – Dimensión de consistencia
• Evaluamos todas las restricciones del arquetipo, incluyendo tipos de
datos, rangos, ocurrencias, cardinalidad, subconjuntos terminológicos…
Calidad de datos: conceptos y métodos - VeraTech for Health 7
qualize – Dimensión de consistencia
Calidad de datos: conceptos y métodos - VeraTech for Health 8
• Para la evaluación de valores codificados, podemos comprobar la
pertenencia de un código de los datos dentro de un subconjunto
• Definido utilizando SNOMED CT Expression Language
• Evaluado utilizando los servicios de VeraTech SNQuery
• También podemos definir reglas complejas de consistencia
• En el futuro se incorporarán reglas de consistencia propias del dominio
sanitario.
• Ej. comprobar la correspondencia entre un texto natural y su codificación.
qualize – Dimensión de estabilidad
multifuente
• Ejemplo de implantación de la dimension de variabilidad multifuente
Calidad de datos: conceptos y métodos - VeraTech for Health 9
No se indican campos
identificadores
No se indica variable
multifuente
No se indica variable
a predecir
No se indica variable
temporal
No se indica ningún
tipo
Fig.1: Sin ninguna configuración Fig.2: Configuración completa
Con una configuración
más restrictiva: más
reglas, más campos
obligatorios, etc.
Una configuración más
estricta podría empeorar los
resultados, pero serían de
más calidad asegurada
La importancia de la configuración
Calidad y normalización
• Normalización de datos
• Limpieza de datos
(transformaciones y filtros)
• Evaluación de la calidad de
datos
• Detección de errores
Calidad de datos: conceptos y métodos - VeraTech for Health 11
Preguntas / Debate
Calidad de datos: conceptos y métodos - VeraTech for Health 12
David Moner
damoca@veratech.es

Más contenido relacionado

Similar a Calidad de datos: conceptos y métodos

Introducción a openEHR en español
Introducción a openEHR en españolIntroducción a openEHR en español
Introducción a openEHR en españolPablo Pazos
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8John Bulla
 
Reglas de integridad
Reglas de integridadReglas de integridad
Reglas de integridadMemo Wars
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data miningrenfer64
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxAnonymousEoGAaTF
 
Revista de metodologia cuantitativa
Revista de metodologia cuantitativaRevista de metodologia cuantitativa
Revista de metodologia cuantitativaAntonellaMarchn1
 
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...Jesús Bucarito
 
Integridad de datos
Integridad de datosIntegridad de datos
Integridad de datosestudiante
 
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptxMódulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptxuribefernando485
 
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptxPRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptxCarlos Yañez Serrano
 
openEHR: aspectos de interoperabilidad y mantenibilidad
openEHR: aspectos de interoperabilidad y mantenibilidadopenEHR: aspectos de interoperabilidad y mantenibilidad
openEHR: aspectos de interoperabilidad y mantenibilidadPablo Pazos
 

Similar a Calidad de datos: conceptos y métodos (20)

Introducción a openEHR en español
Introducción a openEHR en españolIntroducción a openEHR en español
Introducción a openEHR en español
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8
 
Reglas de integridad
Reglas de integridadReglas de integridad
Reglas de integridad
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
 
Organizacion de datos
Organizacion de datosOrganizacion de datos
Organizacion de datos
 
Revista de metodologia cuantitativa
Revista de metodologia cuantitativaRevista de metodologia cuantitativa
Revista de metodologia cuantitativa
 
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
Sistemas de la calidad con base en las técnicas o herramientas estadísticas j...
 
Pruebas de Selección para Cargos de Data Scientist
Pruebas de Selección para Cargos de Data ScientistPruebas de Selección para Cargos de Data Scientist
Pruebas de Selección para Cargos de Data Scientist
 
María pinto
María pintoMaría pinto
María pinto
 
Datalogía - Módulo 3 - Convertir los Datos en Variables
Datalogía - Módulo 3 - Convertir los Datos en VariablesDatalogía - Módulo 3 - Convertir los Datos en Variables
Datalogía - Módulo 3 - Convertir los Datos en Variables
 
Insight2011 (1).pptx
Insight2011 (1).pptxInsight2011 (1).pptx
Insight2011 (1).pptx
 
Integridad de datos
Integridad de datosIntegridad de datos
Integridad de datos
 
sistemas de informacion
sistemas de informacionsistemas de informacion
sistemas de informacion
 
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptxMódulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
Módulo I_Curso diseño e implementación de las evaluaciones_26.09.2022.pptx
 
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptxPRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
PRUEBAS Y TEST ESTANDARIZADOS Y NO ESTANDARIZADOS.pptx
 
Encuentro 2
Encuentro 2Encuentro 2
Encuentro 2
 
MSA Clase (3).pptx
MSA Clase (3).pptxMSA Clase (3).pptx
MSA Clase (3).pptx
 
Material de Referencia Certificado
Material de Referencia CertificadoMaterial de Referencia Certificado
Material de Referencia Certificado
 
openEHR: aspectos de interoperabilidad y mantenibilidad
openEHR: aspectos de interoperabilidad y mantenibilidadopenEHR: aspectos de interoperabilidad y mantenibilidad
openEHR: aspectos de interoperabilidad y mantenibilidad
 

Más de David Moner Cano

Archetype Modeling Methodology
Archetype Modeling MethodologyArchetype Modeling Methodology
Archetype Modeling MethodologyDavid Moner Cano
 
Data reuse and quality evaluation in archetype-based environments
Data reuse and quality evaluation in archetype-based environmentsData reuse and quality evaluation in archetype-based environments
Data reuse and quality evaluation in archetype-based environmentsDavid Moner Cano
 
Ehr models, standards and semantic interoperability
Ehr models, standards and semantic interoperabilityEhr models, standards and semantic interoperability
Ehr models, standards and semantic interoperabilityDavid Moner Cano
 
Evolución de la norma UNE-EN 13606
Evolución de la norma UNE-EN 13606Evolución de la norma UNE-EN 13606
Evolución de la norma UNE-EN 13606David Moner Cano
 
Archetype-based data transformation with LinkEHR
Archetype-based data transformation with LinkEHRArchetype-based data transformation with LinkEHR
Archetype-based data transformation with LinkEHRDavid Moner Cano
 
Standardised and Flexible Health Data Management with an Archetype Driven EHR...
Standardised and Flexible Health Data Management with an Archetype Driven EHR...Standardised and Flexible Health Data Management with an Archetype Driven EHR...
Standardised and Flexible Health Data Management with an Archetype Driven EHR...David Moner Cano
 
CEN EN13606 Normalisation Framework
CEN EN13606 Normalisation FrameworkCEN EN13606 Normalisation Framework
CEN EN13606 Normalisation FrameworkDavid Moner Cano
 
Implementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
Implementation of a CEN/ISO 13606 Platform for Medicines ReconciliationImplementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
Implementation of a CEN/ISO 13606 Platform for Medicines ReconciliationDavid Moner Cano
 

Más de David Moner Cano (8)

Archetype Modeling Methodology
Archetype Modeling MethodologyArchetype Modeling Methodology
Archetype Modeling Methodology
 
Data reuse and quality evaluation in archetype-based environments
Data reuse and quality evaluation in archetype-based environmentsData reuse and quality evaluation in archetype-based environments
Data reuse and quality evaluation in archetype-based environments
 
Ehr models, standards and semantic interoperability
Ehr models, standards and semantic interoperabilityEhr models, standards and semantic interoperability
Ehr models, standards and semantic interoperability
 
Evolución de la norma UNE-EN 13606
Evolución de la norma UNE-EN 13606Evolución de la norma UNE-EN 13606
Evolución de la norma UNE-EN 13606
 
Archetype-based data transformation with LinkEHR
Archetype-based data transformation with LinkEHRArchetype-based data transformation with LinkEHR
Archetype-based data transformation with LinkEHR
 
Standardised and Flexible Health Data Management with an Archetype Driven EHR...
Standardised and Flexible Health Data Management with an Archetype Driven EHR...Standardised and Flexible Health Data Management with an Archetype Driven EHR...
Standardised and Flexible Health Data Management with an Archetype Driven EHR...
 
CEN EN13606 Normalisation Framework
CEN EN13606 Normalisation FrameworkCEN EN13606 Normalisation Framework
CEN EN13606 Normalisation Framework
 
Implementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
Implementation of a CEN/ISO 13606 Platform for Medicines ReconciliationImplementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
Implementation of a CEN/ISO 13606 Platform for Medicines Reconciliation
 

Último

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 

Último (20)

PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 

Calidad de datos: conceptos y métodos

  • 1. Calidad de datos: conceptos y métodos David Moner damoca@veratech.es
  • 2. Calidad de datos • Un uso (o reúso) adecuado de los datos de salud pasa por asegurar la calidad de dichos datos. • ¿En qué consiste? • Los datos representan correctamente la realidad a la que se refieren • Los datos son los adecuados para el uso esperado • El uso de datos de baja calidad puede tener consecuencias directas sobre el proceso de atención de los pacientes, las investigaciones clínicas o la gestión sanitaria. Calidad de datos: conceptos y métodos - VeraTech for Health 2
  • 3. Calidad de datos • Tradicionalmente se evalúa la calidad de los datos según diferentes dimensiones. Proponemos siete: • Unicidad: ¿Existen datos replicados? • Completitud: ¿Faltan datos? • Consistencia: ¿Los datos cumplen con las reglas estrablecidas (tipos, rangos, ocurrencias, etc.)? • Corrección: ¿Existen datos anómalos? • Estabilidad Temporal: ¿Existe variabilidad en los datos a lo largo del tiempo? • Estabilidad Multifuente: ¿Existe variabilidad en los datos en función de su origen o fuente (hospitales, departamentos, profesionales, etc.)? • Valor Predictivo: ¿Puedo utilizar alguna variable de mis datos para construir un sistema de ayuda a la decisión? Calidad de datos: conceptos y métodos - VeraTech for Health 3
  • 4. ¿Cómo podemos definir un patrón de calidad de datos? 1. Definiendo completamente el modelo de información sanitaria • It’s the archetypes, stupid! • Generamos Schematron a partir de los arquetipos para evaluar las reglas de calidad • Completitud, consistencia 2. Aplicando métodos estadísticos • Por ejemplo, en una métrica estabilidad multifuente se mide disimilaridad de una fuente de datos con una tendencia central global del conjunto de todas las fuentes • Corrección, estabilidad temporal, estabilidad multifuente, valor predictivo Calidad de datos: conceptos y métodos - VeraTech for Health 4
  • 5. qualize • VeraTech ha desarrollado qualize como nuestro marco de referencia para la evaluación de la calidad de datos Calidad de datos: conceptos y métodos - VeraTech for Health 5 www.qualize.net
  • 6. qualize – Dimensión de completitud • Comprobamos la existencia o no de cada atributo de los datos • Es un problema complejo cuando tratamos con estructuras de datos anidadas y multivaluadas. Calidad de datos: conceptos y métodos - VeraTech for Health 6
  • 7. qualize – Dimensión de consistencia • Evaluamos todas las restricciones del arquetipo, incluyendo tipos de datos, rangos, ocurrencias, cardinalidad, subconjuntos terminológicos… Calidad de datos: conceptos y métodos - VeraTech for Health 7
  • 8. qualize – Dimensión de consistencia Calidad de datos: conceptos y métodos - VeraTech for Health 8 • Para la evaluación de valores codificados, podemos comprobar la pertenencia de un código de los datos dentro de un subconjunto • Definido utilizando SNOMED CT Expression Language • Evaluado utilizando los servicios de VeraTech SNQuery • También podemos definir reglas complejas de consistencia • En el futuro se incorporarán reglas de consistencia propias del dominio sanitario. • Ej. comprobar la correspondencia entre un texto natural y su codificación.
  • 9. qualize – Dimensión de estabilidad multifuente • Ejemplo de implantación de la dimension de variabilidad multifuente Calidad de datos: conceptos y métodos - VeraTech for Health 9
  • 10. No se indican campos identificadores No se indica variable multifuente No se indica variable a predecir No se indica variable temporal No se indica ningún tipo Fig.1: Sin ninguna configuración Fig.2: Configuración completa Con una configuración más restrictiva: más reglas, más campos obligatorios, etc. Una configuración más estricta podría empeorar los resultados, pero serían de más calidad asegurada La importancia de la configuración
  • 11. Calidad y normalización • Normalización de datos • Limpieza de datos (transformaciones y filtros) • Evaluación de la calidad de datos • Detección de errores Calidad de datos: conceptos y métodos - VeraTech for Health 11
  • 12. Preguntas / Debate Calidad de datos: conceptos y métodos - VeraTech for Health 12 David Moner damoca@veratech.es