Un uso (o reúso) adecuado de los datos de salud pasa por asegurar su calidad. La calidad de datos consiste en que los datos representan correctamente la realidad a la que se refieren y que sean los adecuados para el uso esperado. Proponemos siete dimensiones para evaluar la calidad de los datos:
- Unicidad: ¿Existen datos replicados?
- Completitud: ¿Faltan datos?
- Consistencia: ¿Los datos cumplen con las reglas estrablecidas (tipos, rangos, ocurrencias, etc.)?
- Corrección: ¿Existen datos anómalos?
- Estabilidad Temporal: ¿Existe variabilidad en los datos a lo largo del tiempo?
- Estabilidad Multifuente: ¿Existe variabilidad en los datos en función de su origen o fuente (hospitales, departamentos, profesionales, etc.)?
- Valor Predictivo: ¿Puedo utilizar alguna variable de mis datos para construir un sistema de ayuda a la decisión?
VeraTech ha desarrollado qualize como nuestro marco de referencia para la evaluación de la calidad de datos. www.qualize.net
2. Calidad de datos
• Un uso (o reúso) adecuado de los datos de salud pasa por asegurar la
calidad de dichos datos.
• ¿En qué consiste?
• Los datos representan correctamente la realidad a la que se refieren
• Los datos son los adecuados para el uso esperado
• El uso de datos de baja calidad puede tener consecuencias directas sobre
el proceso de atención de los pacientes, las investigaciones clínicas o la
gestión sanitaria.
Calidad de datos: conceptos y métodos - VeraTech for Health 2
3. Calidad de datos
• Tradicionalmente se evalúa la calidad de los datos según diferentes dimensiones. Proponemos siete:
• Unicidad: ¿Existen datos replicados?
• Completitud: ¿Faltan datos?
• Consistencia: ¿Los datos cumplen con las reglas estrablecidas (tipos, rangos, ocurrencias, etc.)?
• Corrección: ¿Existen datos anómalos?
• Estabilidad Temporal: ¿Existe variabilidad en los datos a lo largo del tiempo?
• Estabilidad Multifuente: ¿Existe variabilidad en los datos en función de su origen o fuente (hospitales,
departamentos, profesionales, etc.)?
• Valor Predictivo: ¿Puedo utilizar alguna variable de mis datos para construir un sistema de ayuda a la decisión?
Calidad de datos: conceptos y métodos - VeraTech for Health 3
4. ¿Cómo podemos definir un patrón de
calidad de datos?
1. Definiendo completamente el modelo de información sanitaria
• It’s the archetypes, stupid!
• Generamos Schematron a partir de los arquetipos para evaluar las reglas de calidad
• Completitud, consistencia
2. Aplicando métodos estadísticos
• Por ejemplo, en una métrica estabilidad multifuente se mide disimilaridad de una fuente
de datos con una tendencia central global del conjunto de todas las fuentes
• Corrección, estabilidad temporal, estabilidad multifuente, valor predictivo
Calidad de datos: conceptos y métodos - VeraTech for Health 4
5. qualize
• VeraTech ha desarrollado qualize como nuestro marco de referencia para
la evaluación de la calidad de datos
Calidad de datos: conceptos y métodos - VeraTech for Health 5
www.qualize.net
6. qualize – Dimensión de completitud
• Comprobamos la existencia o no de cada atributo de los datos
• Es un problema complejo cuando tratamos con estructuras de datos anidadas y
multivaluadas.
Calidad de datos: conceptos y métodos - VeraTech for Health 6
7. qualize – Dimensión de consistencia
• Evaluamos todas las restricciones del arquetipo, incluyendo tipos de
datos, rangos, ocurrencias, cardinalidad, subconjuntos terminológicos…
Calidad de datos: conceptos y métodos - VeraTech for Health 7
8. qualize – Dimensión de consistencia
Calidad de datos: conceptos y métodos - VeraTech for Health 8
• Para la evaluación de valores codificados, podemos comprobar la
pertenencia de un código de los datos dentro de un subconjunto
• Definido utilizando SNOMED CT Expression Language
• Evaluado utilizando los servicios de VeraTech SNQuery
• También podemos definir reglas complejas de consistencia
• En el futuro se incorporarán reglas de consistencia propias del dominio
sanitario.
• Ej. comprobar la correspondencia entre un texto natural y su codificación.
9. qualize – Dimensión de estabilidad
multifuente
• Ejemplo de implantación de la dimension de variabilidad multifuente
Calidad de datos: conceptos y métodos - VeraTech for Health 9
10. No se indican campos
identificadores
No se indica variable
multifuente
No se indica variable
a predecir
No se indica variable
temporal
No se indica ningún
tipo
Fig.1: Sin ninguna configuración Fig.2: Configuración completa
Con una configuración
más restrictiva: más
reglas, más campos
obligatorios, etc.
Una configuración más
estricta podría empeorar los
resultados, pero serían de
más calidad asegurada
La importancia de la configuración
11. Calidad y normalización
• Normalización de datos
• Limpieza de datos
(transformaciones y filtros)
• Evaluación de la calidad de
datos
• Detección de errores
Calidad de datos: conceptos y métodos - VeraTech for Health 11
12. Preguntas / Debate
Calidad de datos: conceptos y métodos - VeraTech for Health 12
David Moner
damoca@veratech.es