Este documento trata sobre mejorar la calidad y el ciclo de vida de los datos en proyectos educativos. Explica la importancia de la calidad de los datos y el ciclo de vida del dato, incluyendo las etapas de definición, procesamiento y publicación. También discute criterios como la completitud, precisión, consistencia y relevancia para medir la calidad de los datos.
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
1. Mejorando la calidad y el
ciclo de vida de los datos
en proyectos educativos
SNOLA
Alex Rayón Jerez
@alrayon, alex.rayon@deusto.es
3 de Diciembre, 2014
2. Índice de contenidos
● Introducción
● Ciclo de vida del dato
● La importancia de la calidad del dato
● La calidad del dato bajo un enfoque ETL
3. Índice de contenidos
● Introducción
● Ciclo de vida del dato
● La importancia de la calidad del dato
● La calidad del dato bajo un enfoque ETL
11. Índice de contenidos
● Introducción
● Ciclo de vida del dato
● La importancia de la calidad del dato
● La calidad del dato bajo un enfoque ETL
12. Ciclo de vida del dato
Knowledge Discovery in Databases
13. Ciclo de vida del dato
Knowledge Discovery in Databases (II)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
14. Ciclo de vida del dato
Modelo integral de una solución BI
SQL
XML
CSV
...
Data
Management /
Integration
Ciclo /
Proceso
datos
Modelo
datos
Dashboard
Report
API
15. Ciclo de vida del dato
Modelo integral de una solución BI (II)
● Un motor de BI/Analytics tiene que cumplir
siempre tres funciones básicas
○ Obtener datos fuentes
○ Disponer de un almacén estructurados de datos listos
para explotación
○ Ser capaz de generar reports/informes de los datos
16. Ciclo de vida del dato
Modelo integral de una solución BI (III)
● Estas tres funciones se traducen en:
1 2 3
Proceso Modelo
Plataforma
explotación
Datos
Ciclo de
análisis
de datos
Representación
para explotación
Información y
conocimiento
17. Ciclo de vida del dato
Heterogeneidad
● Las Bases de Datos heterogéneas son un
conjunto de BBDD administradas por
diferentes SGBD
○ La heterogeneidad de éstas se debe a que los datos son
de diferentes tipos o formatos
● En el contexto de BBDD heterogéneas se
distinguen tres tipos de heterogeneidad:
○ Semántica
○ Esquemática
○ Sintáctica
18. Índice de contenidos
● Introducción
● Ciclo de vida del dato
● La importancia de la calidad del dato
● La calidad del dato bajo un enfoque ETL
19. Importancia calidad dato
Tipos de datos
● El avance tecnológico ha cambiado
sustantivamente las fuentes de datos
○ Se estima que el 80% de la información del mundo
está desestructurada
○ Los datos desestructurados están creciendo a un ritmo
de 15 veces superior a los estructurados
○ La capacidad de procesamiento está creciendo a un
ritmo tan alto que no tenemos en ese sentido
problemas
○ El acceso a la información es realmente fácil para
todos
[Eaton2012]
20. Importancia calidad dato
Fuentes
● RDBMS (SQL Server, DB2, Oracle, MySQL,
PostgreSQL, Sybase IQ, etc.)
● NoSQL Data: HBase, Cassandra, MongoDB
● OLAP (Mondrian, Palo, XML/A)
● Web (REST, SOAP, XML, JSON)
● Files (CSV, Fixed, Excel, etc.)
● ERP (SAP, Salesforce, OpenERP)
● Hadoop Data: HDFS, Hive
● Web Data: Twitter, Facebook, Log Files, Web Logs
● Others: LDAP/Active Directory, Google Analytics,
etc.
21. Importancia calidad dato
Fuentes (II)
Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-data-infographic/
22. Importancia calidad dato
Retos
● Los datos están en todos los sitios
○ Datos ubicuos
● Son inconsistentes
○ Los registros están expresados de diferentes maneras
en cada sistema
● Problemas de rendimiento
○ Hacer consultas a base de datos para resumir los datos
suelen ser largos
○ Lleva al Sistema Operativo a una carga máxima
● Los datos no siempre están en Bases de Datos
○ Hojas Excel, servicios web, desestructurados, etc.
23. Importancia calidad dato
Retos (II)
● Los datos son incompletos [Mazza2012]
● Algunos tipos de datos no están registrados en
ningún lugar
○ Al no estar expresados, no podrán ser explotados
● La perspectiva de almacenamiento no suele
coincidir con la perspectiva de explotación
● Los usuarios suelen tener recelos para
extraer conclusiones de algunos datos
24. Importancia calidad dato
Agregación de datos
● El enfoque de ETL no es suficiente para dar
sentido y posibilidad de explotación a los
datos agregados
○ Los datos, así, deben ser normalizados para poder
eliminar todos los posibles problemas que pueden
aparecer en un proceso de integración de datos
○ Por ello, se habla de agregación/integración de datos
para la normalización de los datos
25. Importancia calidad dato
Agregación de datos (II)
● Además, la mala calidad de los datos genera
costes de mantenimiento y reparación
● Además de estos aspectos económicos, la mala
calidad de datos también afecta a la
satisfacción del usuario y a la reputación sobre
la toma de decisiones estratégicas
26. Importancia calidad dato
Agregación de datos (III)
● La agregación/integración de datos es el paso
más complicado de un proyecto de BI
○ Datanami: puede llegar a consumir hasta el 60-70% de
un proyecto
○ Según otras fuentes, entre un 70 y un 85%
● Aquí tenemos que hablar de integrar todas las
fuentes de datos en un dataset con datos
apropiados para el objetivo concreto que se
tiene en el proyecto
● Se hace necesario, por lo tanto, un proceso
para garantizar la calidad de los datos
27. Importancia calidad dato
Agregación de datos (IV)
Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transform-education
29. Importancia calidad dato
Gestión de la calidad de los datos (II)
● Criterios de medición de la calidad (en función
de necesidades particulares)
○ Completitud
■ Valores de atributos, registros y tablas
○ Precisión
■ Fiabilidad y veracidad
○ Consistencia
■ Respetar una serie de restricciones/reglas de negocio
○ Relevancia
■ Usabilidad para los stakeholders
○ Unicidad
■ Una entidad (marca, producto, persona, servicio, etc.) es
observada en contextos diferentes
[Goasdoué2007]
30. Importancia calidad dato
Criterios: 1) Completitud
● Falta algún valor? (tabla, columna, instancia)
○ Ejemplos
■ Falta el código postal en el 50% de los registros
● Algunas métricas
○ Ratio de valores ausentes (tabla, columna, instancia)
● Para la mejora
○ Estimación del valor por técnicas estadísticas
○ Ignorar el valor para explotaciones futuras
○ Emplearlo, a sabiendas de los problemas que puede
originar
31. Importancia calidad dato
Criterios: 1) Completitud (II)
● El rendimiento del modelo (el porcentaje de
predicciones acertadas) dentro del intervalo
de confianza establecidos, depende en mucho
de esta criterio de calidad
32. Importancia calidad dato
Criterios: 2) Precisión
● Cercanía entre el valor v y un valor v’ considerando éste
como la correcta representación de la realidad que el valor v
intenta representar
○ Ejemplos
■ Algunos proveedores que están marcados como
Activos fueron a la quiebra hace meses
● Algunas métricas
○ Número de estimaciones desviadas
○ Comparaciones con valores reales
Fuente: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-34662007000200012
33. Importancia calidad dato
Criterios: 2) Precisión (II)
● Es un parámetro muy relacionado con la
precisión, la fiabilidad y la veracidad
● En la práctica, a pesar de la atención que ha
recibido, es difícil cuantitivizar la precisión de
una medición
○ Es una operación muy cara de realizar
○ Esto se debe a que para poder realizarlo hay que
disponer de datos de referencia externos
○ Por ello, se hacen verificaciones menos estrictas
(patrones de comienzo de códigos, ratios
desproporcionados entre géneros, etc.)
34. Importancia calidad dato
Criterios: 3) Consistencia
● Los datos son consistentes si satisfacen un
conjunto de restricciones
● Para que sea efectivo, se deben establecer
unas estrategias de control
○ Aquí es donde aparece el concepto de “Regla de
negocio”
■ De este modo, la consistencia se puede ver como
una subdimensión de la precisión
■ Aún así, la consistencia solo da una medida
indirecta de la precisión
● Esta dimensión es esencial en la práctica
35. Importancia calidad dato
Criterios: 3) Consistencia (II)
● Métricas
○ ratio de % de conjuntos de datos que satisfacen las
restricciones
● En el contexto de las herramientas de calidad
de datos, los flujos de transformación de datos
y sus reglas de negocio se centran
básicamente en controles de consistencia
36. Importancia calidad dato
Criterios: 4) Relevancia
● ¿Son los datos relevantes para la tarea que se
tiene entre manos?
● Métricas
○ Grado de utilidad
● Oportunidades de mejora
○ Encuestas
■ Preguntando a los stakeholders por el grado de
utilidad de las respuestas dadas, ayudará a mejorar
la relevancia de tareas de agregación de datos
futuras (en especial, la primera tarea de selección
de datos)
37. Importancia calidad dato
Criterios: 4) Relevancia (II)
● Éste es un problema nuclear al Big Data
○ Con la aparición de grandes volúmenes de datos, los
usuarios en ocasiones se sienten frustrados por la
incapacidad para sacar algún dato útil entre toda la
maraña de datos
○ Por ello, los usuarios pueden tener el prejuicio hacia la
poca utilidad de los datos resultantes de un proyecto
de BI
○ Sin embargo, la utilidad juega un papel central en la
aceptación del proyecto
○ Por lo tanto, habrá que realmente medirlo (y
mejorarlo, en su caso, si procediera)
38. Importancia calidad dato
Criterios: 5) Unicidad
● Es un problema que aparece cuando una
entidad del modelo de datos aparece en más
de una ocasión
○ Ejemplo
■ Alexander Rayón y Alex Rayón son el mismo
empleado, pero observado en dos fuentes de datos
diferentes → pudieran parecer dos entidades, al no
coincidir a primera vista
39. Importancia calidad dato
Criterios: 5) Unicidad (II)
● Métricas
○ % de duplicados
○ número de instancias superior a las esperadas (más
difícil, por no conocer a priori el número de instancias)
41. Importancia calidad dato
Etapas gestión calidad dato: 1) Definir
Definir
● Dimensiones
Reglas de negocio
Esquema / Diccionario de datos
Modelo de datos
○ Dominio/Contexto: unidad mínima de análisis,
representación y explotación
○ Tiempo: real-time o bajo demanda
○ Frecuencia: de medición (fija o variable)
○ Extracción de atributos: ¿con qué me quedo? (símil de la
extracción de keywords representativas en un texto)
○ Jerarquía: para consultas (niveles de abstracción)
○ Granularidad: representación para explotación posterior
42. Importancia calidad dato
Etapas gestión calidad dato: 1) Definir (II)
Pensando en las dimensiones de calidad de datos
anteriormente expuestas
Source: http://themodernaccountant.com/2012/06/18/pearls-of-wisdom/
43. Importancia calidad dato
Etapas gestión calidad dato: 1) Definir (III)
Nivel Esquema: conflictos nominales y estructura
● Homónimos: mismo nombre para diferentes
objetos
● Sinónimos: diferentes nombres para el mismo
objeto
● Diferentes tipos de datos
● Diferentes estructura de componentes
● Diferentes restricciones de integridad
44. Importancia calidad dato
Etapas gestión calidad dato: 1) Definir (IV)
Nivel Instancia
● Atributo
○ Valores nulos, misspellings, valores crípticos, abreviaciones,
valores embebidos, etc.
● Registro
○ Dependencias de atributo incorrectas (zip y ciudad)
● Tipo de registro
○ Transposiciones de palabras, registros duplicados, registros
contradictorios
● Fuente
○ Referencias incorrectas (nº departamento es incorrecto)
● Agregación
○ Granularidad (ventas por grupo vs. ventas por producto) o
puntos de tiempo (semanal, diaria, quincenal, etc.)
45. Importancia calidad dato
Etapas gestión calidad dato: 1) Definir (V)
Source: http://en.wikipedia.org/wiki/Data_modeling
46. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar
Procesar Poner los datos a cumplir todas las
reglas de negocio
1) Análisis de datos
2) Flujo de transformación y
reglas de negocio
3) Verificación
4) Transformación
- Análisis metadatos de los datos: Profiling (1 a 1) o Mining (patrones)
- Quitar duplicados
- Atomización → desdoblar en varios campos
- Discretización
- Normalización: modelo referencial; unión; unicidad; nulos
- Integridad
- Eliminar ruido (malas observaciones, shocks exógenos, etc.)
- Outlier → obtención de conclusiones
- Valores vacíos: 1) Eliminar instancia; 2) Predecir por interpolación; 3) Usarlo para procesar
- Quitar la tendencia lineal (para fijarse en fluctuaciones… si es lo que interesa)
- Validación → dependencias de atributos para validar y corregir
- Verificar efectividad flujo de transformación y reglas de negocio
- Ejecución en serie
5) Realimentación - Para evitar trabajos futuros sobre los mismos datos
47. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar (II)
Quitar duplicados
Fuente: http://tutorialenexcel.blogspot.com.es/2012/10/15-tutorial-excel-manejando-la.html
48. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar (III)
Atomización
Fuente: http://www.educarchile.cl/ech/pro/app/detalle?ID=133092
49. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar (IV)
Discretización
Fuente: http://7542.fi.uba.ar/tecnica/sonido-en-windows/
50. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar (V)
Normalización
Fuente: http://www.anmopyc.es/noticia/boletin_de_normalizacion_julio_2014
51. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar (VI)
Integridad
Fuente: http://diariodelapelusa.blogspot.com.es/2013/04/de-la-integridad.html
52. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar (VII)
Quitar ruido
Fuente: http://www.dominandocamtasia.com/blog/como-eliminar-el-ruido-de-un-video
53. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar (VIII)
Gestión outliers
Fuente: http://mathworld.wolfram.com/Outlier.html
54. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar (IX)
Gestión valores vacíos
Fuente: http://www.fengfly.com/plus/view-169414-1.html
55. Importancia calidad dato
Etapas gestión calidad dato: 2) Procesar (X)
Quitar tendencia lineal
Fuente: http://www.monografias.com/trabajos96/regresion-lineal-simplificada-agricola/regresion-lineal-simplificada-agricola.shtml
57. Importancia calidad dato
Etapas gestión calidad dato: 3) Publicar (II)
An ontology is said to be an agreement about a
shared, formal, explicit and partial account of a
conceptualization
[...]
relative independence of particular applications
[...]
it consists of relatively generic knowledge that
can be reused by different kinds of
applications/tasks
60. Importancia calidad dato
Herramientas
Interactive Data Transformation Tools (IDTs)
1. Pentaho Data Integration: Kettle PDI
2. Talend Open Studio
3. DataCleaner
4. Talend Data Quality
5. Google Refine
6. Data Wrangler
7. Potter's Wheel ABC
61. Índice de contenidos
● Introducción
● Ciclo de vida del dato
● La importancia de la calidad del dato
● La calidad del dato bajo un enfoque ETL
63. Enfoque ETL
Proceso de análisis de datos (II)
1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar
Más datos no es
más
conocimiento
Extracción,
muestreo y
ética
Proceso de
calidad de
datos
Análisis
+
Acción
Hacer
operativos los
trabajos
anteriores
Post-procesamiento
64. Enfoque ETL
1) Seleccionar
1) Seleccionar
● Plantear las preguntas/problemas a resolver
● Seleccionar los datos necesarios para responder a las
preguntas formuladas
● Éste es precisamente uno de los retos actuales
○ ¿Qué datos son los críticos?
● Hay que poner sensores allí dónde estén los datos más
relevantes
○ Para este paso, suele ser interesante contar con
expertos del dominio
65. Enfoque ETL
1) Seleccionar (II)
1) Seleccionar
● Vivimos en una era en la que tener acceso a datos no es el
problema
○ El reto está en determinar qué datos son significativos
y significantes y por qué
Fuente: http://cesar-organizaciones.blogspot.com.es/2011/05/que-es-un-sistema-de-informacion-un.html
66. Enfoque ETL
1) Seleccionar (III)
1) Seleccionar
“The basic question is
not what can we
measure? The basic
question is what does
a good education look
like? Big questions”
67. Enfoque ETL
2) Capturar
2) Capturar
● Extracción de los datos
○ Ante la Variedad de las fuentes de datos, se hace
necesario disponer de un proceso ETL
● Así, se podrán transformar datos optimizados para
transacciones a datos optimizados para el análisis y el
reporting
● Se pueden emplear técnicas de muestreo de datos
● Respetar las leyes y la ética
Leer “Aspectos legales y éticos”
69. Enfoque ETL
3) Agregar
3) Agregar
● Reto actual: Variedad
● Necesidad de un modelo de datos normalizado para
disponer de procesos de datos sostenibles
● Tareas
○ Limpieza de datos, Integración, Transformación,
Reducción, Modelado, Rectificación de inconsistencias
y anomalías, Normalización
70. Enfoque ETL
4) Procesar
4) Procesar
● Analizar los datos normalizados y preparados
● Decidir contextos de explotación
○ Predicción
○ Intervención
○ Adaptación
○ Personalización
○ Recomendación
○ Alertas tempranas
○ Reflexión
○ ...
71. Enfoque ETL
4) Procesar (II)
4) Procesar
Motor de
Analytics
Predicción
Adaptación
Personalización
Intervención
...
Recomendación
72. Enfoque ETL
5) Utilizar
5) Utilizar
● Hacer operativos los trabajos anteriores
● Posibles escenarios de operación
○ Dashboard de KPIs
○ Informes
○ APIs de explotación desde otros sistemas
○ ...
73. Enfoque ETL
5) Utilizar (II)
5) Utilizar
Actividad BI.01.4. Pensar en escenarios de puesta
en valor del conocimiento descubierto
● ¿Qué?
● ¿Cómo?
● ¿Dónde?
● ¿Cuándo?
● ¿Por qué?
74. Enfoque ETL
6) Refinar
6) Refinar
● Post-procesamiento
○ Nuevos atributos al modelo
○ Nuevos indicadores
○ Nuevos tareas de calidad de datos
○ Nuevos métodos de análisis
○ ….
75. Referencias
[CdO07] JP. Campbell, PB. deBlois, and DG. Oblinger. Academic analytics: A new tool for a new era.
EDUCAUSE Center for Applied Research REVIEW, 2007.
[Clo12] Doug Clow. The learning analytics cycle: closing the loop effectively. 2nd International Conference
on Learning Analytics and Knowledge, 2012
[DA09] J. Dron and T. Anderson. On the design of collective applications. Proceedings of the 2009
International Conference on Computational Science and Engineering, 04:368–374, 2009.
[Eli11] Tanya Elias. Learning analytics: definitions, processes and potential. 2011.
[Mazza2012] Riccardo Mazza, Marco Bettoni, Marco Far ́, and Luca Mazezola. Moclog–monitoring online
courses with log data. 2012.
76. Copyright (c) 2014 University of Deusto
This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the
Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit http:
//creativecommons.org/licenses/by-sa/3.0/
Alex Rayón Jerez
@alrayon, alex.rayon@deusto.es
3 de Diciembre, 2014
77. Mejorando la calidad y el
ciclo de vida de los datos
en proyectos educativos
SNOLA
Alex Rayón Jerez
@alrayon, alex.rayon@deusto.es
3 de Diciembre, 2014