SlideShare una empresa de Scribd logo
Mejorando la calidad y el 
ciclo de vida de los datos 
en proyectos educativos 
SNOLA 
Alex Rayón Jerez 
@alrayon, alex.rayon@deusto.es 
3 de Diciembre, 2014
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del dato bajo un enfoque ETL
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del dato bajo un enfoque ETL
Introducción
Introducción (II)
Introducción (III)
Introducción (IV)
Introducción (V)
Introducción (VI) 
Source: http://www.economist.com/news/finance-and-economics/21578041-containers-have-been-more-important-globalisation-freer-trade-humble
Introducción (VII) 
¿Y en educación?
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del dato bajo un enfoque ETL
Ciclo de vida del dato 
Knowledge Discovery in Databases
Ciclo de vida del dato 
Knowledge Discovery in Databases (II) 
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
Ciclo de vida del dato 
Modelo integral de una solución BI 
SQL 
XML 
CSV 
... 
Data 
Management / 
Integration 
Ciclo / 
Proceso 
datos 
Modelo 
datos 
Dashboard 
Report 
API
Ciclo de vida del dato 
Modelo integral de una solución BI (II) 
● Un motor de BI/Analytics tiene que cumplir 
siempre tres funciones básicas 
o Obtener datos fuentes 
o Disponer de un almacén estructurados de datos listos 
para explotación 
o Ser capaz de generar reports/informes de los datos
Ciclo de vida del dato 
Modelo integral de una solución BI (III) 
● Estas tres funciones se traducen en: 
1 2 3 
Proceso Modelo 
Plataforma 
explotación 
Datos 
Ciclo de 
análisis 
de datos 
Representación 
para explotación 
Información y 
conocimiento
Ciclo de vida del dato 
Heterogeneidad 
● Las Bases de Datos heterogéneas son un 
conjunto de BBDD administradas por 
diferentes SGBD 
o La heterogeneidad de éstas se debe a que los datos son 
de diferentes tipos o formatos 
● En el contexto de BBDD heterogéneas se 
distinguen tres tipos de heterogeneidad: 
o Semántica 
o Esquemática 
o Sintáctica
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del dato bajo un enfoque ETL
Importancia calidad dato 
Tipos de datos 
● El avance tecnológico ha cambiado 
sustantivamente las fuentes de datos 
o Se estima que el 80% de la información del mundo 
está desestructurada 
o Los datos desestructurados están creciendo a un ritmo 
de 15 veces superior a los estructurados 
o La capacidad de procesamiento está creciendo a un 
ritmo tan alto que no tenemos en ese sentido 
problemas 
o El acceso a la información es realmente fácil para 
todos 
[Eaton2012]
Importancia calidad dato 
Fuentes 
● RDBMS (SQL Server, DB2, Oracle, MySQL, 
PostgreSQL, Sybase IQ, etc.) 
● NoSQL Data: HBase, Cassandra, MongoDB 
● OLAP (Mondrian, Palo, XML/A) 
● Web (REST, SOAP, XML, JSON) 
● Files (CSV, Fixed, Excel, etc.) 
● ERP (SAP, Salesforce, OpenERP) 
● Hadoop Data: HDFS, Hive 
● Web Data: Twitter, Facebook, Log Files, Web Logs 
● Others: LDAP/Active Directory, Google Analytics, 
etc.
Importancia calidad dato 
Fuentes (II) 
Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-data-infographic/
Importancia calidad dato 
Retos 
● Los datos están en todos los sitios 
o Datos ubicuos 
● Son inconsistentes 
o Los registros están expresados de diferentes maneras 
en cada sistema 
● Problemas de rendimiento 
o Hacer consultas a base de datos para resumir los datos 
suelen ser largos 
o Lleva al Sistema Operativo a una carga máxima 
● Los datos no siempre están en Bases de Datos 
o Hojas Excel, servicios web, desestructurados, etc.
Importancia calidad dato 
Retos (II) 
● Los datos son incompletos [Mazza2012] 
● Algunos tipos de datos no están registrados en 
ningún lugar 
o Al no estar expresados, no podrán ser explotados 
● La perspectiva de almacenamiento no suele 
coincidir con la perspectiva de explotación 
● Los usuarios suelen tener recelos para 
extraer conclusiones de algunos datos
Importancia calidad dato 
Agregación de datos 
● El enfoque de ETL no es suficiente para dar 
sentido y posibilidad de explotación a los 
datos agregados 
o Los datos, así, deben ser normalizados para poder 
eliminar todos los posibles problemas que pueden 
aparecer en un proceso de integración de datos 
o Por ello, se habla de agregación/integración de datos 
para la normalización de los datos
Importancia calidad dato 
Agregación de datos (II) 
● Además, la mala calidad de los datos genera 
costes de mantenimiento y reparación 
● Además de estos aspectos económicos, la mala 
calidad de datos también afecta a la 
satisfacción del usuario y a la reputación sobre 
la toma de decisiones estratégicas
Importancia calidad dato 
Agregación de datos (III) 
● La agregación/integración de datos es el paso 
más complicado de un proyecto de BI 
o Datanami: puede llegar a consumir hasta el 60-70% de 
un proyecto 
o Según otras fuentes, entre un 70 y un 85% 
● Aquí tenemos que hablar de integrar todas las 
fuentes de datos en un dataset con datos 
apropiados para el objetivo concreto que se 
tiene en el proyecto 
● Se hace necesario, por lo tanto, un proceso 
para garantizar la calidad de los datos
Importancia calidad dato 
Agregación de datos (IV) 
Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transform-education
Importancia calidad dato 
Gestión de la calidad de los datos
Importancia calidad dato 
Gestión de la calidad de los datos (II) 
● Criterios de medición de la calidad (en función 
de necesidades particulares) 
o Completitud 
 Valores de atributos, registros y tablas 
o Precisión 
 Fiabilidad y veracidad 
o Consistencia 
 Respetar una serie de restricciones/reglas de negocio 
o Relevancia 
 Usabilidad para los stakeholders 
o Unicidad 
 Una entidad (marca, producto, persona, servicio, etc.) 
es observada en contextos diferentes 
[Goasdoué2007]
Importancia calidad dato 
Criterios: 1) Completitud 
● Falta algún valor? (tabla, columna, instancia) 
o Ejemplos 
 Falta el código postal en el 50% de los registros 
● Algunas métricas 
o Ratio de valores ausentes (tabla, columna, instancia) 
● Para la mejora 
o Estimación del valor por técnicas estadísticas 
o Ignorar el valor para explotaciones futuras 
o Emplearlo, a sabiendas de los problemas que puede 
originar
Importancia calidad dato 
Criterios: 1) Completitud (II) 
● El rendimiento del modelo (el porcentaje de 
predicciones acertadas) dentro del intervalo 
de confianza establecidos, depende en mucho 
de esta criterio de calidad
Importancia calidad dato 
Criterios: 2) Precisión 
● Cercanía entre el valor v y un valor v’ considerando éste 
como la correcta representación de la realidad que el valor v 
intenta representar 
o Ejemplos 
 Algunos proveedores que están marcados como 
Activos fueron a la quiebra hace meses 
● Algunas métricas 
o Número de estimaciones desviadas 
o Comparaciones con valores reales 
Fuente: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-34662007000200012
Importancia calidad dato 
Criterios: 2) Precisión (II) 
● Es un parámetro muy relacionado con la 
precisión, la fiabilidad y la veracidad 
● En la práctica, a pesar de la atención que ha 
recibido, es difícil cuantitivizar la precisión de 
una medición 
o Es una operación muy cara de realizar 
o Esto se debe a que para poder realizarlo hay que 
disponer de datos de referencia externos 
o Por ello, se hacen verificaciones menos estrictas 
(patrones de comienzo de códigos, ratios 
desproporcionados entre géneros, etc.)
Importancia calidad dato 
Criterios: 3) Consistencia 
● Los datos son consistentes si satisfacen un 
conjunto de restricciones 
● Para que sea efectivo, se deben establecer 
unas estrategias de control 
o Aquí es donde aparece el concepto de “Regla de 
negocio” 
 De este modo, la consistencia se puede ver como 
una subdimensión de la precisión 
 Aún así, la consistencia solo da una medida 
indirecta de la precisión 
● Esta dimensión es esencial en la práctica
Importancia calidad dato 
Criterios: 3) Consistencia (II) 
● Métricas 
o ratio de % de conjuntos de datos que satisfacen las 
restricciones 
● En el contexto de las herramientas de calidad 
de datos, los flujos de transformación de datos 
y sus reglas de negocio se centran 
básicamente en controles de consistencia
Importancia calidad dato 
Criterios: 4) Relevancia 
● ¿Son los datos relevantes para la tarea que se 
tiene entre manos? 
● Métricas 
o Grado de utilidad 
● Oportunidades de mejora 
o Encuestas 
 Preguntando a los stakeholders por el grado de 
utilidad de las respuestas dadas, ayudará a mejorar 
la relevancia de tareas de agregación de datos 
futuras (en especial, la primera tarea de selección 
de datos)
Importancia calidad dato 
Criterios: 4) Relevancia (II) 
● Éste es un problema nuclear al Big Data 
o Con la aparición de grandes volúmenes de datos, los 
usuarios en ocasiones se sienten frustrados por la 
incapacidad para sacar algún dato útil entre toda la 
maraña de datos 
o Por ello, los usuarios pueden tener el prejuicio hacia la 
poca utilidad de los datos resultantes de un proyecto 
de BI 
o Sin embargo, la utilidad juega un papel central en la 
aceptación del proyecto 
o Por lo tanto, habrá que realmente medirlo (y 
mejorarlo, en su caso, si procediera)
Importancia calidad dato 
Criterios: 5) Unicidad 
● Es un problema que aparece cuando una 
entidad del modelo de datos aparece en más 
de una ocasión 
o Ejemplo 
 Alexander Rayón y Alex Rayón son el mismo 
empleado, pero observado en dos fuentes de datos 
diferentes → pudieran parecer dos entidades, al no 
coincidir a primera vista
Importancia calidad dato 
Criterios: 5) Unicidad (II) 
● Métricas 
o % de duplicados 
o número de instancias superior a las esperadas (más 
difícil, por no conocer a priori el número de instancias)
Importancia calidad dato 
Etapas gestión calidad dato 
Definir Procesar Publicar
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir 
Definir 
● Dimensiones 
Reglas de negocio 
Esquema / Diccionario de datos 
Modelo de datos 
o Dominio/Contexto: unidad mínima de análisis, 
representación y explotación 
o Tiempo: real-time o bajo demanda 
o Frecuencia: de medición (fija o variable) 
o Extracción de atributos: ¿con qué me quedo? (símil de la 
extracción de keywords representativas en un texto) 
o Jerarquía: para consultas (niveles de abstracción) 
o Granularidad: representación para explotación posterior
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir (II) 
Pensando en las dimensiones de calidad de datos 
anteriormente expuestas 
Source: http://themodernaccountant.com/2012/06/18/pearls-of-wisdom/
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir (III) 
Nivel Esquema: conflictos nominales y estructura 
● Homónimos: mismo nombre para diferentes 
objetos 
● Sinónimos: diferentes nombres para el mismo 
objeto 
● Diferentes tipos de datos 
● Diferentes estructura de componentes 
● Diferentes restricciones de integridad
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir (IV) 
Nivel Instancia 
● Atributo 
o Valores nulos, misspellings, valores crípticos, abreviaciones, 
valores embebidos, etc. 
● Registro 
o Dependencias de atributo incorrectas (zip y ciudad) 
● Tipo de registro 
o Transposiciones de palabras, registros duplicados, registros 
contradictorios 
● Fuente 
o Referencias incorrectas (nº departamento es incorrecto) 
● Agregación 
o Granularidad (ventas por grupo vs. ventas por producto) o 
puntos de tiempo (semanal, diaria, quincenal, etc.)
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir (V) 
Source: http://en.wikipedia.org/wiki/Data_modeling
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar 
Procesar Poner los datos a cumplir todas las 
reglas de negocio 
1) Análisis de datos 
2) Flujo de transformación y 
reglas de negocio 
3) Verificación 
4) Transformación 
- Análisis metadatos de los datos: Profiling (1 a 1) o Mining (patrones) 
- Quitar duplicados 
- Atomización → desdoblar en varios campos 
- Discretización 
- Normalización: modelo referencial; unión; unicidad; nulos 
- Integridad 
- Eliminar ruido (malas observaciones, shocks exógenos, etc.) 
- Outlier → obtención de conclusiones 
- Valores vacíos: 1) Eliminar instancia; 2) Predecir por interpolación; 3) Usarlo para procesar 
- Quitar la tendencia lineal (para fijarse en fluctuaciones… si es lo que interesa) 
- Validación → dependencias de atributos para validar y corregir 
- Verificar efectividad flujo de transformación y reglas de negocio 
- Ejecución en serie 
5) Realimentación - Para evitar trabajos futuros sobre los mismos datos
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (II) 
Quitar duplicados 
Fuente: http://tutorialenexcel.blogspot.com.es/2012/10/15-tutorial-excel-manejando-la.html
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (III) 
Atomización 
Fuente: http://www.educarchile.cl/ech/pro/app/detalle?ID=133092
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (IV) 
Discretización 
Fuente: http://7542.fi.uba.ar/tecnica/sonido-en-windows/
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (V) 
Normalización 
Fuente: http://www.anmopyc.es/noticia/boletin_de_normalizacion_julio_2014
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (VI) 
Integridad 
Fuente: http://diariodelapelusa.blogspot.com.es/2013/04/de-la-integridad.html
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (VII) 
Quitar ruido 
Fuente: http://www.dominandocamtasia.com/blog/como-eliminar-el-ruido-de-un-video
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (VIII) 
Gestión outliers 
Fuente: http://mathworld.wolfram.com/Outlier.html
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (IX) 
Gestión valores vacíos 
Fuente: http://www.fengfly.com/plus/view-169414-1.html
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (X) 
Quitar tendencia lineal 
Fuente: http://www.monografias.com/trabajos96/regresion-lineal-simplificada-agricola/regresion-lineal-simplificada-agricola.shtml
Importancia calidad dato 
Etapas gestión calidad dato: 3) Publicar
Importancia calidad dato 
Etapas gestión calidad dato: 3) Publicar (II) 
An ontology is said to be an agreement about a 
shared, formal, explicit and partial account of a 
conceptualization 
[...] 
relative independence of particular applications 
[...] 
it consists of relatively generic knowledge that 
can be reused by different kinds of 
applications/tasks
Importancia calidad dato 
Etapas gestión calidad dato: 3) Publicar (III)
Importancia calidad dato 
Etapas gestión calidad dato: 3) Publicar (IV)
Importancia calidad dato 
Herramientas 
Interactive Data Transformation Tools (IDTs) 
1. Pentaho Data Integration: Kettle PDI 
2. Talend Open Studio 
3. DataCleaner 
4. Talend Data Quality 
5. Google Refine 
6. Data Wrangler 
7. Potter's Wheel ABC
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del dato bajo un enfoque ETL
Enfoque ETL 
Proceso de análisis de datos
Enfoque ETL 
Proceso de análisis de datos (II) 
1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar 
Más datos no 
es más 
conocimiento 
Extracción, 
muestreo y 
ética 
Proceso de 
calidad de 
datos 
Análisis 
+ 
Acción 
Hacer 
operativos los 
trabajos 
anteriores 
Post-procesamiento
Enfoque ETL 
1) Seleccionar 
1) Seleccionar 
● Plantear las preguntas/problemas a resolver 
● Seleccionar los datos necesarios para responder a las 
preguntas formuladas 
● Éste es precisamente uno de los retos actuales 
o ¿Qué datos son los críticos? 
● Hay que poner sensores allí dónde estén los datos más 
relevantes 
o Para este paso, suele ser interesante contar con 
expertos del dominio
Enfoque ETL 
1) Seleccionar (II) 
1) Seleccionar 
● Vivimos en una era en la que tener acceso a datos no es el 
problema 
o El reto está en determinar qué datos son significativos 
y significantes y por qué 
Fuente: http://cesar-organizaciones.blogspot.com.es/2011/05/que-es-un-sistema-de-informacion-un.html
Enfoque ETL 
1) Seleccionar (III) 
1) Seleccionar 
“The basic question is 
not what can we 
measure? The basic 
question is what does 
a good education look 
like? Big questions”
Enfoque ETL 
2) Capturar 
2) Capturar 
● Extracción de los datos 
o Ante la Variedad de las fuentes de datos, se hace 
necesario disponer de un proceso ETL 
● Así, se podrán transformar datos optimizados para 
transacciones a datos optimizados para el análisis y el 
reporting 
● Se pueden emplear técnicas de muestreo de datos 
● Respetar las leyes y la ética 
Leer “Aspectos legales y éticos”
Enfoque ETL 
2) Capturar (II) 
2) Capturar
Enfoque ETL 
3) Agregar 
3) Agregar 
● Reto actual: Variedad 
● Necesidad de un modelo de datos normalizado para 
disponer de procesos de datos sostenibles 
● Tareas 
o Limpieza de datos, Integración, Transformación, 
Reducción, Modelado, Rectificación de inconsistencias 
y anomalías, Normalización
Enfoque ETL 
4) Procesar 
4) Procesar 
● Analizar los datos normalizados y preparados 
● Decidir contextos de explotación 
o Predicción 
o Intervención 
o Adaptación 
o Personalización 
o Recomendación 
o Alertas tempranas 
o Reflexión
Enfoque ETL 
4) Procesar (II) 
4) Procesar 
Motor de 
Analytics 
Predicción 
Adaptación 
Personalización 
Intervención 
... 
Recomendación
Enfoque ETL 
5) Utilizar 
5) Utilizar 
● Hacer operativos los trabajos anteriores 
● Posibles escenarios de operación 
o Dashboard de KPIs 
o Informes 
o APIs de explotación desde otros sistemas 
o ...
Enfoque ETL 
5) Utilizar (II) 
5) Utilizar 
Actividad BI.01.4. Pensar en escenarios de puesta 
en valor del conocimiento descubierto 
● ¿Qué? 
● ¿Cómo? 
● ¿Dónde? 
● ¿Cuándo? 
● ¿Por qué?
Enfoque ETL 
6) Refinar 
6) Refinar 
● Post-procesamiento 
o Nuevos atributos al modelo 
o Nuevos indicadores 
o Nuevos tareas de calidad de datos 
o Nuevos métodos de análisis 
o ….
Referencias 
[CdO07] JP. Campbell, PB. deBlois, and DG. Oblinger. Academic analytics: A new tool for a new era. 
EDUCAUSE Center for Applied Research REVIEW, 2007. 
[Clo12] Doug Clow. The learning analytics cycle: closing the loop effectively. 2nd International Conference 
on Learning Analytics and Knowledge, 2012 
[DA09] J. Dron and T. Anderson. On the design of collective applications. Proceedings of the 2009 
International Conference on Computational Science and Engineering, 04:368–374, 2009. 
[Eli11] Tanya Elias. Learning analytics: definitions, processes and potential. 2011. 
[Mazza2012] Riccardo Mazza, Marco Bettoni, Marco Far ́, and Luca Mazezola. Moclog–monitoring online 
courses with log data. 2012.
Copyright (c) 2014 University of Deusto 
This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the 
Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit 
http://creativecommons.org/licenses/by-sa/3.0/ 
Alex Rayón Jerez 
@alrayon, alex.rayon@deusto.es 
3 de Diciembre, 2014
Mejorando la calidad y el 
ciclo de vida de los datos 
en proyectos educativos 
SNOLA 
Alex Rayón Jerez 
@alrayon, alex.rayon@deusto.es 
3 de Diciembre, 2014

Más contenido relacionado

La actualidad más candente

System architecture infosheet
System architecture infosheetSystem architecture infosheet
System architecture infosheet
jeanrummy
 
Single View of the Customer
Single View of the Customer Single View of the Customer
Single View of the Customer
MongoDB
 
Technology stack of social networks [MTS]
Technology stack of social networks [MTS]Technology stack of social networks [MTS]
Technology stack of social networks [MTS]
philmaweb
 
Microservicios net arquitectura para aplicaciones net contenerizadas - net ...
Microservicios net   arquitectura para aplicaciones net contenerizadas - net ...Microservicios net   arquitectura para aplicaciones net contenerizadas - net ...
Microservicios net arquitectura para aplicaciones net contenerizadas - net ...
Germán Küber
 
DSpace 7 - The Power of Configurable Entities
DSpace 7 - The Power of Configurable EntitiesDSpace 7 - The Power of Configurable Entities
DSpace 7 - The Power of Configurable Entities
Atmire
 
Reporting Services.ppt
Reporting Services.pptReporting Services.ppt
Reporting Services.ppt
Sandro Ernesto Ruiz Samaniego
 
RDF Data Model
RDF Data ModelRDF Data Model
RDF Data Model
Jose Emilio Labra Gayo
 
Paths to more personal and collaborative knowledge graphs
Paths to more personal and collaborative knowledge graphsPaths to more personal and collaborative knowledge graphs
Paths to more personal and collaborative knowledge graphs
Alan Morrison
 
Data Science: Past, Present, and Future
Data Science: Past, Present, and FutureData Science: Past, Present, and Future
Data Science: Past, Present, and Future
Gregory Piatetsky-Shapiro
 
Understanding RDF: the Resource Description Framework in Context (1999)
Understanding RDF: the Resource Description Framework in Context  (1999)Understanding RDF: the Resource Description Framework in Context  (1999)
Understanding RDF: the Resource Description Framework in Context (1999)
Dan Brickley
 
Future of Ed Tech for Executive Education
Future of Ed Tech for Executive EducationFuture of Ed Tech for Executive Education
Future of Ed Tech for Executive Education
Douglas Ng
 
IV Unidad Sistemas Operativos 2 Cliente-Servidor
IV Unidad Sistemas Operativos 2 Cliente-Servidor IV Unidad Sistemas Operativos 2 Cliente-Servidor
IV Unidad Sistemas Operativos 2 Cliente-Servidor
Samuel Cervantes
 
Php mysql iis
Php mysql iisPhp mysql iis
Php mysql iis
ejmc_sic
 
Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...
Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...
Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...
Data Con LA
 
fake product review monitoring
fake product review monitoringfake product review monitoring
fake product review monitoring
DHARSHASIVASHANKARIK
 
Web 3.0
Web 3.0 Web 3.0
Web 3.0
Zainab Muneer
 
Pinecone Vector Database.pdf
Pinecone Vector Database.pdfPinecone Vector Database.pdf
Pinecone Vector Database.pdf
Aniruddha Chakrabarti
 

La actualidad más candente (17)

System architecture infosheet
System architecture infosheetSystem architecture infosheet
System architecture infosheet
 
Single View of the Customer
Single View of the Customer Single View of the Customer
Single View of the Customer
 
Technology stack of social networks [MTS]
Technology stack of social networks [MTS]Technology stack of social networks [MTS]
Technology stack of social networks [MTS]
 
Microservicios net arquitectura para aplicaciones net contenerizadas - net ...
Microservicios net   arquitectura para aplicaciones net contenerizadas - net ...Microservicios net   arquitectura para aplicaciones net contenerizadas - net ...
Microservicios net arquitectura para aplicaciones net contenerizadas - net ...
 
DSpace 7 - The Power of Configurable Entities
DSpace 7 - The Power of Configurable EntitiesDSpace 7 - The Power of Configurable Entities
DSpace 7 - The Power of Configurable Entities
 
Reporting Services.ppt
Reporting Services.pptReporting Services.ppt
Reporting Services.ppt
 
RDF Data Model
RDF Data ModelRDF Data Model
RDF Data Model
 
Paths to more personal and collaborative knowledge graphs
Paths to more personal and collaborative knowledge graphsPaths to more personal and collaborative knowledge graphs
Paths to more personal and collaborative knowledge graphs
 
Data Science: Past, Present, and Future
Data Science: Past, Present, and FutureData Science: Past, Present, and Future
Data Science: Past, Present, and Future
 
Understanding RDF: the Resource Description Framework in Context (1999)
Understanding RDF: the Resource Description Framework in Context  (1999)Understanding RDF: the Resource Description Framework in Context  (1999)
Understanding RDF: the Resource Description Framework in Context (1999)
 
Future of Ed Tech for Executive Education
Future of Ed Tech for Executive EducationFuture of Ed Tech for Executive Education
Future of Ed Tech for Executive Education
 
IV Unidad Sistemas Operativos 2 Cliente-Servidor
IV Unidad Sistemas Operativos 2 Cliente-Servidor IV Unidad Sistemas Operativos 2 Cliente-Servidor
IV Unidad Sistemas Operativos 2 Cliente-Servidor
 
Php mysql iis
Php mysql iisPhp mysql iis
Php mysql iis
 
Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...
Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...
Modernizing the Analytics and Data Science Lifecycle for the Scalable Enterpr...
 
fake product review monitoring
fake product review monitoringfake product review monitoring
fake product review monitoring
 
Web 3.0
Web 3.0 Web 3.0
Web 3.0
 
Pinecone Vector Database.pdf
Pinecone Vector Database.pdfPinecone Vector Database.pdf
Pinecone Vector Database.pdf
 

Similar a Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos

Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
DeustoTech Learning
 
Data Quality
Data QualityData Quality
Data Quality
PowerData
 
Análisis y procesamiento de datos para descubrir conocimiento
Análisis y procesamiento de datos para descubrir conocimientoAnálisis y procesamiento de datos para descubrir conocimiento
Análisis y procesamiento de datos para descubrir conocimiento
Alex Rayón Jerez
 
24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...
24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...
24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...
SpanishPASSVC
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8
John Bulla
 
02000 metodo validacion
02000 metodo validacion02000 metodo validacion
02000 metodo validacion
JEANS DIEGO RAMOS PEÑALOZA
 
Asegurando la calidad del dato en mi entorno de business intelligence
Asegurando la calidad del dato en mi entorno de business intelligenceAsegurando la calidad del dato en mi entorno de business intelligence
Asegurando la calidad del dato en mi entorno de business intelligence
Mary Arcia
 
2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf
NathalLpez
 
Data Integration & Data Quality Open Source (spanish)
Data Integration & Data Quality Open Source (spanish)Data Integration & Data Quality Open Source (spanish)
Data Integration & Data Quality Open Source (spanish)
Stratebi
 
Administración de Metadatos | Foro Gobierno BBVA
Administración de Metadatos | Foro Gobierno BBVAAdministración de Metadatos | Foro Gobierno BBVA
Administración de Metadatos | Foro Gobierno BBVA
Javier Chacon
 
Six Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processSix Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo process
barom
 
Fundamentos dw
Fundamentos dwFundamentos dw
Fundamentos dw
Roberto Espinosa
 
Dmaic revision de pasos
Dmaic   revision de pasosDmaic   revision de pasos
Dmaic revision de pasos
DULCE MARIA FLORES HERREERA
 
Webinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
Webinario: importancia de una estrategia de ETL en proyectos de BI y AnalíticaWebinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
Webinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
IT-NOVA
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data Management
Luis Ortiz
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data Management
Luis Ortiz
 
Powerdata “Gestiona tus metadatos correctamente y ayuda a IT y a negocios"
Powerdata   “Gestiona tus metadatos correctamente y ayuda a IT y a negocios"Powerdata   “Gestiona tus metadatos correctamente y ayuda a IT y a negocios"
Powerdata “Gestiona tus metadatos correctamente y ayuda a IT y a negocios"
Javier Abaurre
 
Como la Buena Gestión de sus Metadatos Beneficia a las áreas de IT y de negocio
Como la Buena Gestión de sus Metadatos Beneficia a las áreas de IT y de negocioComo la Buena Gestión de sus Metadatos Beneficia a las áreas de IT y de negocio
Como la Buena Gestión de sus Metadatos Beneficia a las áreas de IT y de negocio
PowerData
 
Data driven enterprises + agilismo
Data driven enterprises + agilismoData driven enterprises + agilismo
Data driven enterprises + agilismo
"María José \"Maya\"" Ormaza
 
Data pipeline
Data pipelineData pipeline
Data pipeline
Elena Lopez
 

Similar a Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos (20)

Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
 
Data Quality
Data QualityData Quality
Data Quality
 
Análisis y procesamiento de datos para descubrir conocimiento
Análisis y procesamiento de datos para descubrir conocimientoAnálisis y procesamiento de datos para descubrir conocimiento
Análisis y procesamiento de datos para descubrir conocimiento
 
24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...
24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...
24 HOP edición Español - Asegurando la calidad del dato en mi proyecto de bi ...
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8
 
02000 metodo validacion
02000 metodo validacion02000 metodo validacion
02000 metodo validacion
 
Asegurando la calidad del dato en mi entorno de business intelligence
Asegurando la calidad del dato en mi entorno de business intelligenceAsegurando la calidad del dato en mi entorno de business intelligence
Asegurando la calidad del dato en mi entorno de business intelligence
 
2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf
 
Data Integration & Data Quality Open Source (spanish)
Data Integration & Data Quality Open Source (spanish)Data Integration & Data Quality Open Source (spanish)
Data Integration & Data Quality Open Source (spanish)
 
Administración de Metadatos | Foro Gobierno BBVA
Administración de Metadatos | Foro Gobierno BBVAAdministración de Metadatos | Foro Gobierno BBVA
Administración de Metadatos | Foro Gobierno BBVA
 
Six Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processSix Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo process
 
Fundamentos dw
Fundamentos dwFundamentos dw
Fundamentos dw
 
Dmaic revision de pasos
Dmaic   revision de pasosDmaic   revision de pasos
Dmaic revision de pasos
 
Webinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
Webinario: importancia de una estrategia de ETL en proyectos de BI y AnalíticaWebinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
Webinario: importancia de una estrategia de ETL en proyectos de BI y Analítica
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data Management
 
Master Data Management
Master Data ManagementMaster Data Management
Master Data Management
 
Powerdata “Gestiona tus metadatos correctamente y ayuda a IT y a negocios"
Powerdata   “Gestiona tus metadatos correctamente y ayuda a IT y a negocios"Powerdata   “Gestiona tus metadatos correctamente y ayuda a IT y a negocios"
Powerdata “Gestiona tus metadatos correctamente y ayuda a IT y a negocios"
 
Como la Buena Gestión de sus Metadatos Beneficia a las áreas de IT y de negocio
Como la Buena Gestión de sus Metadatos Beneficia a las áreas de IT y de negocioComo la Buena Gestión de sus Metadatos Beneficia a las áreas de IT y de negocio
Como la Buena Gestión de sus Metadatos Beneficia a las áreas de IT y de negocio
 
Data driven enterprises + agilismo
Data driven enterprises + agilismoData driven enterprises + agilismo
Data driven enterprises + agilismo
 
Data pipeline
Data pipelineData pipeline
Data pipeline
 

Más de Alex Rayón Jerez

El Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceEl Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligence
Alex Rayón Jerez
 
Herramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructuradosHerramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructurados
Alex Rayón Jerez
 
Las competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricasLas competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricas
Alex Rayón Jerez
 
El Big Data en mi empresa ¿de qué me sirve?
El Big Data en mi empresa  ¿de qué me sirve?El Big Data en mi empresa  ¿de qué me sirve?
El Big Data en mi empresa ¿de qué me sirve?
Alex Rayón Jerez
 
Aplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresaAplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresa
Alex Rayón Jerez
 
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text MiningAnálisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
Alex Rayón Jerez
 
Marketing intelligence con estrategia omnicanal y Customer Journey
Marketing intelligence con estrategia omnicanal y Customer JourneyMarketing intelligence con estrategia omnicanal y Customer Journey
Marketing intelligence con estrategia omnicanal y Customer Journey
Alex Rayón Jerez
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big Data
Alex Rayón Jerez
 
Customer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big DataCustomer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big Data
Alex Rayón Jerez
 
Big Data: the Management Revolution
Big Data: the Management RevolutionBig Data: the Management Revolution
Big Data: the Management Revolution
Alex Rayón Jerez
 
Optimización de procesos con el Big Data
Optimización de procesos con el Big DataOptimización de procesos con el Big Data
Optimización de procesos con el Big Data
Alex Rayón Jerez
 
La economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidadesLa economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidades
Alex Rayón Jerez
 
Cómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big DataCómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big Data
Alex Rayón Jerez
 
El poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero éticaEl poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero ética
Alex Rayón Jerez
 
Búsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizajeBúsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizaje
Alex Rayón Jerez
 
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Alex Rayón Jerez
 
Fomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas socialesFomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas sociales
Alex Rayón Jerez
 
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Alex Rayón Jerez
 
Procesamiento y visualización de datos para generar nuevo conocimiento
Procesamiento y visualización de datos para generar nuevo conocimientoProcesamiento y visualización de datos para generar nuevo conocimiento
Procesamiento y visualización de datos para generar nuevo conocimiento
Alex Rayón Jerez
 
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
Alex Rayón Jerez
 

Más de Alex Rayón Jerez (20)

El Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceEl Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligence
 
Herramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructuradosHerramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructurados
 
Las competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricasLas competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricas
 
El Big Data en mi empresa ¿de qué me sirve?
El Big Data en mi empresa  ¿de qué me sirve?El Big Data en mi empresa  ¿de qué me sirve?
El Big Data en mi empresa ¿de qué me sirve?
 
Aplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresaAplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresa
 
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text MiningAnálisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
 
Marketing intelligence con estrategia omnicanal y Customer Journey
Marketing intelligence con estrategia omnicanal y Customer JourneyMarketing intelligence con estrategia omnicanal y Customer Journey
Marketing intelligence con estrategia omnicanal y Customer Journey
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big Data
 
Customer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big DataCustomer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big Data
 
Big Data: the Management Revolution
Big Data: the Management RevolutionBig Data: the Management Revolution
Big Data: the Management Revolution
 
Optimización de procesos con el Big Data
Optimización de procesos con el Big DataOptimización de procesos con el Big Data
Optimización de procesos con el Big Data
 
La economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidadesLa economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidades
 
Cómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big DataCómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big Data
 
El poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero éticaEl poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero ética
 
Búsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizajeBúsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizaje
 
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
 
Fomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas socialesFomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas sociales
 
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
 
Procesamiento y visualización de datos para generar nuevo conocimiento
Procesamiento y visualización de datos para generar nuevo conocimientoProcesamiento y visualización de datos para generar nuevo conocimiento
Procesamiento y visualización de datos para generar nuevo conocimiento
 
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
 

Último

Relieve de la Región de la Selva Peruana.pdf
Relieve de la Región de la Selva Peruana.pdfRelieve de la Región de la Selva Peruana.pdf
Relieve de la Región de la Selva Peruana.pdf
angelakarenhuayre
 
Fichero Léxico / Pandemia Lingüística / USCO
Fichero Léxico / Pandemia Lingüística / USCOFichero Léxico / Pandemia Lingüística / USCO
Fichero Léxico / Pandemia Lingüística / USCO
mariahernandez632951
 
Introduccion-a-la-circunferencia area y longitud
Introduccion-a-la-circunferencia area y longitudIntroduccion-a-la-circunferencia area y longitud
Introduccion-a-la-circunferencia area y longitud
AsafHdez
 
PLAN ANUAL DE TRABAJO (PAT) 2024 MINEDU PERÚ
PLAN ANUAL DE TRABAJO (PAT) 2024 MINEDU PERÚPLAN ANUAL DE TRABAJO (PAT) 2024 MINEDU PERÚ
PLAN ANUAL DE TRABAJO (PAT) 2024 MINEDU PERÚ
Ferrer17
 
Sesión Un día en el ministerio de Jesús.pdf
Sesión Un día en el ministerio de Jesús.pdfSesión Un día en el ministerio de Jesús.pdf
Sesión Un día en el ministerio de Jesús.pdf
https://gramadal.wordpress.com/
 
ACERTIJO MATEMÁTICO DEL MEDALLERO OLÍMPICO. Por JAVIER SOLIS NOYOLA
ACERTIJO MATEMÁTICO DEL MEDALLERO OLÍMPICO. Por JAVIER SOLIS NOYOLAACERTIJO MATEMÁTICO DEL MEDALLERO OLÍMPICO. Por JAVIER SOLIS NOYOLA
ACERTIJO MATEMÁTICO DEL MEDALLERO OLÍMPICO. Por JAVIER SOLIS NOYOLA
JAVIER SOLIS NOYOLA
 
2024 DIA DEL LOGRO-ARTE 2 - IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO-ARTE 2 - IE HONORIO DELGADO ESPINOZA2024 DIA DEL LOGRO-ARTE 2 - IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO-ARTE 2 - IE HONORIO DELGADO ESPINOZA
Sandra Mariela Ballón Aguedo
 
Informe de Evaluacion Diagnostica de Matematica 1-5 Ccesa007.pdf
Informe de Evaluacion Diagnostica de Matematica 1-5 Ccesa007.pdfInforme de Evaluacion Diagnostica de Matematica 1-5 Ccesa007.pdf
Informe de Evaluacion Diagnostica de Matematica 1-5 Ccesa007.pdf
Demetrio Ccesa Rayme
 
Informe de Evaluacion Diagnostica de Comunicacion 1-5 Ccesa007.pdf
Informe de Evaluacion Diagnostica de Comunicacion 1-5 Ccesa007.pdfInforme de Evaluacion Diagnostica de Comunicacion 1-5 Ccesa007.pdf
Informe de Evaluacion Diagnostica de Comunicacion 1-5 Ccesa007.pdf
Demetrio Ccesa Rayme
 
SEMANAS DE GESTION 2024 para trabajo escolar
SEMANAS DE GESTION 2024 para trabajo escolarSEMANAS DE GESTION 2024 para trabajo escolar
SEMANAS DE GESTION 2024 para trabajo escolar
JuanPabloII10
 
fase intensiva taller intensivo de CTE julio
fase intensiva taller intensivo de CTE juliofase intensiva taller intensivo de CTE julio
fase intensiva taller intensivo de CTE julio
leydijazminguevaragu
 
Presentación sobré la culturas Lima, la cultura Paracas y la cultura Vicús.
Presentación  sobré la culturas Lima,  la  cultura Paracas y la cultura Vicús.Presentación  sobré la culturas Lima,  la  cultura Paracas y la cultura Vicús.
Presentación sobré la culturas Lima, la cultura Paracas y la cultura Vicús.
Juan Luis Cunya Vicente
 
Revista Universidad de Deusto - Número 155 / Año 2024
Revista Universidad de Deusto - Número 155 / Año 2024Revista Universidad de Deusto - Número 155 / Año 2024
Revista Universidad de Deusto - Número 155 / Año 2024
Universidad de Deusto - Deustuko Unibertsitatea - University of Deusto
 
Plataformas de vídeo online (2 de julio de 2024)
Plataformas de vídeo online (2 de julio de 2024)Plataformas de vídeo online (2 de julio de 2024)
Plataformas de vídeo online (2 de julio de 2024)
Cátedra Banco Santander
 
LABERINTOS DE DISCIPLINAS OLÍMPICAS. Por JAVIER SOLIS NOYOLA
LABERINTOS DE DISCIPLINAS OLÍMPICAS.  Por JAVIER SOLIS NOYOLALABERINTOS DE DISCIPLINAS OLÍMPICAS.  Por JAVIER SOLIS NOYOLA
LABERINTOS DE DISCIPLINAS OLÍMPICAS. Por JAVIER SOLIS NOYOLA
JAVIER SOLIS NOYOLA
 
Taller intensivo de formación continua. Puebla.
Taller intensivo de formación continua. Puebla.Taller intensivo de formación continua. Puebla.
Taller intensivo de formación continua. Puebla.
OscarCruzyCruz
 
03. SESION PERSONAL-PRIMEROS POBLADORES DEL PERÚ.docx
03. SESION PERSONAL-PRIMEROS POBLADORES  DEL PERÚ.docx03. SESION PERSONAL-PRIMEROS POBLADORES  DEL PERÚ.docx
03. SESION PERSONAL-PRIMEROS POBLADORES DEL PERÚ.docx
Giuliana500489
 
2024 DIA DEL LOGRO-ARTE 3 - IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO-ARTE 3 - IE HONORIO DELGADO ESPINOZA2024 DIA DEL LOGRO-ARTE 3 - IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO-ARTE 3 - IE HONORIO DELGADO ESPINOZA
Sandra Mariela Ballón Aguedo
 
2024 DIA DEL LOGRO IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO IE HONORIO DELGADO ESPINOZA2024 DIA DEL LOGRO IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO IE HONORIO DELGADO ESPINOZA
Sandra Mariela Ballón Aguedo
 
PPT: Un día en el ministerio de Jesús.pptx
PPT: Un día en el ministerio de Jesús.pptxPPT: Un día en el ministerio de Jesús.pptx
PPT: Un día en el ministerio de Jesús.pptx
https://gramadal.wordpress.com/
 

Último (20)

Relieve de la Región de la Selva Peruana.pdf
Relieve de la Región de la Selva Peruana.pdfRelieve de la Región de la Selva Peruana.pdf
Relieve de la Región de la Selva Peruana.pdf
 
Fichero Léxico / Pandemia Lingüística / USCO
Fichero Léxico / Pandemia Lingüística / USCOFichero Léxico / Pandemia Lingüística / USCO
Fichero Léxico / Pandemia Lingüística / USCO
 
Introduccion-a-la-circunferencia area y longitud
Introduccion-a-la-circunferencia area y longitudIntroduccion-a-la-circunferencia area y longitud
Introduccion-a-la-circunferencia area y longitud
 
PLAN ANUAL DE TRABAJO (PAT) 2024 MINEDU PERÚ
PLAN ANUAL DE TRABAJO (PAT) 2024 MINEDU PERÚPLAN ANUAL DE TRABAJO (PAT) 2024 MINEDU PERÚ
PLAN ANUAL DE TRABAJO (PAT) 2024 MINEDU PERÚ
 
Sesión Un día en el ministerio de Jesús.pdf
Sesión Un día en el ministerio de Jesús.pdfSesión Un día en el ministerio de Jesús.pdf
Sesión Un día en el ministerio de Jesús.pdf
 
ACERTIJO MATEMÁTICO DEL MEDALLERO OLÍMPICO. Por JAVIER SOLIS NOYOLA
ACERTIJO MATEMÁTICO DEL MEDALLERO OLÍMPICO. Por JAVIER SOLIS NOYOLAACERTIJO MATEMÁTICO DEL MEDALLERO OLÍMPICO. Por JAVIER SOLIS NOYOLA
ACERTIJO MATEMÁTICO DEL MEDALLERO OLÍMPICO. Por JAVIER SOLIS NOYOLA
 
2024 DIA DEL LOGRO-ARTE 2 - IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO-ARTE 2 - IE HONORIO DELGADO ESPINOZA2024 DIA DEL LOGRO-ARTE 2 - IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO-ARTE 2 - IE HONORIO DELGADO ESPINOZA
 
Informe de Evaluacion Diagnostica de Matematica 1-5 Ccesa007.pdf
Informe de Evaluacion Diagnostica de Matematica 1-5 Ccesa007.pdfInforme de Evaluacion Diagnostica de Matematica 1-5 Ccesa007.pdf
Informe de Evaluacion Diagnostica de Matematica 1-5 Ccesa007.pdf
 
Informe de Evaluacion Diagnostica de Comunicacion 1-5 Ccesa007.pdf
Informe de Evaluacion Diagnostica de Comunicacion 1-5 Ccesa007.pdfInforme de Evaluacion Diagnostica de Comunicacion 1-5 Ccesa007.pdf
Informe de Evaluacion Diagnostica de Comunicacion 1-5 Ccesa007.pdf
 
SEMANAS DE GESTION 2024 para trabajo escolar
SEMANAS DE GESTION 2024 para trabajo escolarSEMANAS DE GESTION 2024 para trabajo escolar
SEMANAS DE GESTION 2024 para trabajo escolar
 
fase intensiva taller intensivo de CTE julio
fase intensiva taller intensivo de CTE juliofase intensiva taller intensivo de CTE julio
fase intensiva taller intensivo de CTE julio
 
Presentación sobré la culturas Lima, la cultura Paracas y la cultura Vicús.
Presentación  sobré la culturas Lima,  la  cultura Paracas y la cultura Vicús.Presentación  sobré la culturas Lima,  la  cultura Paracas y la cultura Vicús.
Presentación sobré la culturas Lima, la cultura Paracas y la cultura Vicús.
 
Revista Universidad de Deusto - Número 155 / Año 2024
Revista Universidad de Deusto - Número 155 / Año 2024Revista Universidad de Deusto - Número 155 / Año 2024
Revista Universidad de Deusto - Número 155 / Año 2024
 
Plataformas de vídeo online (2 de julio de 2024)
Plataformas de vídeo online (2 de julio de 2024)Plataformas de vídeo online (2 de julio de 2024)
Plataformas de vídeo online (2 de julio de 2024)
 
LABERINTOS DE DISCIPLINAS OLÍMPICAS. Por JAVIER SOLIS NOYOLA
LABERINTOS DE DISCIPLINAS OLÍMPICAS.  Por JAVIER SOLIS NOYOLALABERINTOS DE DISCIPLINAS OLÍMPICAS.  Por JAVIER SOLIS NOYOLA
LABERINTOS DE DISCIPLINAS OLÍMPICAS. Por JAVIER SOLIS NOYOLA
 
Taller intensivo de formación continua. Puebla.
Taller intensivo de formación continua. Puebla.Taller intensivo de formación continua. Puebla.
Taller intensivo de formación continua. Puebla.
 
03. SESION PERSONAL-PRIMEROS POBLADORES DEL PERÚ.docx
03. SESION PERSONAL-PRIMEROS POBLADORES  DEL PERÚ.docx03. SESION PERSONAL-PRIMEROS POBLADORES  DEL PERÚ.docx
03. SESION PERSONAL-PRIMEROS POBLADORES DEL PERÚ.docx
 
2024 DIA DEL LOGRO-ARTE 3 - IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO-ARTE 3 - IE HONORIO DELGADO ESPINOZA2024 DIA DEL LOGRO-ARTE 3 - IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO-ARTE 3 - IE HONORIO DELGADO ESPINOZA
 
2024 DIA DEL LOGRO IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO IE HONORIO DELGADO ESPINOZA2024 DIA DEL LOGRO IE HONORIO DELGADO ESPINOZA
2024 DIA DEL LOGRO IE HONORIO DELGADO ESPINOZA
 
PPT: Un día en el ministerio de Jesús.pptx
PPT: Un día en el ministerio de Jesús.pptxPPT: Un día en el ministerio de Jesús.pptx
PPT: Un día en el ministerio de Jesús.pptx
 

Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos

  • 1. Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos SNOLA Alex Rayón Jerez @alrayon, alex.rayon@deusto.es 3 de Diciembre, 2014
  • 2. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  • 3. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  • 9. Introducción (VI) Source: http://www.economist.com/news/finance-and-economics/21578041-containers-have-been-more-important-globalisation-freer-trade-humble
  • 10. Introducción (VII) ¿Y en educación?
  • 11. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  • 12. Ciclo de vida del dato Knowledge Discovery in Databases
  • 13. Ciclo de vida del dato Knowledge Discovery in Databases (II) Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
  • 14. Ciclo de vida del dato Modelo integral de una solución BI SQL XML CSV ... Data Management / Integration Ciclo / Proceso datos Modelo datos Dashboard Report API
  • 15. Ciclo de vida del dato Modelo integral de una solución BI (II) ● Un motor de BI/Analytics tiene que cumplir siempre tres funciones básicas o Obtener datos fuentes o Disponer de un almacén estructurados de datos listos para explotación o Ser capaz de generar reports/informes de los datos
  • 16. Ciclo de vida del dato Modelo integral de una solución BI (III) ● Estas tres funciones se traducen en: 1 2 3 Proceso Modelo Plataforma explotación Datos Ciclo de análisis de datos Representación para explotación Información y conocimiento
  • 17. Ciclo de vida del dato Heterogeneidad ● Las Bases de Datos heterogéneas son un conjunto de BBDD administradas por diferentes SGBD o La heterogeneidad de éstas se debe a que los datos son de diferentes tipos o formatos ● En el contexto de BBDD heterogéneas se distinguen tres tipos de heterogeneidad: o Semántica o Esquemática o Sintáctica
  • 18. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  • 19. Importancia calidad dato Tipos de datos ● El avance tecnológico ha cambiado sustantivamente las fuentes de datos o Se estima que el 80% de la información del mundo está desestructurada o Los datos desestructurados están creciendo a un ritmo de 15 veces superior a los estructurados o La capacidad de procesamiento está creciendo a un ritmo tan alto que no tenemos en ese sentido problemas o El acceso a la información es realmente fácil para todos [Eaton2012]
  • 20. Importancia calidad dato Fuentes ● RDBMS (SQL Server, DB2, Oracle, MySQL, PostgreSQL, Sybase IQ, etc.) ● NoSQL Data: HBase, Cassandra, MongoDB ● OLAP (Mondrian, Palo, XML/A) ● Web (REST, SOAP, XML, JSON) ● Files (CSV, Fixed, Excel, etc.) ● ERP (SAP, Salesforce, OpenERP) ● Hadoop Data: HDFS, Hive ● Web Data: Twitter, Facebook, Log Files, Web Logs ● Others: LDAP/Active Directory, Google Analytics, etc.
  • 21. Importancia calidad dato Fuentes (II) Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-data-infographic/
  • 22. Importancia calidad dato Retos ● Los datos están en todos los sitios o Datos ubicuos ● Son inconsistentes o Los registros están expresados de diferentes maneras en cada sistema ● Problemas de rendimiento o Hacer consultas a base de datos para resumir los datos suelen ser largos o Lleva al Sistema Operativo a una carga máxima ● Los datos no siempre están en Bases de Datos o Hojas Excel, servicios web, desestructurados, etc.
  • 23. Importancia calidad dato Retos (II) ● Los datos son incompletos [Mazza2012] ● Algunos tipos de datos no están registrados en ningún lugar o Al no estar expresados, no podrán ser explotados ● La perspectiva de almacenamiento no suele coincidir con la perspectiva de explotación ● Los usuarios suelen tener recelos para extraer conclusiones de algunos datos
  • 24. Importancia calidad dato Agregación de datos ● El enfoque de ETL no es suficiente para dar sentido y posibilidad de explotación a los datos agregados o Los datos, así, deben ser normalizados para poder eliminar todos los posibles problemas que pueden aparecer en un proceso de integración de datos o Por ello, se habla de agregación/integración de datos para la normalización de los datos
  • 25. Importancia calidad dato Agregación de datos (II) ● Además, la mala calidad de los datos genera costes de mantenimiento y reparación ● Además de estos aspectos económicos, la mala calidad de datos también afecta a la satisfacción del usuario y a la reputación sobre la toma de decisiones estratégicas
  • 26. Importancia calidad dato Agregación de datos (III) ● La agregación/integración de datos es el paso más complicado de un proyecto de BI o Datanami: puede llegar a consumir hasta el 60-70% de un proyecto o Según otras fuentes, entre un 70 y un 85% ● Aquí tenemos que hablar de integrar todas las fuentes de datos en un dataset con datos apropiados para el objetivo concreto que se tiene en el proyecto ● Se hace necesario, por lo tanto, un proceso para garantizar la calidad de los datos
  • 27. Importancia calidad dato Agregación de datos (IV) Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transform-education
  • 28. Importancia calidad dato Gestión de la calidad de los datos
  • 29. Importancia calidad dato Gestión de la calidad de los datos (II) ● Criterios de medición de la calidad (en función de necesidades particulares) o Completitud  Valores de atributos, registros y tablas o Precisión  Fiabilidad y veracidad o Consistencia  Respetar una serie de restricciones/reglas de negocio o Relevancia  Usabilidad para los stakeholders o Unicidad  Una entidad (marca, producto, persona, servicio, etc.) es observada en contextos diferentes [Goasdoué2007]
  • 30. Importancia calidad dato Criterios: 1) Completitud ● Falta algún valor? (tabla, columna, instancia) o Ejemplos  Falta el código postal en el 50% de los registros ● Algunas métricas o Ratio de valores ausentes (tabla, columna, instancia) ● Para la mejora o Estimación del valor por técnicas estadísticas o Ignorar el valor para explotaciones futuras o Emplearlo, a sabiendas de los problemas que puede originar
  • 31. Importancia calidad dato Criterios: 1) Completitud (II) ● El rendimiento del modelo (el porcentaje de predicciones acertadas) dentro del intervalo de confianza establecidos, depende en mucho de esta criterio de calidad
  • 32. Importancia calidad dato Criterios: 2) Precisión ● Cercanía entre el valor v y un valor v’ considerando éste como la correcta representación de la realidad que el valor v intenta representar o Ejemplos  Algunos proveedores que están marcados como Activos fueron a la quiebra hace meses ● Algunas métricas o Número de estimaciones desviadas o Comparaciones con valores reales Fuente: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-34662007000200012
  • 33. Importancia calidad dato Criterios: 2) Precisión (II) ● Es un parámetro muy relacionado con la precisión, la fiabilidad y la veracidad ● En la práctica, a pesar de la atención que ha recibido, es difícil cuantitivizar la precisión de una medición o Es una operación muy cara de realizar o Esto se debe a que para poder realizarlo hay que disponer de datos de referencia externos o Por ello, se hacen verificaciones menos estrictas (patrones de comienzo de códigos, ratios desproporcionados entre géneros, etc.)
  • 34. Importancia calidad dato Criterios: 3) Consistencia ● Los datos son consistentes si satisfacen un conjunto de restricciones ● Para que sea efectivo, se deben establecer unas estrategias de control o Aquí es donde aparece el concepto de “Regla de negocio”  De este modo, la consistencia se puede ver como una subdimensión de la precisión  Aún así, la consistencia solo da una medida indirecta de la precisión ● Esta dimensión es esencial en la práctica
  • 35. Importancia calidad dato Criterios: 3) Consistencia (II) ● Métricas o ratio de % de conjuntos de datos que satisfacen las restricciones ● En el contexto de las herramientas de calidad de datos, los flujos de transformación de datos y sus reglas de negocio se centran básicamente en controles de consistencia
  • 36. Importancia calidad dato Criterios: 4) Relevancia ● ¿Son los datos relevantes para la tarea que se tiene entre manos? ● Métricas o Grado de utilidad ● Oportunidades de mejora o Encuestas  Preguntando a los stakeholders por el grado de utilidad de las respuestas dadas, ayudará a mejorar la relevancia de tareas de agregación de datos futuras (en especial, la primera tarea de selección de datos)
  • 37. Importancia calidad dato Criterios: 4) Relevancia (II) ● Éste es un problema nuclear al Big Data o Con la aparición de grandes volúmenes de datos, los usuarios en ocasiones se sienten frustrados por la incapacidad para sacar algún dato útil entre toda la maraña de datos o Por ello, los usuarios pueden tener el prejuicio hacia la poca utilidad de los datos resultantes de un proyecto de BI o Sin embargo, la utilidad juega un papel central en la aceptación del proyecto o Por lo tanto, habrá que realmente medirlo (y mejorarlo, en su caso, si procediera)
  • 38. Importancia calidad dato Criterios: 5) Unicidad ● Es un problema que aparece cuando una entidad del modelo de datos aparece en más de una ocasión o Ejemplo  Alexander Rayón y Alex Rayón son el mismo empleado, pero observado en dos fuentes de datos diferentes → pudieran parecer dos entidades, al no coincidir a primera vista
  • 39. Importancia calidad dato Criterios: 5) Unicidad (II) ● Métricas o % de duplicados o número de instancias superior a las esperadas (más difícil, por no conocer a priori el número de instancias)
  • 40. Importancia calidad dato Etapas gestión calidad dato Definir Procesar Publicar
  • 41. Importancia calidad dato Etapas gestión calidad dato: 1) Definir Definir ● Dimensiones Reglas de negocio Esquema / Diccionario de datos Modelo de datos o Dominio/Contexto: unidad mínima de análisis, representación y explotación o Tiempo: real-time o bajo demanda o Frecuencia: de medición (fija o variable) o Extracción de atributos: ¿con qué me quedo? (símil de la extracción de keywords representativas en un texto) o Jerarquía: para consultas (niveles de abstracción) o Granularidad: representación para explotación posterior
  • 42. Importancia calidad dato Etapas gestión calidad dato: 1) Definir (II) Pensando en las dimensiones de calidad de datos anteriormente expuestas Source: http://themodernaccountant.com/2012/06/18/pearls-of-wisdom/
  • 43. Importancia calidad dato Etapas gestión calidad dato: 1) Definir (III) Nivel Esquema: conflictos nominales y estructura ● Homónimos: mismo nombre para diferentes objetos ● Sinónimos: diferentes nombres para el mismo objeto ● Diferentes tipos de datos ● Diferentes estructura de componentes ● Diferentes restricciones de integridad
  • 44. Importancia calidad dato Etapas gestión calidad dato: 1) Definir (IV) Nivel Instancia ● Atributo o Valores nulos, misspellings, valores crípticos, abreviaciones, valores embebidos, etc. ● Registro o Dependencias de atributo incorrectas (zip y ciudad) ● Tipo de registro o Transposiciones de palabras, registros duplicados, registros contradictorios ● Fuente o Referencias incorrectas (nº departamento es incorrecto) ● Agregación o Granularidad (ventas por grupo vs. ventas por producto) o puntos de tiempo (semanal, diaria, quincenal, etc.)
  • 45. Importancia calidad dato Etapas gestión calidad dato: 1) Definir (V) Source: http://en.wikipedia.org/wiki/Data_modeling
  • 46. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar Procesar Poner los datos a cumplir todas las reglas de negocio 1) Análisis de datos 2) Flujo de transformación y reglas de negocio 3) Verificación 4) Transformación - Análisis metadatos de los datos: Profiling (1 a 1) o Mining (patrones) - Quitar duplicados - Atomización → desdoblar en varios campos - Discretización - Normalización: modelo referencial; unión; unicidad; nulos - Integridad - Eliminar ruido (malas observaciones, shocks exógenos, etc.) - Outlier → obtención de conclusiones - Valores vacíos: 1) Eliminar instancia; 2) Predecir por interpolación; 3) Usarlo para procesar - Quitar la tendencia lineal (para fijarse en fluctuaciones… si es lo que interesa) - Validación → dependencias de atributos para validar y corregir - Verificar efectividad flujo de transformación y reglas de negocio - Ejecución en serie 5) Realimentación - Para evitar trabajos futuros sobre los mismos datos
  • 47. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (II) Quitar duplicados Fuente: http://tutorialenexcel.blogspot.com.es/2012/10/15-tutorial-excel-manejando-la.html
  • 48. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (III) Atomización Fuente: http://www.educarchile.cl/ech/pro/app/detalle?ID=133092
  • 49. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (IV) Discretización Fuente: http://7542.fi.uba.ar/tecnica/sonido-en-windows/
  • 50. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (V) Normalización Fuente: http://www.anmopyc.es/noticia/boletin_de_normalizacion_julio_2014
  • 51. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (VI) Integridad Fuente: http://diariodelapelusa.blogspot.com.es/2013/04/de-la-integridad.html
  • 52. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (VII) Quitar ruido Fuente: http://www.dominandocamtasia.com/blog/como-eliminar-el-ruido-de-un-video
  • 53. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (VIII) Gestión outliers Fuente: http://mathworld.wolfram.com/Outlier.html
  • 54. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (IX) Gestión valores vacíos Fuente: http://www.fengfly.com/plus/view-169414-1.html
  • 55. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (X) Quitar tendencia lineal Fuente: http://www.monografias.com/trabajos96/regresion-lineal-simplificada-agricola/regresion-lineal-simplificada-agricola.shtml
  • 56. Importancia calidad dato Etapas gestión calidad dato: 3) Publicar
  • 57. Importancia calidad dato Etapas gestión calidad dato: 3) Publicar (II) An ontology is said to be an agreement about a shared, formal, explicit and partial account of a conceptualization [...] relative independence of particular applications [...] it consists of relatively generic knowledge that can be reused by different kinds of applications/tasks
  • 58. Importancia calidad dato Etapas gestión calidad dato: 3) Publicar (III)
  • 59. Importancia calidad dato Etapas gestión calidad dato: 3) Publicar (IV)
  • 60. Importancia calidad dato Herramientas Interactive Data Transformation Tools (IDTs) 1. Pentaho Data Integration: Kettle PDI 2. Talend Open Studio 3. DataCleaner 4. Talend Data Quality 5. Google Refine 6. Data Wrangler 7. Potter's Wheel ABC
  • 61. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  • 62. Enfoque ETL Proceso de análisis de datos
  • 63. Enfoque ETL Proceso de análisis de datos (II) 1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar Más datos no es más conocimiento Extracción, muestreo y ética Proceso de calidad de datos Análisis + Acción Hacer operativos los trabajos anteriores Post-procesamiento
  • 64. Enfoque ETL 1) Seleccionar 1) Seleccionar ● Plantear las preguntas/problemas a resolver ● Seleccionar los datos necesarios para responder a las preguntas formuladas ● Éste es precisamente uno de los retos actuales o ¿Qué datos son los críticos? ● Hay que poner sensores allí dónde estén los datos más relevantes o Para este paso, suele ser interesante contar con expertos del dominio
  • 65. Enfoque ETL 1) Seleccionar (II) 1) Seleccionar ● Vivimos en una era en la que tener acceso a datos no es el problema o El reto está en determinar qué datos son significativos y significantes y por qué Fuente: http://cesar-organizaciones.blogspot.com.es/2011/05/que-es-un-sistema-de-informacion-un.html
  • 66. Enfoque ETL 1) Seleccionar (III) 1) Seleccionar “The basic question is not what can we measure? The basic question is what does a good education look like? Big questions”
  • 67. Enfoque ETL 2) Capturar 2) Capturar ● Extracción de los datos o Ante la Variedad de las fuentes de datos, se hace necesario disponer de un proceso ETL ● Así, se podrán transformar datos optimizados para transacciones a datos optimizados para el análisis y el reporting ● Se pueden emplear técnicas de muestreo de datos ● Respetar las leyes y la ética Leer “Aspectos legales y éticos”
  • 68. Enfoque ETL 2) Capturar (II) 2) Capturar
  • 69. Enfoque ETL 3) Agregar 3) Agregar ● Reto actual: Variedad ● Necesidad de un modelo de datos normalizado para disponer de procesos de datos sostenibles ● Tareas o Limpieza de datos, Integración, Transformación, Reducción, Modelado, Rectificación de inconsistencias y anomalías, Normalización
  • 70. Enfoque ETL 4) Procesar 4) Procesar ● Analizar los datos normalizados y preparados ● Decidir contextos de explotación o Predicción o Intervención o Adaptación o Personalización o Recomendación o Alertas tempranas o Reflexión
  • 71. Enfoque ETL 4) Procesar (II) 4) Procesar Motor de Analytics Predicción Adaptación Personalización Intervención ... Recomendación
  • 72. Enfoque ETL 5) Utilizar 5) Utilizar ● Hacer operativos los trabajos anteriores ● Posibles escenarios de operación o Dashboard de KPIs o Informes o APIs de explotación desde otros sistemas o ...
  • 73. Enfoque ETL 5) Utilizar (II) 5) Utilizar Actividad BI.01.4. Pensar en escenarios de puesta en valor del conocimiento descubierto ● ¿Qué? ● ¿Cómo? ● ¿Dónde? ● ¿Cuándo? ● ¿Por qué?
  • 74. Enfoque ETL 6) Refinar 6) Refinar ● Post-procesamiento o Nuevos atributos al modelo o Nuevos indicadores o Nuevos tareas de calidad de datos o Nuevos métodos de análisis o ….
  • 75. Referencias [CdO07] JP. Campbell, PB. deBlois, and DG. Oblinger. Academic analytics: A new tool for a new era. EDUCAUSE Center for Applied Research REVIEW, 2007. [Clo12] Doug Clow. The learning analytics cycle: closing the loop effectively. 2nd International Conference on Learning Analytics and Knowledge, 2012 [DA09] J. Dron and T. Anderson. On the design of collective applications. Proceedings of the 2009 International Conference on Computational Science and Engineering, 04:368–374, 2009. [Eli11] Tanya Elias. Learning analytics: definitions, processes and potential. 2011. [Mazza2012] Riccardo Mazza, Marco Bettoni, Marco Far ́, and Luca Mazezola. Moclog–monitoring online courses with log data. 2012.
  • 76. Copyright (c) 2014 University of Deusto This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/3.0/ Alex Rayón Jerez @alrayon, alex.rayon@deusto.es 3 de Diciembre, 2014
  • 77. Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos SNOLA Alex Rayón Jerez @alrayon, alex.rayon@deusto.es 3 de Diciembre, 2014