Este documento describe cómo el Educational Data Mining (EDM) puede mejorar los entornos virtuales de aprendizaje mediante el análisis de los datos generados por la interacción de los usuarios. Se propone utilizar técnicas de minería de datos para mejorar un repositorio institucional mediante la adición de nuevos servicios, la recopilación de datos y la construcción de esquemas de reputación y recomendación. El proyecto MAVSEL tiene como objetivo aplicar estas técnicas para mejorar continuamente el proceso de aprendizaje.
29. Planificación y organizaciónC. Romero, S. Ventura. Educational Data Mining: A Review of the State-of-the-Art. IEEE Transaction on Systems, Man, and Cybernetics, Part C: Applications and Reviews. 40(6), 601-618, 2010. 6 SPDECE 2011, 15-17 de Junio, Ciudad Real
30. Análisis de la interacción N-tuplas: el usuario U accede al servicio S mediante el dispositivo D sobre el objeto O en el momento T con resultado R Paradata: datos sobre un recurso generados durante su uso Análisis realizado mayoritariamente off-line pero toma de decisiones on-line 7 SPDECE 2011, 15-17 de Junio, Ciudad Real
31. Construcción del modelo 8 SPDECE 2011, 15-17 de Junio, Ciudad Real EVA dispositivo usuario UI paradata modelo
32. Técnicas de minería de datos Supervisadas: Clasificación / Predicción Regresión No supervisadas: Clustering Reglas de asociación Reducción de dimensionalidad 9 SPDECE 2011, 15-17 de Junio, Ciudad Real
33. Selección de un modelo No existe un “clasificador universal” Aspectos importantes: Número de parámetros (fine-tuning) Coste computacional Actualización on-line / off-line Interpretación Robustez Combinación de modelos -> soluciones ad-hoc SPDECE 2011, 15-17 de Junio, Ciudad Real 10
34. Datos educativos Características: Múltiples fuentes Datos no estructurados (p.e. itinerarios) Mayoritariamente categóricos Valores perdidos Imposible asumir independencia / normalidad Distribuciones “longtail” Es necesario adaptar los algoritmos clásicos 11 SPDECE 2011, 15-17 de Junio, Ciudad Real
35. Privacidad y seguridad Privacidad: Los usuarios conocen que se recogen datos Anonimización de los datos No identificación de perfiles individuales Atención a colectivos con necesidades especiales El sistema recomienda, no obliga (poco intrusivo) Seguridad: Manipulación del perfil de usuario “Gaming the system” 12 SPDECE 2011, 15-17 de Junio, Ciudad Real
36. La UOC como laboratorio 1994 -> 200 estudiantes; 2011 -> > 40000 Completamente online / digital Gestión de datos: Servicios informáticos Marketing Área de planificación y evaluación Extracción de datos semi-automatizada Falta de un modelo de datos completo 13 SPDECE 2011, 15-17 de Junio, Ciudad Real
37. Fuentes de datos Logs del sistema: Múltiples servicios / servidores Análisis del contenido: Manual / semi-automático Perfil socio-demográfico Proceso de captación Historial de matrícula Rendimiento académico Encuestas 14 SPDECE 2011, 15-17 de Junio, Ciudad Real
58. Rediseño basado en widgets personalizables“Captura y análisis del comportamiento de los usuarios en entornos virtuales de aprendizaje: el Campus Virtual de la UOC”, Tesis presentada por Enric Mor, 16/6/2008 17 SPDECE 2011, 15-17 de Junio, Ciudad Real
70. Relación entre itinerario y rendimiento“La especificación IMS-LD para la descripción formal de itinerarios formativos adaptativos”, Tesis presentada por Ana-Elena Guerrero, 5/4/2011 19 SPDECE 2011, 15-17 de Junio, Ciudad Real
71.
72. Ejemplo: nivel de grado Definición de abandono (educación on-line): Pre-requisitos y co-requisitos sólo cómo recomendaciones Normativa de permanencia muy laxa Los estudiantes toman “descansos” de uno o más semestres consecutivos Definición de abandono oficial no compatible Diferencias por programa / estudios Perfil del estudiante que abandona 21 SPDECE 2011, 15-17 de Junio, Ciudad Real
78. Literature review sobre Data Mining in E-Learning22 SPDECE 2011, 15-17 de Junio, Ciudad Real
79. MAVSEL Objetivos: Identificación de la interacción en escenarios educativos: Modelo conceptual de datos generados (paradata) Estándares y especificaciones Una nueva variable: dispositivos móviles Selección de técnicas de minería de datos Integración en herramientas de software libre Piloto: mejora del repositorio institucional 23 SPDECE 2011, 15-17 de Junio, Ciudad Real
80. Escenarios Educativos Definición: espacio (virtual / blended) donde confluyen usuarios, servicios y contenidos Se recogen datos de la interacción generada durante el proceso de aprendizaje ¿Cómo “actúan” los usuarios en el escenario? ¿Cuáles son los puntos débiles del escenario? 24 SPDECE 2011, 15-17 de Junio, Ciudad Real
81. Planteamiento Conocer mejor a los usuarios: “Tú no eres el usuario” Conocer mejor el propio escenario educativo Mejora de un escenario educativo mediante: Perfiles de usuario -> Personalización Sistemas de recomendación Esquemas de reputación Visualización de la interacción 25 SPDECE 2011, 15-17 de Junio, Ciudad Real
82. Ejemplos de escenarios Curso en Moodle Aula virtual UOC Grupo en Facebook Seguimiento de un evento en twitter Compartir recursos mediante delicious Repositorio institucional Sistema de recomendación de matrícula … 26 SPDECE 2011, 15-17 de Junio, Ciudad Real
83. El modelo SIOC 27 SPDECE 2011, 15-17 de Junio, Ciudad Real SemanticallyInterlinked Online Communities
84. Ejemplo: repositorio institucional Basado en tecnología DSpace Modelo de metadatos: Dublin Core (q) Tres áreas: Docencia Investigación Institucional Gestionado por la Biblioteca pero los usuarios pueden “auto-archivar”, la Biblioteca valida 28 SPDECE 2011, 15-17 de Junio, Ciudad Real
85. O2 http://openaccess.uoc.edu Creado en Marzo de 2010 Más de 2100 documentos en abierto (↑↑↑) Mandato institucional desde Noviembre 2010 Pero… (curso a personal docente colaborador): 40 personas, ninguna conocía / usaba el repositorio Algunas de ellas incluso tenían documentos (p.e. TFC) … aunque gran interés por utilizarlo SPDECE 2011, 15-17 de Junio, Ciudad Real 29
102. Perspectiva docente El repositorio institucional es un mero sistema de gestión de documentos, no es parte del proceso de aprendizaje Ningún estudiante buscará por fecha o autor No todos los recursos tienen un título claro Recursos de granularidad y tipología diversas Las palabras clave no están estructuradas El rol del estudiante es completamente pasivo SPDECE 2011, 15-17 de Junio, Ciudad Real 32
103. Nuevos servicios Añadir comentarios Valorar Marcar como favorito Compartir / “re-publicar” un recurso Etiquetar un recurso Subscripción a un recurso Recursos interesantes / relacionados Búsqueda facetada Promover navegación sobre búsqueda 33 SPDECE 2011, 15-17 de Junio, Ciudad Real
104. Esquemas de reputación Respecto a los recursos: Recurso más accedido / con más actividad Recurso mejor valorado Respecto a los usuarios: Usuario más activo Usuarios “expertos” (aprendizaje P2P) 34 SPDECE 2011, 15-17 de Junio, Ciudad Real
105. Sistemas de recomendación Respecto a los recursos: Recursos más “cercanos”: Implícitamente: dc.relation Explícitamente: descripción similar Otros recursos visitados (p.e. Amazon) Respecto a los usuarios: “Colegas” Expertos 35 SPDECE 2011, 15-17 de Junio, Ciudad Real
106. Búsqueda facetada Huir de búsquedas tipo Google Búsqueda por diferentes parámetros al mismo tiempo (filtrado) Contextualizada: Perfil del usuario Dispositivo de acceso / uso previsto Calendario académico Mejor 5 recursos realmente útiles que 50 36 SPDECE 2011, 15-17 de Junio, Ciudad Real
107. Interfaz de usuario Adaptada al perfil del usuario Uso de taxonomías y vocabularios Vínculo entre recursos y competencias Resultados ordenados por interés Recursos relacionados Potenciar la navegación Incluir los nuevos servicios Recordar el historial de búsquedas SPDECE 2011, 15-17 de Junio, Ciudad Real 37
108. Conclusiones Evaluar el proceso de aprendizaje, no tan solo el resultado final Proceso de mejora continua del escenario educativo Incrementar el conocimiento sobre los estudiantes Es necesario recoger y preparar los datos Faltan herramientas de propósito general 38 SPDECE 2011, 15-17 de Junio, Ciudad Real
109. Trabajo futuro Calendario del proyecto MAVSEL: Añadir servicios al repositorio institucional Recoger datos durante un semestre Construir esquemas de reputación / sistemas de recomendación Evaluar y repetir Extender el modelo SIOC Mejorar la construcción de modelos para EDM 39 SPDECE 2011, 15-17 de Junio, Ciudad Real
110. Muchas gracias! Contacto: jminguillona@uoc.edu twitter/@jminguillona http://mavsel.blastgroups.com http://personal.uoc.edu/MAVSEL CC-BY-NC-SA 40 SPDECE 2011, 15-17 de Junio, Ciudad Real