El documento describe los objetivos e introducción de la minería de datos secuenciales. Los objetivos incluyen ampliar conocimientos sobre minería de datos secuenciales y entender sus aplicaciones y conceptos teóricos. La introducción define la minería de datos y minería de datos secuenciales, y explica que esta técnica se usa para descubrir patrones temporales en datos.
análisis a priori, a posteriori, costo de algoritmos, análisis iterativo, análisis recursivo, complejidad del algoritmo, orden de complejidad, notación asintótica
análisis a priori, a posteriori, costo de algoritmos, análisis iterativo, análisis recursivo, complejidad del algoritmo, orden de complejidad, notación asintótica
Outlier analysis,Chapter-12, Data Mining: Concepts and TechniquesAshikur Rahman
This slide is prepared for a course of Dept. of CSE, Islamic Univresity of Technology (IUT).
Course: CSE 4739- Data Mining
This topic is based on:
Data Mining: Concepts and Techniques
Book by Jiawei Han
Chapter 12
En esta presentación cubrimos el modelo de memoria del JDK 5/6/7, a partir de JDK 8 hay un cambio en el modelo de memoria, así que no toda la presentación seria valida, aunque algunos conceptos se mantienen.
Los ejemplos se pueden encontrar en https://github.com/ldebello/javacuriosities/tree/master/MemoryManagement
Es aquí donde se introduce la minería de datos. Ésta, una tecnología cuyo objetivo es mirar los
datos más allá de consultarlos; se analizan, se emplean variadas técnicas para ver que comportamientos tienen
un subgrupo de éstos, grandes o pequeños, y se descubre nueva información, generando así nuevo conocimiento el cual puede ser de vital utilidad para el negocio y para sus tomas de decisiones.
Aplicación de aprendizaje automático en minería de datosmajitol
Esta presentación contiene información de la utilización de algoritmos como JRIP, RIDOR y J48 en minería de datos, específicamente en la predicción de la tendencia del uso de servicios excequiales de la funeraria "La Esperanza", con el fin de determinar si se implentan o no las características con mayor preferencia y si se crea una nueva sucursal, conclusiones que se presentan al final de esta presentación.
Outlier analysis,Chapter-12, Data Mining: Concepts and TechniquesAshikur Rahman
This slide is prepared for a course of Dept. of CSE, Islamic Univresity of Technology (IUT).
Course: CSE 4739- Data Mining
This topic is based on:
Data Mining: Concepts and Techniques
Book by Jiawei Han
Chapter 12
En esta presentación cubrimos el modelo de memoria del JDK 5/6/7, a partir de JDK 8 hay un cambio en el modelo de memoria, así que no toda la presentación seria valida, aunque algunos conceptos se mantienen.
Los ejemplos se pueden encontrar en https://github.com/ldebello/javacuriosities/tree/master/MemoryManagement
Es aquí donde se introduce la minería de datos. Ésta, una tecnología cuyo objetivo es mirar los
datos más allá de consultarlos; se analizan, se emplean variadas técnicas para ver que comportamientos tienen
un subgrupo de éstos, grandes o pequeños, y se descubre nueva información, generando así nuevo conocimiento el cual puede ser de vital utilidad para el negocio y para sus tomas de decisiones.
Aplicación de aprendizaje automático en minería de datosmajitol
Esta presentación contiene información de la utilización de algoritmos como JRIP, RIDOR y J48 en minería de datos, específicamente en la predicción de la tendencia del uso de servicios excequiales de la funeraria "La Esperanza", con el fin de determinar si se implentan o no las características con mayor preferencia y si se crea una nueva sucursal, conclusiones que se presentan al final de esta presentación.
Knime es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual y amigable. Su desarrollo está bajo licencia GPL y está programado sobre la plataforma Eclipse y Java.En la charla se mostrará cómo realizar un proyecto de minería de datos y análisis con algoritmos conocidos para clasificación, asociación o predicción de datos empresariales.
Presentado por Diego García :
Ingeniero informático e investigador en la Universidad de Cantabria. Profesor de asignaturas del grado en informática de DataMining, Inteligencia Artificial y Algoritmia. En el campo de la investigación busca detectar patrones de comportamiento en plataformas E-learning para mejorar la docencia.
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics Spain
Diego García, joven investigador de a Universidad de Cantabria en proyectos de minería de datos en ambientes de aprendizaje e-learning, repasó los algoritmos de minería de datos y alternativas de software libre para abordar proyectos de Data Mining.
Entérese de las actividades a llevar a cabo para obtener un modelo de minería de datos a partir de un caso del dominio público. En la sesión se describe y trabaja el caso "Insurance". Por medio de herramientas de modelado de Md se obtienen modelos de clasificación y se lleva a cabo el post proceso en Excel para obtener la conclusión comercial del modelo.
Se describen actividades posteriores para la extrapolación de los resultados de la muestra a una campaña con un mayor número de clientes potenciales.
El asistente a la sesión virtual se enterará de:
a) Qué es la minería de datos y porqué las técnicas son importantes en este momento de "Big Data".
b) Qué son los modelos de clasificación.
c) Cómo aplicarlos a un caso de campaña con costo de promoción y utilidad al hacer "hit".
3ª Sesión Técnica del Ciclo de Conferencias sobre BI, celebrada el 12 de junio. Fue conducida por Julio Iglesias, Director del Departamento de Business Intelligence en IFR Group, experto especializado en proyectos de este tipo, y profesor asociado de nuestra Escuela Universitaria
¿Qué significa realmente la minería de datos? ,¿Cómo se engloba en un proyecto de BI?, ¿Puede mi empresa con los datos que genera hacer proyectos de este tipo? Y ¿Dónde está el límite para abordar proyectos de este tipo?
Bancos, hospitales, empresas de retail y páginas web son algunos de los sectores que utilizan esta tecnología. A lo largo de la sesión se analizó qué significa y qué implica la minería de datos: concepto y definición, casos, algoritmos de utilización… y de forma práctica se vieron un par de proyectos de ejemplo de las posibilidades que ofrece esta tecnología tan aplicada en la actualidad. Los asistentes tuvieron la oportunidad de ver de primera mano cómo las empresas utilizan los datos y la estadística para crear ofertas personalizadas.
La toma de decisiones precisa de conocimiento, el cual proviene de la información que el centro decisor posea. Dicha información surge del análisis de datos específicos y necesarios. La minería o exploración de datos es la etapa de análisis de "Knowledge Discovery in Databases" o KDD); es un campo de la estadística y las ciencias de la computación, y se refiere al proceso de detección de patrones en grandes volúmenes de datos.
2. Objetivos:
▫ Buscar información teórica de lo que abarca, describe y caracteriza a
una Minería de datos secuenciales
▫ Ampliar nuestros conocimientos, mediante el entendimiento de toda
esta información encontrada acerca de nuestro tema
▫ A partir de la presente investigación poder entender los pro y contra
que nos ofrece este tipo de minería de datos
▫ Tener claro todos los conceptos teóricos básicos para poder entender las
aplicaciones de los patrones secuenciales.
3. Resumen:
• En este trabajo se presenta una breve introducción de lo que es la minería
de datos en forma general, y luego enfocándonos a la minería de datos
secuenciales. La finalidad es tener un conocimiento claro de los conceptos
que abarca este tipo de técnica de minería de datos como es la de patrones
secuenciales, mismos que utilizaremos en las siguientes fases de nuestro
proyecto.
• Iniciamos la presente fase, con una descripción de lo que es minería de
datos, tipos y técnicas, luego nos enfocamos en minería de datos
secuenciales, concepto, características, problemas que nos permite
resolver, así como las ventajas y desventajas que nos ofrece.
4. Introducción:
• La minería de datos puede definirse como la extracción no trivial de
información implícita, previamente desconocida y
potencialmente útil a partir de los datos, es decir es el
“descubrimiento eficiente de información valiosa, no-obvia de una gran
colección de datos”. Se la considera como una técnica de descubrimiento de
conocimiento que, a su vez, hace uso de diferentes tecnologías para
conseguirlo como: agrupamiento automático, predicción, clasificación,
asociación de atributos, detección de patrones secuenciales, etc.
5. Introducción:
▫ En el siguiente gráfico podemos observar la clasificación de
Minería de Datos (DM) en dos grupos: tareas descriptivas y
predictivas, nosotros nos enfocamos en las descriptivas
específicamente en el grupo de Asociación (color verde en el
grafico), y dentro de este en Patrones secuenciales
6. Introducción:
▫ Las tareas o métodos descriptivos o también llamados no
supervisados son utilizados cuando una aplicación no es lo
suficientemente madura y no tiene el potencial necesario para una
solución predictiva, descubriendo patrones y tendencias en los
datos actuales (no utilizan datos históricos), que permitan explorar
las propiedades de los datos examinados, no para predecir nuevos
datos, sino para llevar acciones y obtener beneficio (científico o de
negocio) de ellas
▫ El descubrimiento de patrones secuenciales es muy utilizado en
la industria ventas al por menor, y también en el dominio de la
medicina. El resultado de esta técnica se presenta como una lista de
transacciones.
▫ Los algoritmos de patrones secuenciales son muy útiles a la hora de
descubrir la tendencia de los datos como: El número de revistas
deportivas vendidas a clientes con N° de crédito
7. Desarrollo:
• Definición de Minería de Datos secuenciales.-
▫ Es la extracción de patrones frecuentes relacionados con el tiempo u
otro tipo de secuencia
▫ Es una clase especial de dependencia en las que el orden de
acontecimientos es considerado. En un análisis de cesta de compras, las
asociaciones describen dependencias entre artículos en un tiempo dado.
El patrón secuencial describe el modelo que hace compras de un cliente
particular o un grupo de clientes relacionando las distintas
transacciones efectuadas por el o ellos a lo largo del tiempo.
▫ Son eventos que se enlazan con el paso del tiempo, por ejemplo si se
compra una casa, 65% de las veces se comprará un refrigerador dentro
de las siguientes dos semanas.
8. Patrones Secuenciales:
• Se trata de buscar asociaciones de la forma: "si sucede el evento X en el
instante de tiempo t entonces sucederá el evento Y en el instante t+n“.
• El objetivo de la tarea es poder describir de forma concisa relaciones
temporales que existen entre los valores de los atributos del conjunto de
ejemplos.
• Utiliza reglas de asociación secuenciales.- reglas que expresan patrones de
comportamiento secuencial, es decir, que se dan en instantes distintos en el
tiempo.
9. Características:
▫ El orden importa
▫ Objetivo: encontrar patrones en secuencia
▫ Una secuencia es una lista ordenada de itemsets, donde cada
itemset es un elemento de la secuencia
▫ El tamaño de una secuencia es su cantidad de elementos
(itemsets)
▫ La longitud de una secuencia es su cantidad de items
▫ El soporte de una secuencia es el porcentaje de secuencias que la
contienen en un conjunto de secuencias S
▫ Las secuencias frecuentes (o patrones secuenciales) son las
subsecuencias de una secuencia que tienen un soporte mínimo
10. Tipos de valores que usa:
▫ El número de revistas deportivas vendidas a clientes en un
supermercado
▫ Transacciones comerciales
▫ Recorrido de un cliente por las secciones de un supermercado
▫ Marketing focalizado
▫ Ventas de artículos
▫ propensión de uso de productos
▫ segmentación por comportamiento de compra
▫ propensión a la compra
▫ Registros sobre accesos a páginas web
▫ Orden de compra de productos
▫ Rutas de ubicación de archivos
▫ Adn, proteínas
▫ Registros transaccionales: transacciones comerciales, operaciones
realizadas con una tarjeta de crédito
▫ Relacionales: ej: detectar patrones de un tipo, estructura de servicios
que ofrece un banco, o en un supermercado
11. Entornos:
▫ Entorno en los que se desarrolla:
Áreas:
Medicina
Biología, bioingeniería
Web
Análisis de mercado, distribución y en el comercio
Aplicaciones financieras y banca
Aplicaciones de seguro y salud privada
Deportes
Tipo de base de datos:
Base de datos temporales
Base de datos documentales
Base de datos relacionales
12. Entornos:
Entorno en los que no se desarrolla:
▫ Áreas:
En entornos predictivos
En entornos de naturaleza variable. La variabilidad viene determinada
por la inexistencia de un orden predeterminado de aparición de los
hechos o eventos.
La recuperación de la información.- una tarea típica en encontrar
documentos a partir de palabras claves
Política: diseño de campañas políticas, estudio de tendencias políticas
Policiales: identificación de posibles terroristas en un aeropuerto
Procesos industriales: detección de piezas con trabas. Modelos de calidad
▫ Tipo de base de datos:
Base de datos espaciales
Base de datos multimedia
13. Tipos de problemas que ayuda a solucionar:
• Algunas de las técnicas de minería de datos existentes para datos
secuenciales son: clasificación con datos secuenciales,
agrupamiento de patrones secuenciales y reglas de asociación
con datos secuenciales
• Algunos problemas que se resuelven con estas técnicas de la minería de
datos secuenciales son:
▫ Clasificación con datos secuenciales
▫ Agrupamiento de patrones secuenciales
▫ Reglas de asociación con datos secuenciales
14. Clasificación con datos secuenciales:
• Donde datos contiguos presentan algún tipo de relación
• Aplicaciones:
▫ Reconocimiento de caracteres escritos.-
El reconocimiento de caracteres tiene como objeto la asociación de un
caracter a la identidad correspondiente de entre un conjunto de
símbolos que componen el alfabeto considerado. Dicho mecanismo se
puede dar en varias situaciones, desde reconocimiento de letras o
números aislados hasta análisis o comprensión de documentos, donde
el procedimiento estudiado no es más que una pequeña pieza de un
rompezabezas.
Ayuda a: automatizar la lectura de direcciones postales, cheques
bancarios, formularios de impuestos, formularios de censo y lectores
de texto para discapacitados, entre otros.
▫ Reconocimiento de correo spam de un correo electrónico
15. Agrupamiento de patrones secuenciales:
• Se define como la tarea de separar en grupos a los datos, de
manera que los miembros de un mismo grupo sean muy similares
entre sí, y al mismo tiempo sean diferentes a los objetivos de otros
grupos.
• Aplicaciones:
▫ En este caso se busca los grupos de secuencias con alta conexión
Agrupar secuencias transaccionales comerciales puede ayudar a
identificar diferentes grupos de clientes de acuerdo a sus compras
Biología, bioingeniería:
Encontrar grupos con secuencias de proteínas similares puede ayudar a
identificar secuencias de idéntica funcionalidad
Análisis de secuencias de genes
Predecir si un compuesto químico causa cáncer
Clasificación de cuerpos celestes
16. Agrupamiento de patrones secuenciales
• Encontrar agrupamientos de
tal forma que los objetos de
un grupo sean similares
entre sí y diferentes de los
objetos de otros grupos
17. • 1. Los patrones se procesan por lotes de longitud M
• 2. Durante el procesamiento de un lote los patrones se asignan al
agrupamiento más cercano y se recalcula el centro.
• 3. Finalizado un lote se evalúa la partición con el objetivo de reducir
el número de agrupamientos:
▫ a) Se mezclan parejas de agrupamientos que no disten más de unumbral
C
▫ b) Se eliminan los que tengan pocos patrones
▫ c) Si no son aplicables ninguna de las anteriores, se aplica una mezcla
forzosa hasta conseguir K agrupamientos
20. • Ventajas:
• Flexibilidad: Su comportamiento puede ajustarse gracias a su
amplio conjunto de parámetros.
• Eficiencia: Cálculos muy sencillos, basta con recorrer una vez el
conjunto de datos.
• Desventajas:
• Utilización: Los valores adecuados para los parámetros son
difíciles de establecer a priori, por lo que se suele emplear un
proceso de prueba y error.
• Sesgado por los primeros patrones: Los resultados
obtenidos dependen del orden de presentación de los patrones.
Características principales
21. Funcionamiento
El parámetro K se considera un valor máximo (puede devolver
un número de agrupamientos menor).
Partiendo de un único agrupamiento, se van creando nuevos
agrupamientos conforme se procesan nuevos patrones
secuencialmente (algoritmo incremental).
Los patrones se procesan secuencialmente por lotes. Al final
de cada lote, se evalúan los agrupamientos obtenidos y se
reduce su número.
22. Creación de agrupamientos
Se selecciona arbitrariamente el centro del primer agrupamiento.
Posteriormente, se procesan secuencialmente los demás patrones:
Se calcula la distancia del patrón actual al agrupamiento más
cercano (a su centroide).
Si ésta es menor o igual a R se asigna el patrón a su
agrupamiento más cercano.
En caso contrario, se crea un nuevo agrupamiento con el patrón
actual.
23. Mezcla de agrupamientos
Cada M patrones, se mezclan agrupamientos:
1. Mezcla por cercanía (se mezclan dos agrupamientos si la distancia entre
ellos es menor que C).
2. Mezcla por tamaño: Si, tras la mezcla por cercanía, quedan más
agrupamientos que los deseados por el usuario (K), se mezclan los
agrupamientos de menos del T% de M miembros con sus clusters más
cercanos.
3. Mezcla forzada: Si aún quedan demasiados agrupamientos, se mezclan
los agrupamientos más cercanos hasta obtener el número deseado K.
El proceso de mezcla nos asegura que al final obtenemos el número deseado de
agrupamientos y no más (como suele suceder en el método adaptativo o en el
algoritmo de Batchelor y Wilkins).
24. Parámetros
K: Número deseado de agrupamientos.
R: Umbral de distancia para crear agrupamientos.
C: Umbral de distancia para mezclar agrupamientos.
M: Longitud del “lote” (patrones procesados entre procesos de mezcla)
T : Umbral para la eliminación de agrupamientos (% sobre M)
25. Reglas de asociación con datos secuenciales:
• Expresan patrones de comportamiento secuenciales, es decir que se dan en instantes
distintos (pero cercanos) en el tiempo.
• Aplicaciones:
▫ Si se compra una casa, 65% de las veces se comprará un refrigerador dentro de
las siguientes dos semanas. (distribución y marketing)
▫ Si un cliente compra un reproductor de DVD, es probable que el mes siguiente
compre varias películas en formato DVD.(distribución y marketing)
▫ Dentro de la minería Web:
El 40% de las personas que consultan la página web de información sobre la cartelera,
visitan en menos de dos días la página web de compras de entradas de cine.(análisis de
navegación sobre páginas web)
26. Aplicaciones:
• Dentro de la minería Web: (Ejemplo Web)
• Personalización del servicio a nuevos usuarios (mediante ofertas
cruzadas de productos, enlaces dinámicos a otras áreas del servidor que
puedan ser de su interés, etc.).
• Establecimiento de nuevas tarifas de publicidad en nuestro
servidor (las páginas más visitadas por determinado tipo de
clientes pueden tener un precio particularizado).
• Reorganización de la estructura de nuestras páginas en el
servidor.
• Telecomunicaciones:
•Establecimiento de patrones de llamadas
• Otra áreas:
•Correo electrónico y agendas personales, gestión de avisos
•Detección de fraude en el comercio electrónico
28. AprioriAll
• Tiene como objetivo hallar las secuencias de conjuntos de items que
cumplan una mínima cobertura.
• Se divide en 5 fases:
▫ Fase de ordenamiento
▫ Fase de fijación de límites para conjuntos: Se determinan grandes
conjuntos de productos y se fijan sus límites.
▫ Fase de transformación: Se determina cuales de los conjuntos de secuencias,
están contenidos en una secuencia de cliente.
▫ Fase de secuencias: Se encuentran las secuencias deseadas; se repite proceso.
En cada pasada se analizan los conjuntos determinados.
▫ Fase de determinación de Máximos.
29. Ventajas:
• Para llegar a estos niveles de análisis la minería de datos utiliza a gran escala la
ciencia estadística para describir los patrones de compra, agrupar clientes, formar
segmentos, clasificar nuevos clientes, etc; lo que nos permite tener un mayor
grado de certeza de que nuestro estudio y además a poder tomar
mejores decisiones.
• Como uno de los primeros pasos a la hora de diseñar un algoritmo de
agrupamiento de secuencias es establecer una media de similitud entre secuencias,
esto permite que haya una mayor aproximación en el alineamiento
óptimo entre dos secuencias para poder compararlas
• La utilización de patrones de secuencia, permite ahorrar grandes cantidades
de tiempo en la construcción del conocimiento.
30. Desventajas:
• El problema de descubrir patrones secuenciales se centra en localizar la
presencia de un conjunto de elementos seguida por otro elemento en un
conjunto de transacciones o visitas ordenadas en el tiempo, esto causa un
poco de lentitud en la aplicación de esta técnica.
• Problema de eficiencia, ya que la estimación de la similitud entre
secuencias es más costosa que medir la similitud entre datos. Este
problema restringe en la práctica la utilización de estos métodos de
agrupamiento sólo a problemas de tamaño limitado
31. Aplicación de un método para obtener
patrones secuenciales:
▫ Explicación teórica del ejemplo
▫ Explicación de la herramienta (WEKA, Algoritmo AprioriAll)
▫ Explicación de los resultados
35. Las relaciones-patrones que se encontró en nuestro ejemplo son las
siguientes:
• La tripulación era de edad adulta y en la mayoría de sexo masculino. Lo
que nos indica que no había mucho espacio para las mujeres en cuanto a
preparación para este tipo de actividades.
• De las personas que no sobrevivieron la mayoría era de dad adulta y del
sexo masculino, lo que nos dice que eran más los hombres los que tenían
acceso a este tipo de transporte.
• Algo relevante que podemos decir es que el numero de niños que habían en
el barco era muy bajo al igual que el de mujeres.
• El número de sobrevivientes es menor al de los que murieron, por lo que
vemos las medidas de contingencia no pudieron hacer nada frente al
accidente.
Conclusiones basándonos en el ejemplo
36. A qué nos ayudan estas conclusiones?
• En el campo del marketing, enfocar al sector masculino las
propagandas relacionadas a viajes en barco.
• De educación, ofrecer carreras que tengan que ver con la
navegación.
• Realizar planes para poder actuar en caso de accidentes.
• Dar una mayor preparación a la tripulación en cuanto a
accidentes se refiere.
37. • El análisis sobre la toma de decisiones apoyados en la descripción
de hechos debe ser en mayor magnitud, es decir tratar casos
general y no tan solo uno en particular.
• La panorámica sería muy pobre en términos reales a nivel de una
población y demasiado exagerada en términos de que es
particular.
A qué nos ayudan estas conclusiones?
38. Conclusiones Finales del Tema
• Minería de datos secuenciales, es un tema que actualmente se esta
dando, es usado más dentro de la Minera Web (Web Mining)
• Técnicas como el agrupamiento automático de clientes, la
clasificación de los usuarios y la personalización de servicios,
permiten tomar una posición en este mercado que nos diferencie de
nuestros competidores.
• Dependiendo de los objetivos buscados se puede emplear el método
dentro de la minería de datos secuenciales.