Mineria De Datos Secuenciales

Inteligencia de negocios MINERÍA DE DATOS SECUENCIALES PROYECTO Guevara Diego - Jaramillo Marilyn – Landacay Katty

Objetivos: Buscar información teórica de lo que abarca, describe y caracteriza a una Minería de datos secuenciales Ampliar nuestros conocimientos, mediante el entendimiento de toda esta información encontrada acerca de nuestro tema A partir de la presente investigación poder entender los pro y contra que nos ofrece este tipo de minería de datos Tener claro todos los conceptos teóricos básicos para poder entender las aplicaciones de los patrones secuenciales.

Resumen: En este trabajo se presenta una breve introducción de lo que es la minería de datos en forma general, y luego enfocándonos a la minería de datos secuenciales. La finalidad es tener un conocimiento claro de los conceptos que abarca este tipo de técnica de minería de datos como es la de patrones secuenciales, mismos que utilizaremos en las siguientes fases de nuestro proyecto. Iniciamos la presente fase, con una descripción de lo que es minería de datos, tipos y técnicas, luego nos enfocamos en minería de datos secuenciales, concepto, características, problemas que nos permite resolver, así como las ventajas y desventajas que nos ofrece.

Introducción: La minería de datos puede definirse como la extracción no trivial de información implícita, previamente desconocida y potencialmente útil a partir de los datos, es decir es el “descubrimiento eficiente de información valiosa, no-obvia de una gran colección de datos”. Se la considera como una técnica de descubrimiento de conocimiento que, a su vez, hace uso dediferentes tecnologías para conseguirlo como: agrupamiento automático, predicción,clasificación, asociación de atributos, detección de patrones secuenciales, etc.

Introducción: En el siguiente gráfico podemos observar la clasificación de Minería de Datos (DM) en dos grupos: tareas descriptivas y predictivas, nosotros nos enfocamos en las descriptivas específicamente en el grupo de Asociación (color verde en el grafico), y dentro de este en Patrones secuenciales

Introducción: Las tareas o métodos descriptivos o también llamados no supervisados son utilizados cuando una aplicación no es lo suficientemente madura y no tiene el potencial necesario para una solución predictiva, descubriendo patrones y tendencias en los datos actuales (no utilizan datos históricos), que permitan explorar las propiedades de los datos examinados, no para predecir nuevos datos, sino para llevar acciones y obtener beneficio (científico o de negocio) de ellas El descubrimiento de patrones secuenciales es muy utilizado en la industria ventas al por menor, y también en el dominio de la medicina. El resultado de esta técnica se presenta como una lista de transacciones. Los algoritmos de patrones secuenciales son muy útiles a la hora de descubrir la tendencia de los datos como: El número de revistas deportivas vendidas a clientes con N° de crédito

Desarrollo: Definición de Minería de Datos secuenciales.- Es la extracción de patrones frecuentes relacionados con el tiempo u otro tipo de secuencia Es una clase especial de dependencia en las que el orden de acontecimientos es considerado. En un análisis de cesta de compras, las asociaciones describen dependencias entre artículos en un tiempo dado. El patrón secuencial describe el modelo que hace compras de un cliente particular o un grupo de clientes relacionando las distintas transacciones efectuadas por el o ellos a lo largo del tiempo. Son eventos que se enlazan con el paso del tiempo, por ejemplo si se compra una casa, 65% de las veces se comprará un refrigerador dentro de las siguientes dos semanas.

Patrones Secuenciales: Se trata de buscar asociaciones de la forma: "si sucede el evento X en el instante de tiempo t entonces sucederá el evento Y en el instante t+n“. El objetivo de la tarea es poder describir de forma concisa relaciones temporales que existen entre los valores de los atributos del conjunto de ejemplos. Utiliza reglas de asociación secuenciales.- reglas que expresan patrones de comportamiento secuencial, es decir, que se dan en instantes distintos en el tiempo.

Características: El orden importa Objetivo: encontrar patrones en secuencia Una secuencia es una lista ordenada de itemsets, donde cada itemset es un elemento de la secuencia El tamaño de una secuencia es su cantidad de elementos (itemsets) La longitud de una secuencia es su cantidad de items El soporte de una secuencia es el porcentaje de secuencias que la contienen en un conjunto de secuencias S Las secuencias frecuentes (o patrones secuenciales) son las subsecuencias de una secuencia que tienen un soporte mínimo

Tipos de valores que usa: El número de revistas deportivas vendidas a clientes en un supermercado Transacciones comerciales Recorrido de un cliente por las secciones de un supermercado Marketing focalizado Ventas de artículos propensión de uso de productos segmentación por comportamiento de compra propensión a la compra Registros sobre accesos a páginas web Orden de compra de productos Rutas de ubicación de archivos Adn, proteínas Registros transaccionales: transacciones comerciales, operaciones realizadas con una tarjeta de crédito Relacionales: ej: detectar patrones de un tipo, estructura de servicios que ofrece un banco, o en un supermercado

Entornos: Entorno en los que se desarrolla: Áreas: Medicina Biología, bioingeniería Web Análisis de mercado, distribución y en el comercio Aplicaciones financieras y banca Aplicaciones de seguro y salud privada Deportes Tipo de base de datos: Base de datos temporales Base de datos documentales Base de datos relacionales

Entornos: Entorno en los que no se desarrolla: Áreas: En entornos predictivos En entornos de naturaleza variable. La variabilidad viene determinada por la inexistencia de un orden predeterminado de aparición de los hechos o eventos. La recuperación de la información.- una tarea típica en encontrar documentos a partir de palabras claves Política: diseño de campañas políticas, estudio de tendencias políticas Policiales: identificación de posibles terroristas en un aeropuerto Procesos industriales: detección de piezas con trabas. Modelos de calidad Tipo de base de datos: Base de datos espaciales Base de datos multimedia

Tipos de problemas que ayuda a solucionar: Algunas de las técnicas de minería de datos existentes para datos secuenciales son: clasificación con datos secuenciales, agrupamiento de patrones secuenciales y reglas de asociación con datos secuenciales Algunos problemas que se resuelven con estas técnicas de la minería de datos secuenciales son: Clasificación con datos secuenciales Agrupamiento de patrones secuenciales Reglas de asociación con datos secuenciales

Clasificación con datos secuenciales: Donde datos contiguos presentan algún tipo de relación Aplicaciones: Reconocimiento de caracteres escritos.- El reconocimiento de caracteres tiene como objeto la asociación de un caracter a la identidad correspondiente de entre un conjunto de símbolos que componen el alfabeto considerado. Dicho mecanismo se puede dar en varias situaciones, desde reconocimiento de letras o números aislados hasta análisis o comprensión de documentos, donde el procedimiento estudiado no es más que una pequeña pieza de un rompezabezas. Ayuda a: automatizar la lectura de direcciones postales, cheques bancarios, formularios de impuestos, formularios de censo y lectores de texto para discapacitados, entre otros. Reconocimiento de correo spam de un correo electrónico

Agrupamiento de patrones secuenciales: Se define como la tarea de separar en grupos a los datos, de manera que los miembros de un mismo grupo sean muy similares entre sí, y al mismo tiempo sean diferentes a los objetivos de otros grupos. Aplicaciones: En este caso se busca los grupos de secuencias con alta conexión Agrupar secuencias transaccionales comerciales puede ayudar a identificar diferentes grupos de clientes de acuerdo a sus compras Biología, bioingeniería: Encontrar grupos con secuencias de proteínas similares puede ayudar a identificar secuencias de idéntica funcionalidad Análisis de secuencias de genes Predecir si un compuesto químico causa cáncer Clasificación de cuerpos celestes

Agrupamiento de patrones secuenciales ,[object Object],[object Object]

Se procesan los primeros 15 patrones únicamente

Características principales ,[object Object]

Flexibilidad: Su comportamiento puede ajustarse gracias a suamplio conjunto de parámetros.

Eficiencia: Cálculos muy sencillos, basta con recorrer una vez el conjunto de datos.

Utilización: Los valores adecuados para los parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.

Sesgado por los primeros patrones: Los resultados obtenidos dependen del orden de presentación de los patrones.,[object Object]

Partiendo de un único agrupamiento, se van creando nuevos agrupamientos conforme se procesan nuevos patrones secuencialmente (algoritmo incremental).

Los patrones se procesan secuencialmente por lotes. Al final de cada lote, se evalúan los agrupamientos obtenidos y se reduce su número.,[object Object]

Posteriormente, se procesan secuencialmente los demás patrones:

Se calcula la distancia del patrón actual al agrupamiento más cercano (a su centroide).

Si ésta es menor o igual a R se asigna el patrón a su agrupamiento más cercano.

En caso contrario, se crea un nuevo agrupamiento con el patrón actual.,[object Object]

Parámetros K: Número deseado de agrupamientos. R: Umbral de distancia para crear agrupamientos. C: Umbral de distancia para mezclar agrupamientos. M: Longitud del “lote”(patrones procesados entre procesos de mezcla) T : Umbral para la eliminación de agrupamientos (% sobre M)

Reglas de asociación con datos secuenciales: Expresan patrones de comportamiento secuenciales, es decir que se dan en instantes distintos (pero cercanos) en el tiempo. Aplicaciones: Si se compra una casa, 65% de las veces se comprará un refrigerador dentro de las siguientes dos semanas. (distribución y marketing) Si un cliente compra un reproductor de DVD, es probable que el mes siguiente compre varias películas en formato DVD.(distribución y marketing) Dentro de la minería Web: El 40% de las personas que consultan la página web de información sobre la cartelera, visitan en menos de dos días la página web de compras de entradas de cine.(análisis de navegación sobre páginas web)

Aplicaciones: ,[object Object],• Personalización del servicio a nuevos usuarios (mediante ofertas cruzadas de productos, enlaces dinámicos a otras áreas del servidor que puedan ser de su interés, etc.). • Establecimiento de nuevas tarifas de publicidad en nuestro servidor (las páginas más visitadas por determinado tipo de clientes pueden tener un precio particularizado). • Reorganización de la estructura de nuestras páginas en el servidor. ,[object Object]

Establecimiento de patrones de llamadas

Correo electrónico y agendas personales, gestión de avisos

Detección de fraude en el comercio electrónico,[object Object]

AprioriAll Tiene como objetivo hallar las secuencias de conjuntos de items que cumplan una mínima cobertura. Se divide en 5 fases: Fase de ordenamiento Fase de fijación de límites para conjuntos: Se determinan grandes conjuntos de productos y se fijan sus límites. Fase de transformación: Se determina cuales de los conjuntos de secuencias, están contenidos en una secuencia de cliente. Fase de secuencias: Se encuentran las secuencias deseadas; se repite proceso. En cada pasada se analizan los conjuntos determinados. Fase de determinación de Máximos.

Mineria De Datos Secuenciales

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Mineria De Datos Secuenciales

Similar a Mineria De Datos Secuenciales (20)

Más de Marilyn Jaramillo

Más de Marilyn Jaramillo (20)

Último

Último (11)

Mineria De Datos Secuenciales