Avances tecnológicos del siglo XXI y ejemplos de estos
Algoritmo agil
1. Universidad Nacional de Trujillo – Ing. Informática
ALGORITMO Á GIL USANDO LÁ TICES PARA LA DETECCIÓ N DEL
MINADO DE PATRONES SECUENCIALES
Salvador Amaya Raisa Sánchez Siccha Celeny Tung Meihsiu
raisali_1@hotmail.com celymar_15@hotmail.com meihsiutung@hotmail.com
PANORAMA GENERAL
RESUMEN:
Los patrones secuenciales tienen muchos usos aplicados a diferentes campos, se ha convertido en una de las
aplicaciones más importantes en la minerí de datos. El problema surgido en estudios anteriores de los patrones
a
secuenciales es la generación de demasiados candidatos que resultan durante el proceso, obteniendo un cálculo del
coste y tiempo de pasada cada vez mayor. En este trabajo se describe un mejor algoritmo, Algoritmo Á gil para
aliviar este problema. El algoritmo explora la base de datos secuencial una vez para luego construir la estructura de
látice que es la representación cuasi-comprimida base de datos original.
ABSTRACT:
Sequential Patterns has many diverse applications in many fields recently. And it has become one of the most
important issues of Data Mining. The major problem in previous studies of mining sequential patterns is too many
candidates sequences has been generated during the mining process, costing computing power and increasing
runtime. In this paper we propose a new algorithm to alleviate this problem. The better algorithm scan sequential
database only once to construct the lattice structure which is a quasi-compressed data representation of original
sequential database.
Palabras claves: patrones secuenciales, minerí de datos, estructuras de látices.
a
1. INTRODUCCIÓ N
Las secuencias frecuentes son una tarea importante de minerí de datos, desde el punto de
a
vista de las aplicaciones, incluyendo los patrones de aprendizaje, los patrones de acceso a la
Web, Análisis del comportamiento de los clientes y otros relacionados con el tiempo de
proceso de datos. El problema puede ser el estado secuencial de los patrones, es decir
descubrir subsecuencias frecuentes como patrones secuencial en una base de datos.
Hay muchos estudios previos de la minerí en patrones secuenciales de manera eficiente.
a
La mayorí enfocado a los estudios previos de la minerí en patrones secuenciales, las
a a
Á lgebra Universal para Ciencias de la Computación
2. Universidad Nacional de Trujillo – Ing. Informática
secuencias de tiempo relacionadas, son adoptadas a priori como principio que indican que
cualquier super-secuencia de una infrecuente es también infrecuente.
El principio apriori, se basa en el método de generación y reducción; la primera exploración
trata de encontrar todos las frecuencias, como una secuencia que es ensamblada para generar
la segunda secuencia de candidatos. Aquellos candidatos que no cumplan el soporte mínimo
se reducirán en el proceso; esto se repetirá hasta que no se generen más candidatos.
La minerí a priori-como método aplicado en patrones secuenciales ha sufrido varios
a
inconvenientes como:
- genera un conjunto enorme de candidatos de una secuencia de base de datos.
- la poca eficiencia del tiempo debido a múltiples exploraciones de la secuencia base de
datos.
Con el algoritmo que se desarrollara en este trabajo se busca terminar con los problemas
generados con otros métodos; por lo que el Algoritmo Á gil tiene como objetivos reducir los
tiempos de exploración, reducir el espacio de búsqueda y el mínimo requisito de la memoria
para buscar secuencias frecuentes, y también obtener el máximo número de secuencias
frecuentes en la ejecución a través de un algoritmo basado en la estructura de látice.
2. ESTADO DEL ARTE
Los algoritmos para detección del minado de patrones secuenciales se pueden agrupar en
dos categorí Una categorí es algoritmo basado en Apriori, como GSP, SPADE, la otra
as. a
categorí es algoritmo basado en el crecimiento de patrones, como PrefixSpan.
a
Srikant y Agrawal propusieron el algoritmo GSP (Patrón Secuencial Generalizado), el
algoritmo realiza múltiples pases sobre la base de datos. En el primer pase todos los ítems
simples (1-secuencias) son contados para encontrar cuales son frecuentes. A partir de los
ítems frecuentes, un conjunto de 2-secuencias candidatas es formado y su soporte es contado
en el otro pase por la base de datos y este proceso es repetido hasta que no se encuentren
Á lgebra Universal para Ciencias de la Computación Pág. 2
3. Universidad Nacional de Trujillo – Ing. Informática
nuevas secuencias frecuentes. El algoritmo GSP presenta como desventaja la gran cantidad de
secuencias candidatas que genera, unido a los múltiples pases que necesita realizar por la base
de datos, lo cual resulta ineficiente para la minerí de largos patrones secuenciales. Zaki
a
propuso SPADE (Sequential Pattern Discovery using Equivalence classes), a diferencia que
los algoritmos basados en A priori, mina todas las secuencias frecuentes en solo tres pases.
Usa una lista de identificadores con formato vertical, sobre esta lista pueden ser enumeradas
todas las secuencias frecuentes mediante simples uniones temporales. Utiliza un enfoque de
látice, para descomponer el espacio de búsqueda original en clases pequeñas. El algoritmo
SPADE supera al GSP, al introducir importantes optimizaciones que reducen el consumo de
memoria y mejoran su eficiencia, sin embargo el SPADE se base en listas que contienen
información sobre la localización de los patrones en las secuencias y las repeticiones
consecutivas conllevan a un desfavorable crecimiento del tamaño de estas litas de ocurrencia
y por lo tanto aumenta el tiempo total de extracción.
Por otro lado, Pei propuso un algoritmo basado en el crecimiento de patrones, PrefixSpan
se basa en la construcción recursiva de patrones. La ventaja de PrefixSpan es el uso de bases
de datos proyectadas, para así lograr bases de datos mucho más pequeños en el próximo nivel,
que el algoritmo pueda procesar con mayor rapidez, pero la construcción de bases de datos
proyectadas es de mayor costo, en cuanto a tiempo y espacio, de este algoritmo.
3. BIBLIOGRAFÍA
R. Agrawal, R. Srikant. Mining sequential patterns. IEEE Computer Society: In Proc. Of the 11 th
International Conference on Data Engineering (ICDE’ 95). Taipei, Taiwan, March, 1995.
R.J. Bayardo. Efficiently mining long patterns from databases. In Proc. 1998 ACM-SIGMOD Int.
Conf. Management of Data, Seattle, WA. June 1998
M. J. Zaki. SPADE: An Efficient Algorithm for Mining Frequent Sequences. Journal Machine
Learning, 2001.
J.Pei, J. Han, H.Pinto, Q.Chen, U.Dayal. PrefixSpan: mining sequential patterns efficiently by
prefix-projected pattern growth. In Proc. of 2001 International Conference on Data Engineering,
2001.
Á lgebra Universal para Ciencias de la Computación Pág. 3