SlideShare una empresa de Scribd logo
1 de 27
Descargar para leer sin conexión
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
210
210
A T
*	 Universidad Pedagógica y Tecnológica de Colombia. Teléfono: (57) 30056433462. Correo electrónico: gustavo.caceres@
uptc.edu.co.
**	 Universidad Distrital Francisco José de Caldas. Teléfono: (57) 3203050462. Correo electrónico: jrodri@udistrital.edu.co.
Agrupamiento de datos de series de
tiempo. Estado del arte
Clustering of time series data. State of the art
Gustavo Cáceres Castellanos*
Jorge E. Rodríguez Rodríguez**
Fecha de recepción: 15 de enero del 2011
Fecha de aceptación: 16/ de junio del 2011
	 Palabras clave: datos de series de tiempo, agrupamiento de se-
ries de tiempo.
Abstract
Time series clustering has been an important research field in the last decade,
providing useful and effective information in diverse domain.
As outcome of the great existing interest for part of the scienti-
fic community of data mining area, innumerable research wor-
ks have arisen that propose new algorithms and methodologies
to identify cluster in the data time series. To provide an over-
view, this paper surveys and summarizes works that investiga-
ted the data time series clustering in diverse applications field.
The basic concepts of time series clustering are presented and
the surveyed works are organized into three groups: temporal-
proximity-based, model-based and representation-based. The
application areas are summarized with a brief description of
the used data. The characteristics and particularities of some
works are discussed.
	 Key words: Time series data, time seriesclustering
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
211
211
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
Introducción
Debido al rápido desarrollo de las tecnolo-
gías de la información y la comunicación
(TIC) y al avance de la globalización, las so-
ciedades actuales se han enlazado conjunta-
mente de manera compleja en varios niveles
y han surgido varios problemas en econo-
mía, medio ambiente, salud, seguridad, etc.
Por consiguiente, la elucidación, predicción
y control de estos sistemas complejos diná-
micos son objetos de estudio muy importan-
tes (Kitagawa, 2010, p. 252).
Como un hecho particular de dichos siste-
mas complejos, en algunos casos, se encuen-
tran involucrados en ellos grandes volú-
menes de datos que están representados en
datos de series de tiempo. Una de las carac-
terísticas de estas series de tiempo del mun-
do real es su ubicuidad (Yang y Chen, 2010,
p.10); actualmente, se encuentran en muchas
áreas de aplicación, como agricultura, finan-
zas, mercadeo, ingeniería, geofísica, medi-
cina, economía, biología, bioquímica, me-
teorología, ciencias sociales, industria de
procesos y producción, lenguaje natural, ro-
bótica, multimedia, entre otras (Wei, 2006, p.
634; Palit y Popovic, 2005, p. 381; Cowpert-
wait y Metcalfe, 2009, p. 262; Plant, Wohls-
chläger y Zherdin, 2009, pp. 914, 919; Pyl-
vänen, Äyrämö y Kärkkäinen, 2009, p. 10;
Savvides, Promponas y Fokianos, 2008, p.
15). Como consecuencia, en la última déca-
da, la administración de datos de series de
tiempo se ha convertido en un área de inves-
tigación interesante e importante en la mine-
ría de datos (Ding et ál.,2008, p. 11; Kavitha
y Punithavalli, 2010, p. 6; Guo, Jia y Zhang,
2008, p. 4; Luo, Liao y Zhan, 2010, p. 5), ra-
zón por la cual las técnicas y aplicaciones
de minería de datos para el análisis de da-
tos de series de tiempo han estado ganando
amplia atención con temas de investigación
interesantes sobre agrupamiento, búsqueda
de similaridad, clasificación, predicción, etc.
(Ding et ál.,2008, p. 11). Particularmente, el
agrupamiento de series de tiempo ha centra-
do el interés de algunos investigadores, dan-
do como resultado la introducción de gran
cantidad de trabajos que desarrollan nuevas
metodologías, como se evidencia en los artí-
culos de estado del arte elaborados por Liao
(2005, p. 18) y Kavitha y Punithavalli (2010,
p. 6) y las diferentes técnicas revisadas en el
presente artículo.
Debido al enorme interés existente, por parte
de la comunidad científica, en relación con el
área de minería de datos, enfocada a la inves-
tigación en agrupamiento de datos de series
de tiempo, han surgido innumerables tra-
bajos de investigación, en los últimos años,
en los que se proponen nuevos algoritmos y
metodologías para identificar grupos en los
datos de series de tiempo. Las diversas meto-
dologías desarrolladas han sido aplicadas en
los más variados campos, como por ejemplo,
la comparación de indicadores a través de
países y regiones, investigación de datos fi-
nancieros (Guo, Jia y Zhang, 2008, p. 4; Papa-
nastassiou, 2009, p. 5; Olier y Vellido, 2008, p.
21); datos médicos, desde monitoreo, basado
en sensores de pacientes afectados por pato-
logías similares, datos granados en interva-
los de tiempo regular en geología y climato-
logía (Bandyopadhyay, Baragona y Maulik,
2010), en la bioquímica (Savvides, Prompo-
nas y Fokianos, 2008, p. 15; Kuenzel,2010, p.
14), meteorología (Horenko, 2010, p. 23), eco-
logía (Debeljak et ál., 2010, p. 6), datos de ex-
presión genética (Chiu, Hsu y Wang, 2010),
entre otros.
Estos métodos están clasificados en tres im-
portantes categorías: metodología basada en
proximidad temporal, metodología basada
en representación y metodología basada en
modelos, en las cuales la idea básica de los
dos últimos métodos es convertir las series
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
212
212
de tiempo en datos estáticos o parámetros
de modelos, para luego aplicar directamen-
te métodos de agrupamiento desarrolla-
dos para manipular los datos estáticos para
completar las tareas de agrupamiento (Yang
y Chen, 2010, p. 10; Guo, Jia, y Zhang, 2008;
Wei y Jiang, 2010, pp. 135-138).
El presente artículo tiene la intención de in-
troducir las bases del agrupamiento de series
de tiempo y suministrar una revisión de tra-
bajos realizados en años recientes. En el se-
gundo aparte, se presentan conceptos funda-
mentales del agrupamiento datos de series
de tiempo. En el tercero, se presenta la cla-
sificación e informe de los trabajos de agru-
pamiento en series de tiempo que han sido
presentados en la literatura abierta en los úl-
timos años. Varios aspectos en relación con
las técnicas presentadas son discutidos en
el cuarto apartado y, finalmente, el artículo
concluye con un apéndice, en el que se expo-
nen las áreas de aplicación que son reporta-
das con links, en los cuales se encuentran da-
tos de series de tiempo disponibles.
Agrupamiento de series de
tiempo
El agrupamiento es una técnica poderosa re-
conocida en la minería de datos y ha sido es-
tudiada exhaustivamente durante los últi-
mos años. Este es un método para agrupar
objetos de un conjunto de datos dentro de
diferente “grupos”, de acuerdo con las ca-
racterísticas encontradas en dichos datos. El
mayor logro es la creación de particiones de
objetos que tengan similitud entre ellos; te-
niendo un conjunto de datos X={x1; x2; … ;
xn}, x se divide en k grupos {C1;C2; …;Ck},
donde Ci ∈ X(i = 1; 2;…; k). El resultado obte-
nido de este proceso puede revelar objetos/
categorías desconocidas que pueden ayu-
dar a un mejor entendimiento de los datos
(Zhou, Li y Ma, 2009).
Similar al agrupamiento de puntos de datos
estáticos, el propósito de agrupamiento de
series de tiempo es resaltar la estructura in-
herente en un conjunto de datos de serie de
tiempo agrupando los datos en un número
de grupos homogéneos, de forma que la si-
milaridad entre datos dentro de un grupo es
máxima. Los datos de series de tiempo pue-
den ser de valor discreto o real, muestreados
uniformemente o no, uni variables o multi-
variables y de igual longitud o longitud dife-
rente (Chandrakala y Sekhar, 2008).
El agrupamiento de series de tiempo es una
tarea importante en la minería de datos. En
comparación con los problemas tradiciona-
les de agrupamiento, en las series de tiempo
se plantean algunas dificultades adicionales.
La estructura única de series de tiempo hace
que muchos métodos tradicionales de agru-
pamiento no se puedan aplicar a las series de
tiempo de manera directa (Guo, Jia y Zhang,
2008). El objetivo final del análisis de agru-
pamiento de series de tiempo es dividir un
conjunto de series de tiempo no etiquetadas,
en las cuales las secuencias agrupadas deben
ser coherentes u homogéneas (Yang y Chen,
2010, p. 10; Vilar, Alonso y Vilar, 2010, p. 16).
Los componentes más importantes de un
método de agrupamiento de series de tiem-
po son probablemente: la definición de una
adecuada medida de similitud/distancia,
y el algoritmo de agrupamiento (Piccardi y
Calatroni, 2010). Sin importar el método de
agrupamiento utilizado, siempre se requiere
de una medida de distancia o similitud para
la comparación de dos series de tiempo. La
selección de esta medida de similitud deter-
mina el buen desempeño del agrupamiento
(Zhang, Liu y Yan, 2010). Las medidas de si-
militud más ampliamente utilizadas para el
agrupamiento de datos estáticos son la dis-
tancia euclidiana (Euclidean Distance, EC) y el
coeficiente de correlación de Peason (Peason’s
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
213
213
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
Correlation Coefficient, CC) (Zhang, Liu y Yan,
2010).
Conceptualmente, muchos de los criterios
de disimilitud propuestos para agrupamien-
to de series de tiempo tratan con la noción
de similaridad confiando en dos posibles cri-
terios: proximidad entre datos de series en
bruto y proximidad entre procesos de pro-
ducción fundamentales. En ambos casos,
la tarea de clasificación llega a ser inheren-
temente estática, dado que la búsqueda de
la similitud es controlada solamente por el
comportamiento de las series sobre sus pe-
riodos de observación (Vilar, Alonso y Vilar,
2010, p. 16).
Estudios empíricos en minería de datos de
series de tiempo revelan que muchos de los
algoritmos de agrupamiento existentes no
trabajan bien, debido a su complejidad en la
estructura fundamental y a su dependencia
de los datos (Keogh y Kasetty, 2002, pp. 102-
111), lo cual plantea un reto real en agrupa-
miento de series de tiempo de alta dimen-
sionalidad, correlación temporal compleja
y una cantidad sustancial de ruido (Yang y
Chen, 2010, p. 10).
En el contexto del tratamiento de dependen-
cia de datos, existen algoritmos de agrupa-
miento de series de tiempo que pueden ser
clasificados en metodologías de agrupa-
miento basadas en proximidad temporal, basadas
en modelos y basadas en representación. A conti-
nuación, se describen algunas de las caracte-
rísticas más relevantes de estas metodologías.
Agrupamiento de series de tiempo
basado en proximidad temporal
Estos algoritmos trabajan directamente sobre
las series de tiempo, en las cuales la corre-
lación temporal es tratada directamente du-
rante el análisis del agrupamiento por medio
de medidas de similitud. Entre las ventajas
presentadas por este método, se encuentra
que previenen la pérdida de información y
es una forma directa de capturar el compor-
tamiento dinámico de una serie de tiempo;
adicionalmente, es un medio flexible para
tratar con longitudes de datos de series de
tiempo variables.
Sin embargo, estas metodologías regular-
mente son sensibles a la inicialización, pre-
sentan problemas de selección del modelo y
una complejidad computacional alta. Algu-
nos trabajos desarrollados en esta metodolo-
gía son: algoritmo de agrupamiento para vi-
deo basado en series de tiempo de trayectoria
de movimiento de transformadas wavelet de
movimiento de objetos en video (Luo, Liao
y Zhan, 2010), análisis de datos de series de
tiempo sobre vegetación de agroecología uti-
lizando árboles de agrupamiento predictivo
(Debeljak et ál., 2010, p. 6), agrupamiento de
datos de series de tiempo del gen basado en
representaciones continuas y una mediada
de similaridad basada en energía (Zhang, Liu
y Yan, 2010), agrupamiento adaptativo para
series de tiempo (Douzal-Chouakria, Diallo
y Giroud, 2009, p. 13), un procedimiento de
agrupamiento para minería exploratoria de
series de tiempo vector (Liao, 2007, p. 13), un
algoritmo de agrupamiento para datos de se-
ries de tiempo (Yin, Zhou y Xie, 2006).
Agrupamiento de series de tiempo
basado en modelos
Trabajan directamente sobre las series de
tiempo, en las cuales la correlación temporal
es tratada directamente durante el análisis
del agrupamiento por medio de medidas de
similitud. Los grupos de las series de tiempo
son especificados por una serie de modelos
dinámicos, identifican la independencia de
datos y la regularidad, más allá del compor-
tamiento dinámico de las series de tiempo.
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
214
214
Esta metodología es adecuada para enfren-
tar dependencias de datos entre las series de
tiempo; estas son caracterizadas con mode-
los generativos. Como desventaja, presentan
una alta complejidad computacional y pro-
blemas en la selección del modelo. Algunos
de los trabajos desarrollados utilizando esta
metodología son: un algoritmo basado en in-
teracción de series de tiempo multivariables
(Plant, Wohlschläger y Zherdin, 2009), agru-
pamiento de series de tiempo meteorológi-
cas no estacionarias (Horenko, 2010, p. 23),
agrupamiento de series de tiempo no linea-
les basado en densidades de pronóstico no
paramétricas (Vilar, Alonso y Vilar, 2010, pp.
2850-2865), algoritmo de agrupamiento k-
means basado en modelo oculto de Markov
(Wei y Jiang, 2010, pp. 135-138), un método
de agrupamiento jerárquico basado en HMM
para series de tiempo de expresión genética
(Zhao y Deng, 2010).
Agrupamiento de series de tiempo
basado en representaciones
Se extrae un conjunto de características de la
serie de tiempo, convierte las series de tiempo
en dimensionalidades más bajas con caracte-
rísticas de espacio, en las cuales cualquier al-
goritmo de agrupamiento de datos estático
existente puede ser aplicado, lo cual, en es-
pecial, eficiente en computación. Presenta la
ventaja de reducir significativamente el costo
computacional y su compatibilidad con los
algoritmos de agrupamiento para datos está-
ticos. No obstante, una representación tiende
a codificar solamente aquellas características
bien presentadas en su espacio de represen-
tación, lo cual inevitablemente causa pérdi-
da de otra información útil llevada en la serie
de tiempo original. Debido a la alta comple-
jidad y variedad de las series de tiempo, no
existe una representación universal que ca-
racterice perfectamente diferentes tipos de
series de tiempo (Ding et ál., 2008, pp. 1542–
1552). Por consiguiente, una representación
es simplemente aplicable a clases de series
de tiempo, en las cuales sus características
salientes puedan ser completamente captu-
radas en el espacio de representación; pero
esta información es difícilmente disponible
sin conocimiento previo y un análisis cui-
dadoso. Con esta metodología encontramos
trabajos desarrollados como: agrupamien-
to de series de tiempo por medio de conjun-
to de redes RCPL(Yang y Chen, 2010. p. 10),
agrupamiento de series de tiempo por aná-
lisis de comunidad de redes (Piccardi y Ca-
latroni, 2010), agrupamiento difuso en series
de tiempo en el dominio de frecuencia (Ma-
haraj, E.-A. and D’urso, 2010, p. 25), agrupa-
miento basado en LLE (Locally Linear Em-
bedding) para series de tiempo financieras
multivariables [25]
Trabajos realizados
Basados en la clasificación para algoritmos
de agrupamiento de series de tiempo, enun-
ciada anteriormente, a continuación se pre-
sentan algunos trabajos que se han desarro-
llado en años recientes, que nos permiten ver
el avance y las tendencias de la investigación
en el campo de la minería de datos y parti-
cularmente del agrupamiento en series de
tiempo.
Agrupamiento de series de tiempo
basada en proximidad temporal
Estas metodologías centran su esfuerzo del
proceso de agrupamiento en diseñar medi-
das de similitud o distancia entre secuencias,
siendo una de las más efectivas la DTW (Wei
y Jiang, 2010, pp. 135-138). Acontinuación, se
enuncian algunas de las técnicas de agrupa-
miento de series de tiempo basadas en proxi-
midad temporal, desarrolladas en los últi-
mos años:
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
215
215
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
Cuando se trabaja con series de tiempo de
expresión génica, a menudo, los puntos del
tiempo no son muestreados uniformemen-
te, lo cual representa un problema en el des-
empeño del agrupamiento. Con el propósi-
to de mejorar dicho desempeño, Zhang, Liu
y Yan (2010), presentan una nueva metodo-
logía de agrupamiento, que se basa en la re-
presentación continua y medidas de simila-
ridad basadas en energía. La metodología
propuesta modela cada perfil de la expresión
génica como una expansión B-spline, para lo
cual son estimados los coeficientes spline por
medio del esquema del cuadrado mínimo re-
gularizado sobre los datos observados. Lue-
go de ajustar la representación continua del
perfil de la expresividad del gen, utilizan la
medida de similaridad basada en energía
para tomar en cuenta la información tempo-
ral y cambios relativos de la serie de tiempo.
El método propuesto está enfocado a mejo-
rar el agrupamiento de series de tiempo del
gen combinando la representación continua
y la medida de similaridad, basada en ener-
gía, más que el algoritmo de agrupamiento
mismo. Este método puede ser extendido a
otros algoritmos de agrupamiento.
Luo, Liao y Zhan (2010) proponen un análi-
sis de similaridad y un algoritmo de agrupa-
miento de videos, basado en la transforma-
da wavelet de datos de series de tiempo de
la trayectoria del movimiento de objetos en
los videos. Este algoritmo detecta el movi-
miento de objetos desde la observación de
escenas del video, calcula el centroide del
movimiento del objeto y usa la serie centroi-
de para caracterizar la trayectoria del movi-
miento del objeto. Luego, utiliza el método
de análisis wavelet para lograr la reducción
de la dimensionalidad y obtener el primer
coeficiente wavelet k para sustituir los da-
tos de serie de tiempo original. Basado en la
distancia euclidiana, utiliza dos reglas de jui-
cio para determinar la similaridad de los da-
tos de series de tiempo y agruparlos, utiliza
las reglas para ejecutar la búsqueda de simi-
litud y agrupamiento del video. Para reali-
zar el agrupamiento, se utiliza el algoritmo
K-means.
Debeljak et ál. (2010, p. 6) describen una apli-
cación exitosa de árboles de agrupamiento
predictivo en el análisis de series de tiempo
en un conjunto de datos ecológico grande y
complejo. Fueron combinados tres métodos
en esta aplicación DTW para definir la dis-
tancia entre dos series de tiempo; el algorit-
mo K-medoids para hacer una partición de las
series de tiempo y de los árboles de agrupa-
miento predictivo, a fin de asociar una varia-
ble destino, en este caso, la segunda serie de
tiempo, para variables independientes (atri-
butos de entrada), incluyendo pertenencias
en los grupos definidos para la primera se-
rie de tiempo.
Por su parte, Douzal-Chouakria, Diallo y Gi-
roud (2009, p. 13)aplican un algoritmo de
agrupamiento adaptativo de series de tiem-
po para identificar el ciclo celular expresa-
do en los genes. Este algoritmo primero se
basa en un índice de disimilitud, cubriendo
tanto la proximidad sobre los valores como
los comportamientos. El método de agrupa-
miento debería ayudar a aprender la contri-
bución apropiada sobre valores y comporta-
miento del índice de disimilitud. Finalmente,
este permite extraer un conjunto de genes ca-
racterizando, bien las fases del ciclo celular.
Se utilizó el algoritmo Partitioning Around
Medoids (PAM) para dividir el conjunto de
genes estudiado en n grupos (siendo n el nú-
mero de fases o interfaces de ciclo celular es-
tudiado). Este algoritmo, siendo más robusto
en relación al manejo de valores atípicos que
el K-means, permite un mayor detalle en el
análisis de la partición, suministrando carac-
terísticas de agrupamiento; particularmente,
indica, para cada gen, si este está bien clasifi-
cado o si se encuentra en el límite del grupo.
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
216
216
Liao (2007, p. 13) propone un procedimien-
to de dos pasos para minería exploratoria de
series de tiempo multivariada valor continuo
(real-valued) utilizando métodos de agrupa-
miento basados en partición. Esta metodo-
logía trabaja directamente sobre los datos en
bruto y es capaz de manipular series de tiem-
po de longitud diferente. El primer paso de
la metodología propuesta convierte la serie
de tiempo continua en serie se tiempo uni-
variable de valor discreto. Este primer paso
se puede considerar un paso de reducción de
dimensión. Se lleva acabo aplicando un algo-
ritmo de agrupamiento a los datos multiva-
riados trazados en el tiempo.
El segundo paso agrupa los n números de
la serie de tiempo de valor discreto conver-
tida dentro de un número predeterminado
de grupos. Se tomaron dos diferentes meto-
dologías para esto, la primera utiliza la dis-
tancia DTW y algoritmos de agrupamien-
to jerárquico, o basado en medoid, estos son
necesarios si esta metodología es tomada. La
segunda metodología primero expresa cada
valor discreto de la serie de tiempo univaria-
ble como una matriz de transición de proba-
bilidades n. Esta segunda alternativa puede
hacer uso de todos los algoritmos de agrupa-
miento existentes.
Yin, Zhou y Xie (2006) proponen una mejora
al método clásico de agrupamiento jerárqui-
co, desarrollando un método de intercam-
bio basado en la metodología de codificación
Bitmap. Este método consta de seis pasos:
•	 Inicia asignando cada ítem a su propio
grupo, así que si son n ítems. Hay n gru-
pos, cada uno conteniendo solamente un
ítem.
•	 Usa la relación grey como medida de si-
milaridad de series de tiempo y deja las
similitudes entre grupos igual a las simili-
tudes entre los ítems que ellos contienen.
•	 Encuentra pares de grupos similares y
los combina dentro de un grupo simple,
así que un grupo puede ser reducido.
•	 Calcula el enlace promedio como simila-
ridad entre los nuevos grupos y cada uno
de los grupos viejos.
•	 Repite los pasos tres y cuatro hasta obte-
ner k grupos.
•	 Adopta el intercambio basado en la me-
todología de codificación bitmap para re-
finar los k grupos del paso cinco y luego
obtener los nuevos k grupos.
Chen (2007) resuelve algunos problemas en-
contrados en la popular técnica de agrupa-
miento STS, por consiguiente, se pudo con-
cluir que esta técnica carece de sentido.
Propone el algoritmo TF que produce agru-
pamiento de series de tiempo útiles. La me-
todología está basada en restringir el espacio
de agrupamiento para extender solamente la
región visitada por las series de tiempo en la
subdivisión del vector espacio. Dicho algo-
ritmo fue validado en doce conjuntos de da-
tos sintéticos y de la vida real.
La tabla 1 resume los principales componen-
tes utilizados en cada algoritmo de agrupa-
miento basado en proximidad temporal.
Agrupamiento de series de tiempo
basada en modelos
La metodología basada en modelos como pri-
mer paso modela las series de tiempo y luego
aplica el algoritmo de agrupamiento sobre el
modelo obtenido. En algunos casos, la des-
ventaja presentada en relación con otras me-
todologías es la complejidad computacional.
Algunas de las metodologías propuestas en
los últimos años se presentan a continuación.
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
217
217
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
Zhao y Deng (2010) proponen un novedoso
método de agrupamiento para analizar los
datos de series de tiempo de expresión gé-
nica, denominado agrupamiento jerárqui-
co basado en el Modelo de Markov Oculto
(Hidden Markov Model-based hierarchical clus-
tering, HMM-HC). Convierten datos de pun-
tos del tiempo en símbolos discretos sobre
la base del hecho de que el logaritmo del
dato obedece aproximadamente a una dis-
tribución normal y construyen los modelos
de Markov ocultos con estos símbolos para
secuencias del gen. En una serie de tiempo
de expresión génica, el dato en el punto del
tiempo es correlacionado con otros; el uso de
HMM puede ayudar a tomar ventajas de su
correlación especial. El algoritmo de agrupa-
miento HMM-HC está dividido en dos eta-
pas. Primero, modelar los datos de la serie de
tiempo de expresión génica, ya que cada mo-
delo representa un grupo. Segundo, agrupar
los modelos con la estrategia de jerarquía.
Wei y Jiang (2010, pp. 135-138) proponen un
método que busca subsanar algunas insu-
ficiencias presentadas en los algoritmos de
agrupamiento basados en los modelos de
Markov, como secuencias largas y longitudes
iguales. El algoritmo de agrupamiento de se-
ries de tiempo K-means, basado en HMM;
este algoritmo primero parte el conjunto de
datos usando DWT, agrupa las secuencias
similares en un grupo, a fin de evitar sobre-
ajustes (overfitting) para el entrenamiento de
muestras. Luego, entrena un modelo HMM
para cada grupo, calcula las probabilidades
que cada secuencia pertenece a cada mode-
lo, asigna cada secuencia en una clase corres-
Tabla 1. Resumen de los algoritmos de series de tiempo basados en proximidad temporal
Artículo Variable Longitud
Medida de
distancia
Algortimo de
agrupamiento
Aplicación
Zhang et
ál. (2010)
Simple Igual SimilB K-means Expresión genética.
Luo et ál.
(2010)
Simple Igual Euclidiana K-means
Análisis de videos de
deporte atlético.
Debeljak et
ál. (2010)
Múlti-
ples
Diferentes DTW K-medoids
Cobertura de cultivos y
maleza Reino Unido.
Qu et ál.
(2010)
Simple Igual Euclidiana Fuzzy C-means
Conjuntos de da-
tos sintéticos.
Douzal-
Chouakria
et ál. (2009,
p. 13)
Simple igual Euclidiana PAM Expresión genética.
Liao (2007,
p. 13)
Múltiple Diferentes
DTW o Jerárquico Datos Sintéticosl gene-
rados por procedimien-
to varmasim de SAS.
Kullback-
Liebeler
Fuzzy C-means
Yin (2006) Simple Igual Relación gris
Jerárqui-
co mejorado
Sistema de administración
de tráfico en Washington.
Chen
(2007)
Simple Igual Euclidiana K-medoids
Doce series de tiempo del
mundo real y sintéticas
Lytkin
(2008,
p. 33)
Múltiple Igual Euclidiana
Basado en
gradiente
Fondos de inversión común.
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
218
218
pondiente con el principio de máxima proba-
bilidad. Por último, una mejora iterativa del
modelo hasta que la función de probabilidad
de unión converja a un umbral preajusta-
do. Experimentos sobre datos artificiales han
mostrado que la metodología propuesta fun-
ciona mucho mejor que las metodologías es-
tándar de agrupamiento basadas en HMM.
Vilar, Alonso y Vilar (2010, p. 16) extienden
el procedimiento de agrupamiento, propues-
to por Alonso et ál (2006, p. 15), para cubrir
el caso de modelos no paramétricos de au-
torregresión arbitraria. Esta metodología no
asume ningún modelo paramétrico para la
verdadera estructura autorregresiva de la se-
rie, que es estimada usando técnicas de kernel
smoothing. Como consecuencia, solamente
aproximaciones no paramétricas para la ver-
dadera función autorregresiva están disponi-
bles en este nuevo ajuste y, por tanto, el filtro
de bootstrap no es un proceso de producción
válido. En este procedimiento, el mecanismo
usado para obtener las predicciones bootstrap
está basado en imitar el proceso de produc-
ción usando un estimado no paramétrico de
la función autorregresiva y un remuestreo
bootstrap de los residuos no paramétricos. De
esta manera, suministran un dispositivo útil
para clasificar series de tiempo autorregre-
sivas no lineales, incluyendo modelos para-
métricos estudiados ampliamente, como el
autorregresivo de umbral (Threshold Auto-
regressive, TAR), el autorregresivo exponen-
cial (Exponential Autoregressive, EXPAR), el
autorregresivo de transición sin problemas
(Smooth-Transition Autoregressive, STAR), y el
bi lineal, entre otros.
Pamminger y Frühwirth-Schnatter (2010, p.
24) plantean dos metodologías para agru-
pamiento basado en modelos de series de
tiempo categóricas basadas en cadenas de
Markov de primer orden de tiempo homo-
géneo. Para el agrupamiento de cadenas de
Markov, las probabilidades de transición in-
dividual son fijadas a una matriz de transi-
ción de grupo específico. En la nueva meto-
dología, llamada agrupamiento multinomial
de Dirichelt, las filas de las matrices de tran-
sición individual se derivan del grupo me-
dio y siguen una distribución Dirichlet con
híper parámetros de grupo específico desco-
nocidos. La estimación es llevada median-
te Monte Carlo Cadenas de Markov (Markov
Chain Monte Carlo, MCMC). Varios criterios
de agrupamiento bien conocidos son aplica-
dos para seleccionar el número de grupos.
Horenko (2010, p. 23) presenta un método
para agrupamiento de series de tiempo me-
teorológicas no estacionarias multidimensio-
nales. Esta metodología está basada en la op-
timización del agrupamiento promediado
regularizado funcional, describiendo la cali-
dad de la representación de datos en térmi-
nos de k modelos de regresión y un proceso
oculto meta estable intercambiado entre es-
tos. El algoritmo de agrupamiento numérico
propuesto está basado en aplicación del mé-
todo de elementos finitos (finite element me-
thod, FEM) para el problema del análisis de
series de tiempo no estacionarias. La princi-
pal ventaja del algoritmo presentado en com-
paración con HMM y con modelos de mez-
cla finita es que ninguna suposición a priori
acerca del modelo de probabilidad para los
procesos ocultos y observados es necesaria.
Otra característica numérica atractiva de este
algoritmo es la posibilidad para seleccionar
el número óptimo de grupos metaestables y
una oportunidad para controlar la ambigüe-
dad de la descomposición resultante pos-
teriormente, basado en la distinguibilidad
estadística de los estados de grupos persis-
tentes resultantes.
Plant, Wohlschläger y Zherdin (2009) propo-
nen una noción nueva para series de tiempo
multivariables. Definen un grupo como un
conjunto de objetos compartiendo un patrón
de interacción específica entre dimen
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
219
219
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
siones: proponen un algoritmo eficiente para
agrupamiento basado en interacciones deno-
minado interacción K-Means (IKM). Este al-
goritmo demostró que el grupo basado en
interacción es un complemento valioso para
agrupamiento en series de tiempo multiva-
riado. La tabla 2 resume los principales com-
ponentes usados en cada algoritmo basado
en modelos.
Tabla 2. Resumen de algoritmos de agrupamiento para series de tiempo basado en modelos
Artículo Variable Modelo
Medida de
distancia
Algoritmo de
agrupamiento
Aplicación
Zhao y Deng
(2010)
Simple HMM
Distancia
de Ward
Hierarchical
Datos de expre-
sión genética.
Wei y Jiang
(2010)
Simple HMM DTW K-means
Datos artificia-
les generados.
Vilar et ál.
(2010)
Múltiple
Autorregre-
sión bootstrap
L1
y L2
Jerárquico agregativo
Índice de produc-
ción industrial.
Horenko
(2010)
Multiple
Modelos de
regresión
Euclidiana
FEM-K_Trends (Fi-
nite element me-
thod-K-Trends)
Temperaturas dia-
rias desde 1958-2002.
Piccardi y Ca-
latroni (2010)
Múltiple Modelo de red Euclidiana Jerárquico agregativo
Series de tiem-
po financieras.
Pammin-
ger (2010)
Múltiple
Multinomial
Dirichlet
N/A multinomial Dirichlet
Panel de movilidad sa-
larial Australiana.
Plant y
Frühwir-
th-Schnat-
ter (2009)
Múltiple Modelo lineal Euclidiana K-means
Datos sintéticos
fMRI, EEG, CAD.
Alonso et
ál. (2006)
Múltiple
Procedimien-
to de bootstrap
L2
Jerárquico aglo-
merativo
Emisión de CO2
.
Agrupamiento de series de tiempo
basada en representaciones
Este método consiste primero en extraer ca-
racterísticas de la serie de tiempo y luego
aplicar el algoritmo de agrupamiento sobre
la representación de las características de la
serie de tiempo. La desventaja que plantean
algunos autores al utilizar esta metodología
es que se pierde alguna información de la se-
rie de tiempo al realizar la extracción. A con-
tinuación, se presentan algunas metodolo-
gías propuestas en años recientes.
Yang y Cheng (2010. p. 10) proponen una
nueva metodología práctica aún para agru-
pamiento de series de tiempo por medio de
una combinación de redes de aprendiza-
je competitivo rival-penalized (rival-penali-
zed competitive learning, RPCL) con diferen-
tes representaciones, las cuales direccionan
tanto el agrupamiento y los problemas de se-
lección del modelo en el análisis de agrupa-
miento de manera general. Esta metodología
está motivada por el éxito previo en el uso
de diferentes representaciones para construir
un modelo combinado para tratar con difíci-
les tareas de aprendizaje, supervisado y se-
misupervisado donde el uso de diferentes re-
presentaciones explota mejor la información
llevada en los datos en bruto y, por consi-
guiente, conduce a un mejor desempeño.
Por cada representación individual, pri-
mero emplean una red RPCL para análisis
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
220
220
de agrupamiento de la selección del mode-
lo automático; por otra parte, la naturaleza
de la red RPCL a menudo induce a análisis
de agrupamiento rápidos. Esta combinación
de redes RPCL hace frente a la diversidad de
grupos generados por las redes RPCL sobre
las diferentes representaciones reconcilián-
dolas en una forma óptima. Como resultado
del conjunto de red, RPCL reduce considera-
blemente ambigüedades resultantes del uso
de diferentes inicializaciones, porcentajes de
aprendizaje y condiciones de terminación en
una red RPCL individual y, además, aumen-
ta su capacidad de selección de modelo auto-
mático sobre diferentes representaciones.
La arquitectura del modelo de ensamble
RPCL consta de tres módulos, es decir, ex-
tracción de la representación, aprendiza-
je competitivo RPCL y ensamble de agrupa-
miento. En el módulo de extracción, varias
representaciones de naturaleza complemen-
taria son utilizadas (piecewise local statis-
tics, PLS; piecewise discrete wavelet transform,
PDWT; polynimial curve fitting, PCF y discre-
te fourier transforms, DFT). Así, las series de
tiempo son transformadas en diferentes re-
presentaciones para ser la entrada de las
redes RPCL. En el módulo de aprendiza-
je competitivo, una red RPCL sobre una re-
presentación individual sería entrenada con
sus reglas de aprendizaje para análisis de
agrupamiento.
Piccardi y Calatroni (2010) proponen un al-
goritmo de agrupamiento no convencional,
que es, de hecho, una aplicación de un de-
sarrollo reciente de la teoría de redes com-
plejas, llamado análisis de comunidad. Una
red con n nodos es asociada a el conjunto de
n series de tiempo, con el peso del enlace (i,j)
cuantificando la similitud entre los dos com-
ponentes de la serie. Luego, buscando para
comunidades de redes, se permite identifi-
car grupos de nodos (por ejemplo, series de
tiempo) con fuerte similaridad.
Maharaj y D’urso (2010, p. 25) presentaron
una metodología de agrupamiento Fuzzy
para series de tiempo basado en coeficientes
cepstral, esto es, basado en lógica difusa; asi-
mismo, clasificaron las series de tiempo en el
dominio de frecuencia considerando su re-
presentación cepstral. En este enfoque, a di-
ferencia del enfoque tradicional (no fuzzy),
los elementos de datos pertenecen a más de
un grupo y asociados con cada elemento está
un conjunto de niveles de pertenencia. Esto
indica la fuerza de la asociación entre ese ele-
mento de dato y un grupo en particular. El
agrupamiento fuzzy es un proceso de asig-
nación de esos niveles de pertenencia y, lue-
go, usando estos para asignar los elementos
de datos a uno o más grupos.
Lai, Chung y Tseng (2010, p. 8) proponen un
método de agrupamiento de dos niveles lla-
mado 2LTSC (2 [level time series clustering]),
el cual puede suministrar un profundo en-
tendimiento para agrupamiento de series de
tiempo por medio de la consideración de di-
ferentes granulaciones de tiempo. El método
considera tanto la serie de tiempo comple-
ta, denominada nivel 1, en el primer nivel,
como la información subdividida de la serie
de tiemi 2 debería ser diferente y así es tam-
bién considerada en el segundo nivel este
método.
Chiu, Hsu y Wang (2010) presentan un al-
goritmo de agrupamiento no supervisado
para analizar series de tiempo de datos de
expresión genética, el cual no requiere cono-
cimiento previo. Este algoritmo combina la
propagación de afinidad y el agrupamien-
to de consenso con varios intervalos de se-
ries de tiempo suministrando robustez y pre-
cisión progresiva. Este algoritmo suministra
un apropiado y efectivo análisis sobre expe-
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
221
221
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
Zhou, Li y Ma (2009) proponen un enfoque
basado en la agrupación local incrustación
lineal (Local Linear Embedding, LLE) para la
base de datos financieros, en este enfoque,
primero se convierten los datos de series de
tiempo raw en dimensiones menores me-
diante el algoritmo LLE, y luego se aplica un
algoritmo modificado de k-means a las carac-
terísticas de vectores extraídas. Primer paso:
se realiza una reducción de la dimensionali-
dad por medio del LLE. Segundo paso: lue-
go se aplica el algoritmo de agrupamiento
K-means ajustado para agrupar la matriz de
mezcla W obtenida por LLE. El algoritmo in-
tenta dividir n cantidad de objetos en k gru-
pos, donde cada uno tendría un objeto como
el centro del grupo, lo que representa que to-
dos los objetos de datos están asociados a un
grupo. Luego de esto asignan cada uno de
los objetos al grupo adecuado de acuerdo
con el centro del grupo definido, una vez to-
dos los objetos están asignados a algún gru-
po se recalculan los centros promediando los
miembros de cada grupo, hasta estabilizar el
centro. Con esto, se logra, después de cada
iteración, una mejor calidad en los grupos y
los centros de estos.
Savvides, Promponas y Fokianos (2008, p.
15) proponen un algoritmo de agrupamien-
to aplicado a series de tiempo biológicas.
Para esto, se plantea una nueva medida de
distancia basada en el coeficiente cepstral, el
cual transporta información acerca del regis-
tro de espectros de una serie de tiempo es-
tacionaria. Una vez que estos coeficientes
son estimados, esta medida de distancia es
dada como entrada a un método de agrupa-
miento para producir grupos disyuntos de
datos. Para el agrupamiento se utiliza el al-
goritmo Diana (Divisive Analysis), el cual cal-
cula una jerarquía divisionista, mientras que
otros procedimientos para agrupamiento je-
rárquico es aglomerativo. El algoritmo Diana
crea una jerarquía de grupos, iniciando con
un grupo grande que incluye todos los pun-
tos de datos. Luego, los grupos son divididos
hasta que cada grupo contiene una observa-
ción única.
Otranto (2008, p. 14) propone un procedi-
miento de agrupamiento basado en herra-
mientas estadísticas simples. En particular,
considera la interferencia cuadrática del re-
torno de una serie de tiempo financiera como
la volatilidad de las series. Luego, utilizan la
representación GARCH (Generalized Autore-
gressive Conditional Heteroskedasticity) de una
varianza condicional para derivar el modelo
fundamental de la inferencia cuadrática. De
este modelo se separa la volatilidad dentro
de una parte constante y parte variante en el
tiempo; esta subdivisión puede tener una in-
terpretación atractiva, en particular, cuando
se usa la volatilidad para representar el ries-
go del activo. La parte constante de la vola-
tilidad es medida en forma natural, mientras
que miden la parte variante en el tiempo ex-
tendiendo la idea de distancia entre mode-
los AR para la familia GARCH. Se aplica un
algoritmo aglomerativo y como característi-
ca de este procedimiento, a diferencia de los
principales algoritmos aglomerativos, el nú-
mero de grupos es detectado automática-
mente y no es determinado por el usuario.
Hsu y Chen (2008) proponen una nueva me-
todología para estimar el índice de equilibrio
utilizando mapas de autoorganización (self
organizing map, SOM), que sirve como una
red de dos capas no supervisadas que pue-
de organizar un mapeo topológico. El mapeo
resultante muestra las relaciones naturales
entre los patrones que están dados en la red.
Por su parte, SOM es adecuado para análi-
sis de agrupamiento y ha sido aplicado para
predicción de series de tiempo y en el pro-
ceso de investigación desarrollado primero,
las series de tiempo son agrupadas con SOM.
Segundo, el índice de equilibrio es calcula-
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
222
222
do basado en el grupo de la similaridad de
los patrones de series de tiempo. Se asumió
que los patrones de similaridad de las series
de tiempo tendrán el mismo comportamien-
to y serán adecuados para la estimación del
índice de equilibrio. Finalmente, varios mo-
delos basados en SOM propuestos son in-
vestigados y comparados con los modelos
tradicionales.
Bandyopadhyay, Baragona y Maulik (2010)
proponen técnicas para agrupamiento de se-
ries de tiempo univariables y multivariables.
Se utilizan dos pasos básicos, extracción de
características y asignación de series de tiem-
po a grupos, de acuerdo con un criterio de
optimización. Se ha introducido la optimiza-
ción de Pareto como un criterio valioso para
resolver problemas de optimización en los
cuales varios objetivos conflictivos a menu-
do tienen que ser tomados en cuenta simul-
táneamente. Con el propósito de subir la ve-
locidad de computación hasta que los pasos
de optimización estén involucrados, se apli-
can algoritmos genéticos, debido a que estos
son meta heurística más popular en cuanto
a problemas de agrupamiento y buena can-
tidad de conocimiento está disponible. Una
metodología de agrupamiento fuzzy ha sido
considerada para agrupamiento de datos se-
ries de tiempo univariable y multivariable.
Chandrakala y Sekhar (2008) proponen un
método de agrupamiento basado en densi-
dad dentro del espacio de características de
núcleo para agrupamiento de datos de serie
de tiempo multivarible de longitud variable.
Este método puede ser usado para agrupa-
miento de cualquier tipo de estructura de da-
tos, suministrando un núcleo que puede ma-
nipular la clase de datos es usado. Presentan
métodos heurísticos para encontrar los valo-
res iniciales de los parámetros usados en el
algoritmo propuesto.
Alonso et ál. (2006, p. 15) proponen una nue-
va metodología basada en modelos que crean
las observaciones, pero con respecto a la pre-
dicción en un tiempo futuro específico. Este
procedimiento está basado en la completa
predicción de densidades para cada una de
las series observadas en la muestra, en lugar
de enfocarlas en el punto de pronóstico. Se
aplica un procedimiento bootstrap de tamiz
suavizado, combinado con estimación de
densidades kernel no paramétricas ideado
para aproximar la distribución de prediccio-
nes. Esto es hecho en un contexto general, sin
restricciones a la habitual hipótesis de Gaus-
sinidad. Las diferencias entre cada par de
densidades bootstrap suministran una ma-
triz de disimilitud, que será usada para exa-
minar posibles estructuras de agrupamiento.
El método propuesto reduce las dimensiones
altas del problema de 3D, convirtiendo la es-
tructura del cubo de datos de diferentes se-
ries de tiempo p, medidos en m individuos
sobre T momentos de tiempo, en una o más
estructuras 2D de p predicciones, obtenidas
para m individuos en un tiempo fijo T+h. La
metodología desarrollada consta de tres pa-
sos. Paso 1: cálculo de predicciones; paso 2:
cálculo de la matriz de disimilitud; paso 3:
aplicación de un método clásico de agrupa-
miento a la matriz de disimilitud.
Guo et ál. (2008) tienen en cuenta que los re-
sultados del agrupamiento no pueden re-
flejar apropiadamente la similaridad de
las series de tiempo, debido a la distorsión
del ruido y detalles en las series de tiempo,
proponen una nueva metodología basada
en la descomposición y eliminación de rui-
do wavelet. La aplicación de esta metodo-
logía primero realizan una descomposición
Wavelet de la serie de tiempo, luego se rea-
liza una reducción del ruido wavelet y una
reconstrucción Wavelet. Y finalmente, se lle-
va a cabo un agrupamiento con el método
K-means.
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
223
223
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
Wang en [46] presenta un nuevo método
para agrupamiento multivariado de series
de tiempo basado en la estructura global de
datos. Una serie de tiempo de una sola va-
riable puede ser representada por un vector
de longitud fija cuyos componentes son ca-
racterísticas estadísticas de la serie de tiem-
po, capturando la estructura global. Estos
vectores descriptivos, uno para cada com-
ponente de la serie de tiempo multivarian-
te, son concatenados, antes de ser agrupa-
dos usando un algoritmo estándar rápido de
agrupamiento, como agrupamiento k-means
o jerárquico. Tal extracción de características
estadísticas sirve como un procedimiento de
reducción de dimensión para series de tiem-
po multivariadas. El método propuesto basa-
do en estructuras de series de tiempo de una
sola variable y métricas estadísticas sumi-
nistra un novedoso, y aún simple y flexible
forma de agrupar datos de series de tiempo
multivariados eficientemente con precisión
prometedora.
Toshniwal y Joshi (2005, p. 12) proponen una
nueva metodología para agrupamiento de
datos de series de tiempo basado en agrupa-
miento completo de secuencias. En este mé-
todo, la extracción de características de los
datos de serie de tiempo es hecha usando la
tendencia acumulativa ponderada (cumulati-
ve weighted slopes). La tendencia acumulativa
ponderada puede ser definida como la suma
de tendencias ponderadas de la secuencia de
tiempo computada sobre una base punto a
punto. Los parámetros representan la ten-
dencia acumulativa ponderada para varias
secuencias de tiempo y son agrupadas den-
tro de grupos, y utilizan el método de agru-
pamiento K-means para identificar patrones
similares.
Fujimaki, Hirose y Nakata (2008, p. 12) pre-
sentan una análisis teórico de agrupamien-
to de subdivisión de series de tiempo (Sub-
secuence Time series, STS) desde un punto
de vista de análisis de frecuencias e identi-
fica unos antecedentes matemáticos sobre
los cuales el agrupamiento STS genera pa-
trones de onda sinusoidal. También presen-
ta una novedosa metodología de análisis teó-
rico para descubrimiento de patrones desde
datos de series de tiempo. Adicionalmen-
te, proponen un algoritmo de agrupamien-
to usando una fase de preprocesamiento de
ajustes para evitar patrones de onda sinusoi-
dal y referirse a estos como agrupamiento
fase de ajuste STS (Phase Alignment STS, PA-
STS). El PA-STS es un algoritmo basado en
análisis teórico, que permite obtener resulta-
dos de agrupamiento significativos.
Lytkin Kulikowski y Muchnik (2008, p. 33)
proponen dos métodos de agrupamiento ba-
sados en la teoría del muestreo estadístico:
generalización del criterio de Neyman para
muestreo estratificado y generalización del
método de selección de tipos representati-
vos. Dichos algoritmos trabajan sobre datos
de n dimensiones. Se realiza un estudio de
los algoritmos planteados y el K-means apli-
cado a datos con series de tiempo diario. Los
resultados experimentales obtenidos sobre
series de tiempo de retorno diario del mundo
real demostraron la credibilidad de las me-
todologías presentadas para la clasificación.
La tabla 3 presenta el resumen de los algorit-
mos de agrupamiento basado en representa-
ciones tratados en este estudio.
Discusión
A diferencia de lo observado por Liao (2005,
p. 18), donde la mayoría de estudios de agru-
pamiento de series de tiempo estaban enfo-
cados a series de tiempo de una sola varia-
ble, en los artículos revisados en el presente
estudio se observa un crecimiento significati-
vo en cuanto a la cantidad de propuestas que
abordan las series de tiempo multivaluada,
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
224
224
llegando a corresponder aproximadamente
al 65% de las técnicas revisadas.
Entre las metodologías estudiadas Debeljak
et ál. (2010, p. 6), Wei y Jang (2010, pp. 135-
138), Liao (2007, p. 13), se utilizan DTW para
establecer las medidas de similitud, mientras
que el 50% de las técnicas evaluadas utilizan
la medida de distancia Euclidiana.
En los estudios realizados por Lytkin, Ku-
likowski, C.A., and Muchnik (2008, p.
33), Horenko (2010, p. 23), Pamminger y
Frühwirth-Schnatter (2010, p. 24), Chiu, Hsu
y Wang (2010), Otranto (2008, p. 14), desa-
rrollan sus propias técnicas para realizar el
agrupamiento.
Artículo Variable Característica
Medida de
distancia
Algoritmo de
agrupamiento
Aplicación
Yang y Chen
(2010, p. 10)
Simple
Picewise Local Sta-
tistics (PLS), Pie-
cewise Discrete Wave-
let Transfor (PDWT),
Polynomial Curve
fitting,(PCF) y Dis-
crete Fourier Trans-
formation (DFT)
Euclidiana RPCL Network
16 series de tiem-
po de minería de da-
tos de prueba
Maharaj y
D’Urso [36]
Multiple
Dominio de frecuen-
cia, coeficiente cepstral
Euclidiana Fuzzy
Datos generados y se-
rie de tiempo de 200
electroencefalogramas.
Lai, Chung
y Tseng
(2010, p. 8)
Múltiple
Representación de
aproximación agrega-
da simbólica (SAX)
Euclidiana CAST
Datos sintéticos,
mercado de accio-
nes de Taiwan.
Chiu et ál.
(2010)
Múltiple
Propagación
de afinidad
Agrupamien-
to de consenso
Expresión génetica
Zhou et ál.
(2009) [25]
Múltiple Vectores Mahalanobis K-means
Series de tiem-
po financieras
Sawidesa
et ál. (2008,
p. 15)
Simple
Dominio de espectro,
Coeficiente cepstral
Distancia
cepstral
Diana
Series de tiem-
po biológicas
Otranto [43]
Múltiple
Volatil
GRACH
Prueba de
Wald y mé-
tricas auto-
regresivas
Algoritmo de-
sarrollado
Índices del mer-
cado italiano.
Hsu y Chen
(2008)
Múltiple Espacio Euclidiana SOM
Datos financieros
Bolsa de Taiwan
Bandyo-
padhyay et
ál. (2010)
Múltiple y
sencilla
Pronosticabilidad,
Interpolabilidad
Euclidiana Fuzzy
Conjunto de da-
tos artificiales.
Chandraka-
la y She-
kar (2006)
Múltiple
Matriz de densida-
des o matriz distancia
Euclidiana DBSCAN
Conjuntos de datos de
carácter manuscrito.
Tabla 3. Resumen de algoritmos de agrupamiento de series
de tiempo basado en representaciones
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
225
225
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
Solamente el artículo presentado por Band-
yopadhyay, Baragona y Maulik (2010) utiliza
técnicas de computación evolucionaria como
algoritmos genéticos dentro del proceso de
agrupamiento de series de tiempo. Entre los
trabajos de metodologías basadas en mode-
los, Zhao y Deng (2010), Wie y Jiang (2010,
pp. 135-138) y Pamminger y Frühwirth-Sch-
natter utilizan un método de agrupamien-
to basado en HMM. En el caso de metodolo-
gías basadas en representaciones Maharaj y
D’ruso (2010, p. 25) y Savvides, Promponas y
Fokianos (2008, p. 15) realizan el trabajo apli-
cado a dominio de frecuencias extrayendo el
coeficiente cepstral.
Conclusiones (t1)
En este artículo, se han examinado algunos
de los más recientes estudios sobre agru-
pamiento de series de tiempo, desde el año
2006, teniendo en cuenta que Liao (2005, p.
18) desarrolló un estudio de la misma natu-
raleza. Estos estudios están organizados en
tres categorías principales si trabajan direc-
tamente sobre los datos originales, indirec-
tamente con modelos construidos desde los
datos en bruto, o indirectamente con extrac-
ción de características desde los datos en bru-
to. Las áreas de aplicación son resumidas con
una breve descripción de los datos usados y
algunas referencias de su obtención cuando
son públicos. Las características y particula-
ridades de algunos trabajos son discutidas.
Se aprecia que no se puede encontrar un al-
goritmo único que se ajuste a todas las series
de tiempo que se puedan encontrar y que,
en muchos casos, los algoritmos se desarro-
llan para un conjunto de datos en particular
y considerando las características de estos.
Como trabajos futuros, es importante conti-
nuar la extensión de algunos algoritmos de
agrupamiento de datos estáticos que pre-
sentan buen rendimiento y pueden ser una
buena alternativa para lograr algoritmos de
agrupamiento de series de tiempo que ofrez-
can eficiencia y efectividad al determinar los
grupos. Adicionalmente, es importante con-
siderar el uso de técnicas de computación
evolutiva para proponer nuevos algoritmos
de agrupamiento de datos de series de tiem-
po en los cuales su complejidad computacio-
nal ofrezca mejores condiciones que los ac-
tualmente existentes.
Apéndice. Aplicaciones y datos
utilizados
En algunos casos, cuando se desarrollan nue-
vos métodos no se utilizan datos específicos
definidos previamente. Sin embargo, para
probar dichos métodos y compararlos con
los ya existentes, normalmente los investiga-
dores generan datos simulados o se basan en
Guo et ál.
(2008)
Múltiples Wavelet Euclidiana K-means
Datos sintéticos se-
ries de tiempo de con-
trol de flujo SCCTS.
Wang (2008) Múltiples Estructura global Euclidiana
K-means o je-
rárquico
Secuencias de mo-
vimiento humano.
Toshniwal y
Joshi (2005,
p. 12)[47]
Múltiple
Tendencias pon-
deradas
Euclidiana K-means
Datos sintéticos y da-
tos de ventas al por
menor de cadenas
de almacenes de los
Estados Unidos.
Fujimaki
et ál. (2008,
p. 12)
Simple
Patrones de onda
senosidal
Euclidiana
K-means o Je-
rárquico
Datos sintéticos CBF
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
226
226
depósitos de datos de series de tiempo de ac-
ceso público, como la página UCR time se-
ries clasification/clustering [http://www.
cs.ucr.edu/~eamonn/time_series_data/].
Para otros casos, las investigaciones están
enfocadas en aspectos particulares y utilizan
datos específicos del área de interés. Como se
aprecia en el siguiente resumen, el agrupa-
miento de datos series de tiempo es necesa-
rio en aplicaciones ampliamente diferentes.
Negocios y socioeconómicos
Agrupamiento aplicado al análisis de estilos
de administración de fondos de inversión co-
mún basado en series de tiempo de retorno
diario (Lytkin, Kulikowski y Muchnik, 2008,
p. 33). Se hicieron pruebas sobre datos sinté-
ticos generados por una distribución Gaus-
siana y como datos reales las series de tiempo
de retorno diario de dos fondos de inversión
común (mayo del 2005 a mayo del 2006).
Agrupamiento de series de tiempo no li-
neales basado en densidades no paramétri-
cas proyectadas (Vilar, Alonso y Vilar, 2010,
p. 16). El conjunto de datos sobre el cual se
aplicó el algoritmo consta de una colección
de series de tiempo que representan el índice
de producción industrial mensual mundial
para veintiún países, desde enero de 1990
hasta noviembre del 2007. Todos los países
considerados son miembros de la Organiza-
ción para la Cooperación y Desarrollo Eco-
nómico (Organization for Economic Coope-
ration and Development, OECD). (http://
stats.oecd.org/index.aspx)
Agrupamiento basado en modelos de se-
ries de tiempo categóricas (Pamminger y
Frühwirth-Schnatter, 2010, p. 24). El algorit-
mo se aplicó a los datos de movilidad salarial
austriaco, los datos fueron tomados de las ba-
ses de datos de la Seguridad Social Austriaca
(Austrian Social Security Data Base, ASSD).
(http://ideas.repec.org/p/jkun
nwps/2009_03.html)
Agrupamiento de series de tiempo median-
te análisis de comunidad de redes (Piccardi y
Calatroni, 2010). Esta técnica se aplicó sobre
conjunto de datos de series financieras deri-
vadas de los valores de bolsa diarios de las
compañías incluidas en el índice promedio
industrial Down Jones (Down Jones Industrial
Average, DJIA).
Un método novedoso de agrupamiento de
dos niveles para el análisis de datos de series
de tiempo (Lai, C Chung y Tseng, 2010, p. 8).
Para evaluar el algoritmo, datos del mundo
real del mercado de acciones de Taiwan son
probadas.
Agrupamiento basado en empotramiento lo-
calmente lineal (Locally Linear Embedding,
LLE) (Zhou, Li y Ma, 2009). Las pruebas fue-
ron realizadas sobre datos de la bolsa de va-
lores de Shangai.
Agrupamiento de series de tiempo de varia-
bles aleatorias (heteroskedatic) mediante pro-
cedimientos basados en modelos (Otran-
to,2008, p. 14). El procedimiento fue aplicado
al sector de índice del mercado italiano.
Agrupamiento de datos de series de tiempo
mediante SOM para la estimación del índi-
ce de equilibrio óptimo (Hsu y Chen, 2008).
Se realizan pruebas del algoritmo en datos fi-
nancieros de la bolsa de Taiwan.
Agrupamiento difuso de series de tiem-
po univariable y multivariable, mediante la
optimización genética multiobjetivo (Band-
yopadhyay, Baragona y Maulik, 2010). Las
pruebas del algoritmo se realizaron utilizan-
do datos sintéticos y como datos reales, los
índices mensuales de la producción indus-
trial en Italia.
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
227
227
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
Agrupamiento de datos de series de tiempo
usando inclinaciones acumulativas pondera-
das (Toshniwal y Joshi, 2005, p. 12). Los da-
tos reales utilizados para aplicar el algoritmo
representan el conjunto de datos de ventas al
por menor de cadenas de almacenes de los
Estados Unidos.
Ingeniería
Agrupamiento de series de tiempo multiva-
riado (vector) (Liao, 2007, p. 13). Se aplica
en cuatro conjuntos de datos. El primero es
un conjunto de datos sintéticos de series de
tiempo de valor real generado por el procedi-
miento varmasin de SAS. El segundo conjun-
to de datos es el conformado por las señales
de fuerza de tres componentes en un esme-
ril. El tercer conjunto de datos está confor-
mado por señales basadas por multi sensores
en un esmeril. Y por último, un conjunto de
datos de series de tiempo multivariados que
consta de una muestra del lenguaje de se-
ñas autraliano (Australia Sign Language, Aus-
lan). (http://kdd.ics.uci.edu/summary.data.
type.html)
Agrupamiento para las series de tiempo del
flujo de tráfico (Yin, Zhou y Xie, 2006). Los
datos utilizados fueron tomados de datos
reales de tráfico del sistema de administra-
ción de tráfico en el estado de Washington
en los Estados Unidos. http://www.wsdot.
wa.gov/traffic/seattle/products/webflow.
htm
Agrupamiento para subdivisiones de se-
ries de tiempo (subsequence time series,
STS) mejorado (Chen, 2007). Para validar la
metodología se utilizaron doce conjuntos
de datos sintéticos y de la vida real toma-
dos de: (http://www.cs.ucr.edu/~eamonn/
time_series_data/)
Agrupamiento K-means de series de tiempo
basado en el modelo oculto de Markov (Wei
y Jiang, 2010, pp. 135-138). Para probar el al-
goritmo propuesto se utilizó un conjunto de
datos artificiales generados desde dos mode-
los ocultos de Markov.
Agrupamiento de series de tiempo por me-
dio de ensamble de redes RPCL con diferen-
tes representaciones(Yang y Chen, 2010, p.
10). Los experimentos y los resultados de si-
mulación de esta técnica se realizaron sobre
una colección de conjuntos de datos de prue-
ba estándar para minería de datos ya men-
cionado anteriormente. (http://www.cs.ucr.
edu/~eamonn/time_series_data/)
Identificación automática basada en agru-
pamiento de modelos de inferencia difusos
para series de tiempo (Montesino-Pouzols y
Barriga-Barros, 2010, p. 13). Los análisis fue-
ron realizados sobre cinco diversos conjun-
tos de datos: 1) conjunto de datos de mues-
tras semanales de temperatura del fenómeno
de oscilación sureño del niño; 2) serie del nú-
mero de promedio de mancha solar men-
sual desde enero de 1749 hasta diciembre del
2009, suministrado por el Centro de Datos
Geográfico Nacional de los Estados Unidos;
3) serie de tiempo que representa la deman-
da de electricidad diaria promedio normali-
zada en Polonia en la década de los noven-
ta; 4) series de tiempo multidimensionales
del promedio mensual de descriptores quí-
micos diferentes de cierta área del mar Bálti-
co; 5) series de tiempo univariable de la can-
tidad promedio diaria del tráfico en una red
de datos.
Agrupamiento de series de tiempo basado en
descomposición y reducción de ruido Wave-
let (Guo et ál., 2008). Datos de cartas de con-
trol generados sintéticamente. (http://kdd.
ics.uci.edu/databases/synthetic_control/
synthetic_control.html)
Agrupamiento de subdivisión de series de
tiempo desde un punto de vista de análisis
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
228
228
de frecuencia (Fujimaki, Hirose y Nakata,
2008, p. 12).
Ciencia
Agrupamiento en series de tiempo de ex-
presión genética basado en representaciones
continuas y medida de similaridad basada en
energía (Zhang, Liu y Yan, 2010). Se utilizó
un conjunto de datos de la proteína de con-
trol de división celular cdc15. (http://www.
wikigenes.org/e/gene/e/2541975.html)
Agrupamiento de series de tiempo de expre-
sión genética (Qu, Ng y Chen, 2010), plicado
a diversos datos artificiales. Primero se ge-
neró un conjunto de datos sintéticos que in-
cluían tres valores constantes bicluster y lue-
go para medir la eficiencia computacional
generaron un gran conjunto de datos de ex-
presión genética con 10.000 genes y 100 pun-
tos de tiempo.
Agrupamiento adaptativo para series de
tiempo aplicado para identificar el ciclo celu-
lar expresado en genes (Douzal-Chouakria,
Diallo y Giroud, 2009, p. 13). Utilizaron un
conjunto de datos de acceso público de-
nominado datos transcriptómicos de la lí-
nea celular del cáncer cervical humano
HeLa. (http://genome-www.stanford.edu/
Human-CellCycle/Hela/).
Agrupamiento jerárquico basado en HMM
para analizar datos de series de tiempo de
expresión genética (Zhao y Deng, 2010). Uti-
lizan dos conjuntos de datos de series de
tiempo de expresión genética ampliamen-
te utilizados para validar agrupamientos:
ciclo celular del hongo y respuesta del fi-
broblasto humano al suero. (http://geno-
me-www.stanford.edu/cellcycle/data/raw-
data/ y http://genome-www.stanford.edu/
serum/).
Agrupamiento en consenso basado en propa-
gación de afinidad (AP) (Chiu, Hsu y Wang,
2010). Para la prueba de estos datos, además
de utilizar datos sintéticos, se utilizaron da-
tos reales conformados por un conjunto de
datos de expresión genética del hongo de ga-
lactosa y ciclo celular del honho. Análisis de
datos de series de tiempo sobre vegetación
de agroecología utilizando árboles predicti-
vos de agrupamiento (Debeljak et ál., 2010,
p. 6). El conjunto de datos utilizado consta de
las parejas de series de tiempo del porcenta-
je cubierto de cultivos y maleza de 128 sitios
experimentales del Reino Unido.
Agrupamiento de series de tiempo me-
teorológicas no estacionarias [18]. Se utili-
zan datos históricos de temperatura multi-
dimensionales de Europa y un conjunto de
datos de temperatura global.Agrupamien-
to de series de tiempo basada en pronósti-
co de densidades(Alonso et ál., 2006, p. 15).
Los datos utilizados para probar el algoritmo
fueron datos relacionados con la emisión de
CO2
en países industrializados.
Agrupamiento de series de tiempo biológi-
cas mediante distancia basada en coeficien-
te cepstral (Savvides, Promponas y Fokianos,
2008, p. 15). Esta metodología fue aplicada
para clasificar secuencias de aminoácidos.
Agrupamiento de series de tiempo multiva-
riable basado en estructuras (Wang, 2008).
Se aplicó esta técnica a secuencias de movi-
miento humano.
Medicina
Agrupamiento basado en interacción de se-
ries de tiempo multi variable (Plant, Wohls-
chläger y Zherdin, 2009). Para probar este
método se generaron un conjunto de datos
sintéticos con seiscientos objetos y trece di-
mensiones. Adicionalmente, se utilizaron
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
229
229
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
veintiséis imágenes funcionales de resonan-
cia magnética.
Agrupamiento difuso de series de tiempo en
el domino de frecuencia (Maharaj y D’urso,
2010, p. 25). Para aplicar esta metodología
desarrollada se utilizó una serie de tiempo
de 200 electroencefalogramas (EEG), la cual
está dividida en dos conjuntos denotados
por A y E, cada uno contiene 100 EEG de 23,6
s de duración (4096 observaciones): el con-
junto A EEG tiene registros de voluntarios
saludables mientras que el conjunto E regis-
tra pacientes de epilepsia durante la activi-
dad de ataque epiléptico.
Arte y entretenimiento
Agrupamiento para videos basado en trans-
formadas Wavelet de series de tiempo de tra-
yectoria de movimiento de objetos en mo-
vimiento en video (Luo, Liao y Zhan, 2010).
Los datos utilizados en el estudio son videos
jugando baloncesto.
Un método basado en densidades para agru-
pamiento de series de tiempo en kernel feature
space (Chandrakala y Sekhar, 2008). Se utili-
zaron dos conjuntos diferentes de datos ca-
racteres manuscritos en línea: el conjunto de
datos 1 contiene tres caracteres en escritura
de lenguaje indio, telugu; el conjunto de da-
tos 2 contiene los datos de tres caracteres en
ingles.
Referencias
Alonso, A.M., et al. (2006). Time series cluste-
ring based on forecast densities. Scien-
ceDirect, 15.
Bandyopadhyay, S., Baragona, R. y Maulik,
M. (2010). Fuzzy clustering of univaria-
te and multivariate time series by gene-
tic multiobjective optimization. Comisef
Working Papers Series. Computational
Optimization Methods in Statistics,
Econometrics and Finance.
Chandrakala, S. and Sekhar, C.C. (2008). A
density based method for multivaria-
te time series clustering in kernel featu-
re space. International Joint Conference on
Neural Networks, 6.
Chen, J.R. (2007). Useful clustering outcomes
from meaningful time series clustering.
En Proc. 6th Australasian Data Mining
Conference (AusDM’07). Gold Coast
(Australia).
Chiu, T.Y., Hsu, T.C. y Wang, J.S. (2010). Ap-
based consensus clustering for gene
expression time series. En 20th
IAPR
International Conference on Pattern
Recognition. Istanbul, Turkey, IEEE,
2512-2515.
Cowpertwait, P.S.P. y Metcalfe, A.V. (2009).
Introductory time series with r. New York,
NY: Springer.
Debeljak, M. et ál. (2010). Analysis of time se-
ries data on agroecosystem vegetation
using predictive clustering trees. Ecolo-
gicall Modeling, Volume 222, Issue 14 6.
Ding, H. et ál. (2008) Querying and mining
of time series data: Experimental com-
parison of representations and distan-
ce measures. En Proceedings of the VLDB
Endowment. Auckland, New Zealanda:
ACM.
Douzal-Chouakria, A., Diallo, A. y Giroud, F.
(2009). Adaptive clustering for time se-
ries: Application for identifying cell cy-
cle expressed genes. Computational Sta-
tistics and Data Analysis, 53, 13.
Fujimaki, R., Hirose, S. y Nakata, T. (2008).
Theoretical analysis of subsequence time-
series clustering from a frequency-analy-
sis viewpoint. Society fro Industrial and
Applied Mathematics, SIAM.
Guo, C., Jia, H. y Zhang, N. (2008). Time se-
ries clustering based on ica for stock
data analysis. en Proceedings of the
fourth international conference wire-
A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
230
230
less communications, networking and
mobile computing, WiCOM ‘08. IEEE, 4
Guo, H. et ál. (2008). An application on time
series clustering based on wavelet de-
composition and denoising. En Four-
th International Conference on Natural
Computation. Jinan, Shandong, China:
IEEE, 4.
Horenko, I. (2010). On clustering of non-sta-
tionary meteorological time series. Dy-
namics of Atmospheres and Oceans, 49 (2-
3), 23.
Hsu, Y.C. y Chen, A.P. (2008). Clustering time
series data by som for the optimal hed-
ge ratio estimation. En Third 2008 In-
ternational Conference on Convergen-
ce and Hybrid Information Technology.
Daejeon, (Korea): IEEE, 6
Kavitha, V. y Punithavalli, M. (2010). Cluste-
ring time series data stream a literature
survey. International Journal of Computer
Science and Information Security, 8 (1), 6.
Keogh, E. y Kasetty, S. (2002). On the need
for time series data mining bench-
marks: Asurvey and empirical Knowl.
Data Discov, 6, 102-111.
Kitagawa, G. (2010). Introduction to time se-
ries modeling. Monographs on satatistics
and applied probability. Boca Raton, (FL):
Chapman & Hall/CRC.
Kuenzel, L. (2010). Gene clustering methods for
time series microarray data.
Lai, C.P., Chung, P.C. y Tseng, V.S. (2010). A
novel two-level clustering method for
time series data analysis. Expert Systems
with Applications, 37, 8.
Liao, T.W. (2007). A clustering procedure for
exploratory mining of vector time se-
ries. Pattern Recognition, 40, 13.
Liao, T.W. (2005). Clustering of time series
data a survey. The Journal of the pattern
Recognition Society, 38, 18.
Luo, Y., Liao, M. y Zhan, Z. A similarity
analysis and clustering algorithm for
video based on moving trajectory time
series wavelet transform of moving ob-
ject in video. En 2nd International Con-
ference on Image Analysis and Signals
Processing, IASP 2010. XiaMen, (Chi-
na): IEEE, 5
Lytkin, N.I., Kulikowski, C.A. y Muchnik, I.B.
(2008). Variance-based criteria for cluste-
ring and their application to the analysis of
management styles of mutual funds based
on time series of daily returns. New Jersey
(USA): New Brunswick.
Maharaj, E.A. y D’urso, P. (2010). Fuzzy clus-
tering of time series in the frequency
domain. Information Sciences, 25.
Montesino-Pouzols, F. y Barriga-Barros, A.
(2010). Automatic clustering-based
identification of autoregressive fuzzy
inference models for time series. Neuro-
computing, 73, 13.
Olier, I. y Vellido, A. (2008). Advances in clus-
tering and visualization of time series
using gtm through time. Neural Networ-
ks, 21, 10.
Otranto, E. (2008). Clustering heteroskedas-
tic time series by model-based proce-
dures. Computational Statistics & Data
Analysis, 52, 14.
Palit, A.K. y Popovic, D. (2005). Computatio-
nal intelligence in time series forecas-
ting: Theory and engineering applica-
tions. En M.J. Grimble y M.A. Johnson
(ed.). Advances in industrial control (381).
Glasgw (Scotland, UK): Springer.
Pamminger, C. y Frühwirth-Schnatter, S.
(2010). Model-based clustering of cate-
gorical time series. Bayesian Analysis
articulo.
Papanastassiou, D. Classification and cluste-
ring of garch time series. En XIII Inter-
national Conference Applied Stochas-
tic Models and Data Analysis ASMDA
2009. 2009. Vilnius, Lithuania. 5
Piccardi, C. y Calatroni, L. Clustering time
series by network community analysis.
L O S
E N E R O - J U N I O D E 2 0 1 1
V O L U M E N 8 N Ú M E R O 1
U
C
N
Í
V
REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011
231
231
Gustavo Cáceres Castellanos, Jorge E. Rodríguez
En COMPENG 2010 Complexity in Enginee-
ring. Roma (Italy): IEEE, 94-96.
Plant, C., Wohlschläger, A.M. y Zherdin, A.
(2009). Interaction-based clustering of
multivariate time series. En Ninth In-
ternational Conference on Data Mining.
Venice, (Italy): IEEE, 914-919.
Pylvänen, M., Äyrämö, S. y Kärkkäinen, T.
(2009). Visualizing time series state chan-
ges with prototype based clustering.
Qu, J., Ng, M. y Chen, L. (2010). Constrai-
ned subspace clustering for time series
gene expresion data. En The Fourth In-
ternational Conference on Computatio-
nal Systems Biology (ISB2010). Suzhou,
(China): ORSC & APORC, 323-330.
Savvides, A., Promponas, V.J. y Fokianos, K.
(2008) Clustering of biological time se-
ries by cepstral coefficients based dis-
tances. Pattern Recognition, 41, 15.
Toshniwal, D. y Joshi, R.C. (2005). Using cu-
mulative weighted slopes for cluste-
ring time series data. GESTS Int’l Trans.
Computer Science and Engr, 20, 12.
Tsiporkova, E. y Boeva, V. (2008). A novel ge-
ne-centric clustering algorithm for stan-
dardization of time series expression
data. En 4th International IEEE Con-
ference “Intelligent Systems”. Varna,
(Bulgaria): IEEE.
Vilar, J.A., Alonso, A.M. y Vilar, J.M. (2010).
Non-linear time series clustering based
on non-parametric forecast densities.
Computational Statistics & Data Analysis,
2010, 54, 16.
Vilar, J.A., Alonso, A.M. y Vilar, J.M. (2010).
Non-linear time series clustering based
on non-parametric forecast densities.
Computational Statistics & Data Analysis,
54, 2850-2865.
Wang, X. (2008). Structure-based multivaria-
te time series clustering. En Computer
Science Colloquium. Hong Kong, China.
Wei, L.L. y Jiang, J.Q. (2010). A hidden
markov model-based k-means time se-
ries clustering algorithm. In Internatio-
nal Conference on Information Systems
(ICIS) 2010 (135-138). Saint Louis, Mis-
souri, (USA): IEEE.
Wei, W.W.S. (2006). Time Series
Analysis:Univariate and Multivariate Me-
thods (2a
ed.). New York (NY, USA):
Pearson Education, Inc.
Yang, Y. y Chen, K. (2010). Time series cluste-
ring via RPCL network ensemble with
different representations. IEEE Transac-
tions on Systems, Man, and Cybernetics-
part C: Applications and Reviews, 10.
Yin, J., Zhou, D. y Xie, Q.Q. (2006). A cluste-
ring algorithm for time series data. En
Proceedings of the Seventh Internatio-
nal Conference on Parallel and Distri-
buted Computing, Applications and Te-
chnologies (PDCAT’06). IEEE, 4.
Zhang, W.F., Liu, C.C. y Yan, H. (2010). Gene
time series data clustering based on
continuos representations and an ener-
gy based similarity measure. En Pro-
ceedings of the Ninth International
Conference on Machine Learning and
Cybernetics. Qingdao, Shandong (Chi-
na): IEEE. 2079-2083.
Zhao, G. y Deng, W. (2010). An hmm-ba-
sed hierarchical clustering method for
gene expression time series data. En
The Fifth International Conference on
Bio-Inspired Computing: Theories and
Applications (BIC-TA 2010). Liverpool
(United Kingdom): IEEE, 219-222.
Zhou, D., Li, J. y Ma, W. (2009). Clustering
based on lle for financial multivariate
time series. En International Conferen-
ce on Management and Service Scien-
ce (MASS 2009). Wuhan/Beijing (Chi-
na): IEEE, 4.
REVISTA VÍNCULOS
ISSN 1794-211X
Dirección: Transversal 70B No. 73A-35 sur,
Candelaria la Nueva, teléfono: 731 15 39
e-mail: revistavinculos@udistrital.edu.co
Vínculos: Revista Institucional de las ca-
rreras Sistematización de Datos e Ingenie-
ría en Telemática, con periodicidad semes-
tral, editada por la Facultad Tecnológica de
la Universidad
Distrital Francisco José Caldas. Propende
por la construcción, publicación y socializa-
ción del conocimiento tecnológico y científi-
co entre investigadores, académicos, docen-
tes y estudiantes.
Los siguientes son los requerimientos del
comité editorial para la publicación de
artículos.
1. Secciones de la revista
La revista contará con tres secciones que pre-
tenden clasificar y agrupar los artículos se-
gún su temática.
•	 I+D (Investigación y Desarrollo): apa-
recerán todos los artículos producto de
ivestigaciones que presenten resultados-
parciales o totales de las mismas.
• 	 Actualidad Tecnológica: es fundamental
	 que la temática planteada trate sobre te-
mas y tecnologías de punta en el área de-
los sistemas y las redes de computadores
o en la ingeniería en general. Es funda-
mental que el tratamiento de dichos te-
mas sea crítico y presente aportes signi-
ficativos que coadyuven a la construcción
del conocimiento.
• 	 Entorno Social: en esta sección se publica-
rán artículos de las diferentes áreas de co-
nocimiento que no están enfocadas espe-
cíficamente a los sistemas y a las redes de
computadoras; es el caso de las ciencias
básicas y las ciencias humanas. Los artícu-
los deben analizar y reflejar la incidencia
endógena y exógena en aspectos tecnoló-
gicos, científicos e ingenieriles logrados
por la Universidad con su entorno.
2. Tipos de documentos
aceptados
Considerando los actuales requisitos de Col-
ciencias para la indexación de las revistas en
el Índice Nacional de Publicaciones Científi-
cas y Tecnológicas, podrán postularse los ar-
tículos inéditos de los siguientes tipos
• 	Artículos de investigación científica y tec-
nológica: documento que presenta, de
manera detallada, los resultados origina-
les de proyectos de investigación. La es-
tructura generalmente utilizada contiene
cuatro partes importantes: introducción,
metodología, resultados y conclusiones.
• 	Artículos de reflexión: documento que
presenta resultados de investigación des-
de una perspectiva analítica, interpretati-
va o crítica del autor, sobre un tema espe-
cífico, recurriendo a fuentes originales.
• 	Artículo de revisión: es el resultado de
una investigación donde se analizan, sis-
tematizan e integran los resultados de las
investigaciones publicadas o no publica-
das, sobre un campo en ciencia o tecnolo-
gía, con el fin de dar cuenta de los avan-
ces y las tendencias de desarrollo. Se
caracteriza por presentar una cuidadosa
revisión bibliográfica de por lo menos 50
referencias.
Con el propósito de alimentar la sección de
“Reseñas”, también este tipo de escritos son
aceptados, siempre y cuando se relacionen
con libros de actualidad. En este caso los tex-
tos deben tener una extensión de dos a tres
páginas, y acompañarse de la carátula esca-
neada del libro reseñado.
Los artículos que se tienen en cuenta para la
indexación de una revista en categoría C son
los anteriormente expuestos; adicionalmen-
te, están tipificados los siguientes:
• 	 Artículo corto: documento breve que pre-
senta resultados originales preliminares o
parciales de una investigación científica o
tecnológica, que por lo general requiere
de una pronta difusión.
• 	 Reporte de caso: documento que presenta
los resultados de un estudio sobre una si-
tuación particular con el fin de dar a cono-
cer las experiencias técnicas y metodoló-
gicas consideradas en un caso específico.
Incluye una revisión sistemática
comentada de la literatura sobre casos
análogos.
• 	 Revisión de tema: documento resultado-
de la revisión crítica de la literatura sobre
un tema particular.
• 	 Cartas al editor: posiciones críticas, analí-
ticas o interpretativas sobre los documen-
tos publicados en la revista, que a juicio
del comité editorial constituyen un apor-
te importante a la discusión del tema por
la comunidad científica de referencia.
• 	 Editorial: documento escrito por el editor,
un miembro del comité editorial o un in-
vestigador invitado sobre orientaciones
en el dominio temático de la revista.
• 	 Traducciones: traducciones de textos clá-
sicos o de actualidad o transcripciones de
documentos históricos o de interés parti-
cular en el dominio de publicación de la
revista.
3. Algunos aspectos de forma de
los artículos
Se hace necesario que los artículos sean escri-
tos para una audiencia internacional, evitan-
do la centralización excesiva en experiencias
estrictamente locales o particulares. Deben
emplearse estructuras de oraciones simples,
evitando las demasiado largas o complejas.
El vocabulario empleado debe ser básico y
común. Los términos técnicos deben expli-
carse brevemente; así mismo, el significado
de las siglas debe presentarse la primera vez
que aparecen en el texto.
Los autores son responsables de que su tra-
bajo sea conducido de una manera profesio-
nal y ética.
De la extensión de los
documentos
Los artículos postulados deben tener una ex-
tensión mínima de 10 páginas a doble espa-
cio y máxima de 20.
Del formato de presentación
Los documentos deben ser entregados en
medio impreso y medio magnético, tamaño
carta, elaborados en Word 97 para Windows
o versiones superiores.
El documento debe realizarse en tipo de le-
tra Times New Roman con un tamaño de 12
puntos, a doble espacio, una columna y to-
das las márgenes de 2 cm.
El título del artículo deberá ser corto o di-
vidido en título y subtítulo, atractivo para
el lector potencial y escrito en mayúscula
sostenida.
Después de él deberá escribirse el (los)
nombre(s) completo(s) del (los) autor(es),
acompañado de los datos biográficos bási-
cos a pie de página (profesión y universi-
dad de la cual es egresado, títulos de posgra-
do, lugar de trabajo) y de la(s) dirección(es)
electrónica(s).
Todas las figuras y tablas deben realizarse en
tinta negra, ser incluidas en el medio magné-
tico, numerarse y titularse de manera clara.
Además, deben localizarse en el lugar más
cercano a donde son citadas. Cuando se trate
de figuras deberá garantizarse su buena re-
solución en cualquier tipo de papel; para el
caso de realización de tablas, se recomienda
que no sean insertadas como imágenes, con-
siderando que en este formato no pueden ser
modificadas.
Cuando los artículos incluyen ecuaciones,
deben ser elaboradas en un editor de ecua-
ciones apropiado y compatible con el paque-
te de software “Page Maker”, por ejemplo el
editor de ecuaciones de Windows.
De la estructura del documento
Para la presentación del contenido se reco-
mienda la utilización de varios subtítulos, ini-
ciando con uno de introducción y finalizando
con otro de conclusiones. El texto del artículo
debe acompañarse de un resumen de máxi-
mo 150 palabras traducido al inglés, cuatro
palabras claves en español y cuatro en inglés.
Las notas de pie de página deben ser sola-
mente de carácter aclaratorio. Por ejemplo:
1
	 Se espera que la promulgación de estas carac-
terísticas genere debate y discusión en los dife-
rentes círculos docentes.
La utilización de referentes bibliográficos
en el texto del artículo deberá realizarse nu-
merándolas entre paréntesis angulares e in-
cluyendo el número de página cuando sea
necesario.
Por ejemplo:
Estudios recientes demuestran que los aportes
de la psicología conductiva han sido seriamente
cuestionados por expertos en el tema [1, p. 85].
Las referencias bibliográficas completas solo
deberán ser incluidas al final del artículo y
deben comprender únicamente la literatu-
ra específica sobre el tema. Se presentan a
continuación
los siguientes ejemplos (Lazcano,
1994):
- Libro con un autor:
Browne, D. R. La experiencia de seis nacio-
nes industrializadas. Prensa de la Universi-
dad del Estado de Iowa. Ames, Iowa. 1989.
- Libro con dos autores:
Siune, K., Truetzschler, W. Dinámica de las
políticas de los media: el difundir y media
electrónicos en Europa occidental. Publica-
ciones Sabias.
Parque de Newbury, Ca. 1992.
- Autor corporativo de un libro:
Grupo de Investigación de Euromedia. Los
media en Europa occidental: el manual de
Euromedia (1993, reimpresión). Publicacio-
nes Sabias.
Parque de Newbury, Ca. 1992.
- Artículo de diario con un autor:
Wishnevsky, J. Lejos de libre. Informe 2 (20).
De la investigación de Rfe/rl. Mayo de 1993,
pp. 86-91.
- Un documento en un sitio web:
Rosenbaum, J. (1990, noviembre). ¿Dis-
cutible o acogedor?: Radio de la comuni-
dad y del condado en la república de Irlan-
da. Papel presentado al Roy H. Park School
del coloquio de la facultad de las comu-
nicaciones, Universidad de Ithaca, Ithaca,
NY. Extraído de: http://www.ithaca.edu/
johnrosenbaum.
Las referencias bibliográficas deben ordenar-
se numéricamente, según el orden en que se
citan en el texto.
4. Procedimiento de selección
Considerando la periodicidad semestral de
la revista, el Comité Editorial realiza dos con-
vocatorias anuales para la recepción de artí-
culos, en marzo y septiembre de cada año.
Los artículos serán recibidos hasta la fecha
máxima establecida semestralmente, siem-
pre y cuando cumplan con todos los elemen-
tos de la lista de verificación que se presenta
en el anexo.
Luego de su recepción, los textos recibidos
serán sometidos a la evaluación de dos pares
académicos; paulatinamente se espera incor-
porar al proceso un mayor número de pares
externos que participen en el proceso.
Una vez recibidos los conceptos emitidos por
los pares, el Comité Editorial toma las deci-
siones acerca de la prioridad de publicación
de los artículos, considerando la alimenta-
ción adecuada de las diferentes secciones de
la revista, el espacio total disponible y la ex-
tensión de cada artículo aceptado. En algu-
nos casos el Comité podrá aceptar el artículo
con algunas modificaciones, o podrá suge-
rir una forma diferente de presentación u or-
ganización. En todos los casos las decisiones
son notificadas en forma escrita, a manera
de retroalimentación para los autores
de los escrit
EDITORIAL
INVESTIGACIÓN Y DESARROLLO
ENTORNO SOCIAL
2011
8 1
2
0
1
1
8
Facultad Tecnológica
Compresión de datos utilizando la teoría de teselas
Implementación de transacciones distribuidas usando agentes inteligentes
Ambiente de experimentación remota de robótica móvil
Aplicación voip para dispositivos moviles sobre redes wifi privadas
Servicios web soa utilizando agentes inteligentes para la integracion de aplicaciones
y servicios de las instituciones de educacion superior
Sistema multiagente educativo (sme) para la población con discapacidad cognitiva
Herramienta software para la implementación de algoritmos basados
en técnicas metaheurísticas, orientados a optimizar el establecimiento de rutas para el flujo
de información en comunicaciones
Integración de búsquedas de texto completo en bases de datos nosql
Prototipo servicio observacion y planificacion informacion geosensores ambiente grid tunja
Docencia asistencial en boavita boyacá como un caso exitoso de implementación de tics
en educación
Aplicación de técnicas de minería de datos en la construcción de un inventario de maguey
papalote, en el estado de guerrero
Sistema de monitoreo inteligente como ayuda en niños con síndrome de down para la
interpretación de caracteres numéricos y alfabéticos
Técnica, tecnología y ciencia: algunos lineamientos generales
Ponencia
A T
El conectivismo al servicio de sus predecesoras teorías del aprendizaje. Una herramienta para
docentes por medio de tecnologías de la información y la comunicación (tic).
Desarrollo de software para la empresa 2.0
Interoperabilidad entre lenguajes de programación
Desarrollo rápido de aplicaciones y puesta a punto
Proceso evolutivo de los agentes inteligentes
E
I + D
E S
Computación
e inteligencia
artificial
Autores invitados
Universidad Autónoma de Guerrero
México
Universidad Distrital
Francisco José de Caldas
Colombia

Más contenido relacionado

La actualidad más candente

Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid MinerLPI ONG
 
Minería de datos
Minería de datosMinería de datos
Minería de datosKeopx
 
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas ClasificaciónAplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas ClasificaciónLuis Fernando Aguas Bucheli
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data miningrenfer64
 
Data Mining
Data MiningData Mining
Data Miningbrobelo
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining PabloMolina111
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataPamela Paz
 
Curso de Analisis Predictivo y Mineria de Textos con Rapid Miner y CRIPS-DM
Curso de Analisis Predictivo y Mineria de Textos con Rapid Miner y CRIPS-DMCurso de Analisis Predictivo y Mineria de Textos con Rapid Miner y CRIPS-DM
Curso de Analisis Predictivo y Mineria de Textos con Rapid Miner y CRIPS-DMPedro Chavez
 

La actualidad más candente (18)

MINERIA DE DATOS
MINERIA DE DATOSMINERIA DE DATOS
MINERIA DE DATOS
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Ensayo sobre data mining
Ensayo sobre data miningEnsayo sobre data mining
Ensayo sobre data mining
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Taller práctico de Analítica Predictiva con Rapid Miner
Taller práctico de Analítica Predictiva  con Rapid MinerTaller práctico de Analítica Predictiva  con Rapid Miner
Taller práctico de Analítica Predictiva con Rapid Miner
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas ClasificaciónAplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
Data Mining
Data MiningData Mining
Data Mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Data Mining
Data MiningData Mining
Data Mining
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Curso de Analisis Predictivo y Mineria de Textos con Rapid Miner y CRIPS-DM
Curso de Analisis Predictivo y Mineria de Textos con Rapid Miner y CRIPS-DMCurso de Analisis Predictivo y Mineria de Textos con Rapid Miner y CRIPS-DM
Curso de Analisis Predictivo y Mineria de Textos con Rapid Miner y CRIPS-DM
 
Machine learning
Machine learningMachine learning
Machine learning
 
Minería de Datos
Minería de DatosMinería de Datos
Minería de Datos
 
Aplicaciones Difusas Map Reduce
Aplicaciones Difusas Map ReduceAplicaciones Difusas Map Reduce
Aplicaciones Difusas Map Reduce
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 

Similar a Agrupamiento de datos de series de tiempo. Estado del arte

ANTO-LEO-BEST (1)[25776].pdf
ANTO-LEO-BEST (1)[25776].pdfANTO-LEO-BEST (1)[25776].pdf
ANTO-LEO-BEST (1)[25776].pdfevelyn146531
 
Análisis de datos maritza 2018
Análisis de datos maritza 2018Análisis de datos maritza 2018
Análisis de datos maritza 2018Maritza Palencia
 
Ciclo de investigación.pptx
Ciclo de investigación.pptxCiclo de investigación.pptx
Ciclo de investigación.pptxLiezbeth1
 
PROYECTOS III - 2021-2.pptx
PROYECTOS III - 2021-2.pptxPROYECTOS III - 2021-2.pptx
PROYECTOS III - 2021-2.pptxJhonBCaicedoM
 
ESTADÍSTICA APLICADA A LOS NEGOCIOS UTILIZANDO MICROSOFT EXCEL "CAPITULO 1"
ESTADÍSTICA APLICADA A LOS NEGOCIOS UTILIZANDO MICROSOFT EXCEL "CAPITULO 1"ESTADÍSTICA APLICADA A LOS NEGOCIOS UTILIZANDO MICROSOFT EXCEL "CAPITULO 1"
ESTADÍSTICA APLICADA A LOS NEGOCIOS UTILIZANDO MICROSOFT EXCEL "CAPITULO 1"Quevin Crisostomo
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidadRuby Longa
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidadAndres Montoya
 
5_Evaluación Proyectos Sociales_051021 (1).pptx
5_Evaluación Proyectos Sociales_051021 (1).pptx5_Evaluación Proyectos Sociales_051021 (1).pptx
5_Evaluación Proyectos Sociales_051021 (1).pptxRomina Parisi V.
 
Modelo de medición de grupos de Investigación, Tecnológica o de Innovación –...
Modelo de medición de grupos de Investigación, Tecnológica  o de Innovación –...Modelo de medición de grupos de Investigación, Tecnológica  o de Innovación –...
Modelo de medición de grupos de Investigación, Tecnológica o de Innovación –...Politécnico Colombiano Jaime isaza Cadavid
 
Enfoques de la investigacion aplicada a las telecomunicaciones
Enfoques de la investigacion aplicada a las telecomunicacionesEnfoques de la investigacion aplicada a las telecomunicaciones
Enfoques de la investigacion aplicada a las telecomunicacionesVicente Merchán Rodríguez
 
Análisis de Series de Tiempo y Causal Final.pptx
Análisis de Series de Tiempo y Causal Final.pptxAnálisis de Series de Tiempo y Causal Final.pptx
Análisis de Series de Tiempo y Causal Final.pptxJosueMendoza84
 

Similar a Agrupamiento de datos de series de tiempo. Estado del arte (20)

Organizacion de datos
Organizacion de datosOrganizacion de datos
Organizacion de datos
 
ANTO-LEO-BEST (1)[25776].pdf
ANTO-LEO-BEST (1)[25776].pdfANTO-LEO-BEST (1)[25776].pdf
ANTO-LEO-BEST (1)[25776].pdf
 
Estadistica y escalas
Estadistica y escalasEstadistica y escalas
Estadistica y escalas
 
X huante estructura del análisis
X huante estructura del análisisX huante estructura del análisis
X huante estructura del análisis
 
Análisis de datos maritza 2018
Análisis de datos maritza 2018Análisis de datos maritza 2018
Análisis de datos maritza 2018
 
Ciclo de investigación.pptx
Ciclo de investigación.pptxCiclo de investigación.pptx
Ciclo de investigación.pptx
 
PROYECTOS III - 2021-2.pptx
PROYECTOS III - 2021-2.pptxPROYECTOS III - 2021-2.pptx
PROYECTOS III - 2021-2.pptx
 
ESTADÍSTICA APLICADA A LOS NEGOCIOS UTILIZANDO MICROSOFT EXCEL "CAPITULO 1"
ESTADÍSTICA APLICADA A LOS NEGOCIOS UTILIZANDO MICROSOFT EXCEL "CAPITULO 1"ESTADÍSTICA APLICADA A LOS NEGOCIOS UTILIZANDO MICROSOFT EXCEL "CAPITULO 1"
ESTADÍSTICA APLICADA A LOS NEGOCIOS UTILIZANDO MICROSOFT EXCEL "CAPITULO 1"
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Estadistica y probabilidad
Estadistica y probabilidadEstadistica y probabilidad
Estadistica y probabilidad
 
Marco metodologico
Marco metodologicoMarco metodologico
Marco metodologico
 
Definicion
Definicion  Definicion
Definicion
 
Clase1 unidad1
Clase1 unidad1Clase1 unidad1
Clase1 unidad1
 
5_Evaluación Proyectos Sociales_051021 (1).pptx
5_Evaluación Proyectos Sociales_051021 (1).pptx5_Evaluación Proyectos Sociales_051021 (1).pptx
5_Evaluación Proyectos Sociales_051021 (1).pptx
 
Base de datos
Base de datosBase de datos
Base de datos
 
Modelo de medición de grupos de Investigación, Tecnológica o de Innovación –...
Modelo de medición de grupos de Investigación, Tecnológica  o de Innovación –...Modelo de medición de grupos de Investigación, Tecnológica  o de Innovación –...
Modelo de medición de grupos de Investigación, Tecnológica o de Innovación –...
 
Enfoques de la investigacion aplicada a las telecomunicaciones
Enfoques de la investigacion aplicada a las telecomunicacionesEnfoques de la investigacion aplicada a las telecomunicaciones
Enfoques de la investigacion aplicada a las telecomunicaciones
 
Análisis de Series de Tiempo y Causal Final.pptx
Análisis de Series de Tiempo y Causal Final.pptxAnálisis de Series de Tiempo y Causal Final.pptx
Análisis de Series de Tiempo y Causal Final.pptx
 

Último

Ingeniería de Tránsito. Proyecto Geométrico de calles y carreteras, es el pro...
Ingeniería de Tránsito. Proyecto Geométrico de calles y carreteras, es el pro...Ingeniería de Tránsito. Proyecto Geométrico de calles y carreteras, es el pro...
Ingeniería de Tránsito. Proyecto Geométrico de calles y carreteras, es el pro...wvernetlopez
 
clases de dinamica ejercicios preuniversitarios.pdf
clases de dinamica ejercicios preuniversitarios.pdfclases de dinamica ejercicios preuniversitarios.pdf
clases de dinamica ejercicios preuniversitarios.pdfDanielaVelasquez553560
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPJosLuisFrancoCaldern
 
Curso intensivo de soldadura electrónica en pdf
Curso intensivo de soldadura electrónica  en pdfCurso intensivo de soldadura electrónica  en pdf
Curso intensivo de soldadura electrónica en pdfFernandaGarca788912
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfyoseka196
 
Reporte de Exportaciones de Fibra de alpaca
Reporte de Exportaciones de Fibra de alpacaReporte de Exportaciones de Fibra de alpaca
Reporte de Exportaciones de Fibra de alpacajeremiasnifla
 
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdfCristhianZetaNima
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxEduardoSnchezHernnde5
 
CLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxCLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxbingoscarlet
 
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALCHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALKATHIAMILAGRITOSSANC
 
Obras paralizadas en el sector construcción
Obras paralizadas en el sector construcciónObras paralizadas en el sector construcción
Obras paralizadas en el sector construcciónXimenaFallaLecca1
 
Introducción a los sistemas neumaticos.ppt
Introducción a los sistemas neumaticos.pptIntroducción a los sistemas neumaticos.ppt
Introducción a los sistemas neumaticos.pptEduardoCorado
 
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdfSesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdfannavarrom
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdfAnthonyTiclia
 
ECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfmatepura
 
Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMarceloQuisbert6
 
hitos del desarrollo psicomotor en niños.docx
hitos del desarrollo psicomotor en niños.docxhitos del desarrollo psicomotor en niños.docx
hitos del desarrollo psicomotor en niños.docxMarcelaArancibiaRojo
 
Proyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctricaProyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctricaXjoseantonio01jossed
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdffredyflores58
 

Último (20)

Ingeniería de Tránsito. Proyecto Geométrico de calles y carreteras, es el pro...
Ingeniería de Tránsito. Proyecto Geométrico de calles y carreteras, es el pro...Ingeniería de Tránsito. Proyecto Geométrico de calles y carreteras, es el pro...
Ingeniería de Tránsito. Proyecto Geométrico de calles y carreteras, es el pro...
 
clases de dinamica ejercicios preuniversitarios.pdf
clases de dinamica ejercicios preuniversitarios.pdfclases de dinamica ejercicios preuniversitarios.pdf
clases de dinamica ejercicios preuniversitarios.pdf
 
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIPSEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
SEGURIDAD EN CONSTRUCCION PPT PARA EL CIP
 
Curso intensivo de soldadura electrónica en pdf
Curso intensivo de soldadura electrónica  en pdfCurso intensivo de soldadura electrónica  en pdf
Curso intensivo de soldadura electrónica en pdf
 
Calavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdfCalavera calculo de estructuras de cimentacion.pdf
Calavera calculo de estructuras de cimentacion.pdf
 
Reporte de Exportaciones de Fibra de alpaca
Reporte de Exportaciones de Fibra de alpacaReporte de Exportaciones de Fibra de alpaca
Reporte de Exportaciones de Fibra de alpaca
 
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptx
 
CLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxCLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptx
 
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONALCHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
CHARLA DE INDUCCIÓN SEGURIDAD Y SALUD OCUPACIONAL
 
Obras paralizadas en el sector construcción
Obras paralizadas en el sector construcciónObras paralizadas en el sector construcción
Obras paralizadas en el sector construcción
 
Introducción a los sistemas neumaticos.ppt
Introducción a los sistemas neumaticos.pptIntroducción a los sistemas neumaticos.ppt
Introducción a los sistemas neumaticos.ppt
 
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdfSesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
 
ECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdfECONOMIA APLICADA SEMANA 555555555544.pdf
ECONOMIA APLICADA SEMANA 555555555544.pdf
 
Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principios
 
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdfVALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
VALORIZACION Y LIQUIDACION MIGUEL SALINAS.pdf
 
hitos del desarrollo psicomotor en niños.docx
hitos del desarrollo psicomotor en niños.docxhitos del desarrollo psicomotor en niños.docx
hitos del desarrollo psicomotor en niños.docx
 
Proyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctricaProyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctrica
 
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
 

Agrupamiento de datos de series de tiempo. Estado del arte

  • 1. REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 210 210 A T * Universidad Pedagógica y Tecnológica de Colombia. Teléfono: (57) 30056433462. Correo electrónico: gustavo.caceres@ uptc.edu.co. ** Universidad Distrital Francisco José de Caldas. Teléfono: (57) 3203050462. Correo electrónico: jrodri@udistrital.edu.co. Agrupamiento de datos de series de tiempo. Estado del arte Clustering of time series data. State of the art Gustavo Cáceres Castellanos* Jorge E. Rodríguez Rodríguez** Fecha de recepción: 15 de enero del 2011 Fecha de aceptación: 16/ de junio del 2011 Palabras clave: datos de series de tiempo, agrupamiento de se- ries de tiempo. Abstract Time series clustering has been an important research field in the last decade, providing useful and effective information in diverse domain. As outcome of the great existing interest for part of the scienti- fic community of data mining area, innumerable research wor- ks have arisen that propose new algorithms and methodologies to identify cluster in the data time series. To provide an over- view, this paper surveys and summarizes works that investiga- ted the data time series clustering in diverse applications field. The basic concepts of time series clustering are presented and the surveyed works are organized into three groups: temporal- proximity-based, model-based and representation-based. The application areas are summarized with a brief description of the used data. The characteristics and particularities of some works are discussed. Key words: Time series data, time seriesclustering
  • 2. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 211 211 Gustavo Cáceres Castellanos, Jorge E. Rodríguez Introducción Debido al rápido desarrollo de las tecnolo- gías de la información y la comunicación (TIC) y al avance de la globalización, las so- ciedades actuales se han enlazado conjunta- mente de manera compleja en varios niveles y han surgido varios problemas en econo- mía, medio ambiente, salud, seguridad, etc. Por consiguiente, la elucidación, predicción y control de estos sistemas complejos diná- micos son objetos de estudio muy importan- tes (Kitagawa, 2010, p. 252). Como un hecho particular de dichos siste- mas complejos, en algunos casos, se encuen- tran involucrados en ellos grandes volú- menes de datos que están representados en datos de series de tiempo. Una de las carac- terísticas de estas series de tiempo del mun- do real es su ubicuidad (Yang y Chen, 2010, p.10); actualmente, se encuentran en muchas áreas de aplicación, como agricultura, finan- zas, mercadeo, ingeniería, geofísica, medi- cina, economía, biología, bioquímica, me- teorología, ciencias sociales, industria de procesos y producción, lenguaje natural, ro- bótica, multimedia, entre otras (Wei, 2006, p. 634; Palit y Popovic, 2005, p. 381; Cowpert- wait y Metcalfe, 2009, p. 262; Plant, Wohls- chläger y Zherdin, 2009, pp. 914, 919; Pyl- vänen, Äyrämö y Kärkkäinen, 2009, p. 10; Savvides, Promponas y Fokianos, 2008, p. 15). Como consecuencia, en la última déca- da, la administración de datos de series de tiempo se ha convertido en un área de inves- tigación interesante e importante en la mine- ría de datos (Ding et ál.,2008, p. 11; Kavitha y Punithavalli, 2010, p. 6; Guo, Jia y Zhang, 2008, p. 4; Luo, Liao y Zhan, 2010, p. 5), ra- zón por la cual las técnicas y aplicaciones de minería de datos para el análisis de da- tos de series de tiempo han estado ganando amplia atención con temas de investigación interesantes sobre agrupamiento, búsqueda de similaridad, clasificación, predicción, etc. (Ding et ál.,2008, p. 11). Particularmente, el agrupamiento de series de tiempo ha centra- do el interés de algunos investigadores, dan- do como resultado la introducción de gran cantidad de trabajos que desarrollan nuevas metodologías, como se evidencia en los artí- culos de estado del arte elaborados por Liao (2005, p. 18) y Kavitha y Punithavalli (2010, p. 6) y las diferentes técnicas revisadas en el presente artículo. Debido al enorme interés existente, por parte de la comunidad científica, en relación con el área de minería de datos, enfocada a la inves- tigación en agrupamiento de datos de series de tiempo, han surgido innumerables tra- bajos de investigación, en los últimos años, en los que se proponen nuevos algoritmos y metodologías para identificar grupos en los datos de series de tiempo. Las diversas meto- dologías desarrolladas han sido aplicadas en los más variados campos, como por ejemplo, la comparación de indicadores a través de países y regiones, investigación de datos fi- nancieros (Guo, Jia y Zhang, 2008, p. 4; Papa- nastassiou, 2009, p. 5; Olier y Vellido, 2008, p. 21); datos médicos, desde monitoreo, basado en sensores de pacientes afectados por pato- logías similares, datos granados en interva- los de tiempo regular en geología y climato- logía (Bandyopadhyay, Baragona y Maulik, 2010), en la bioquímica (Savvides, Prompo- nas y Fokianos, 2008, p. 15; Kuenzel,2010, p. 14), meteorología (Horenko, 2010, p. 23), eco- logía (Debeljak et ál., 2010, p. 6), datos de ex- presión genética (Chiu, Hsu y Wang, 2010), entre otros. Estos métodos están clasificados en tres im- portantes categorías: metodología basada en proximidad temporal, metodología basada en representación y metodología basada en modelos, en las cuales la idea básica de los dos últimos métodos es convertir las series
  • 3. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 212 212 de tiempo en datos estáticos o parámetros de modelos, para luego aplicar directamen- te métodos de agrupamiento desarrolla- dos para manipular los datos estáticos para completar las tareas de agrupamiento (Yang y Chen, 2010, p. 10; Guo, Jia, y Zhang, 2008; Wei y Jiang, 2010, pp. 135-138). El presente artículo tiene la intención de in- troducir las bases del agrupamiento de series de tiempo y suministrar una revisión de tra- bajos realizados en años recientes. En el se- gundo aparte, se presentan conceptos funda- mentales del agrupamiento datos de series de tiempo. En el tercero, se presenta la cla- sificación e informe de los trabajos de agru- pamiento en series de tiempo que han sido presentados en la literatura abierta en los úl- timos años. Varios aspectos en relación con las técnicas presentadas son discutidos en el cuarto apartado y, finalmente, el artículo concluye con un apéndice, en el que se expo- nen las áreas de aplicación que son reporta- das con links, en los cuales se encuentran da- tos de series de tiempo disponibles. Agrupamiento de series de tiempo El agrupamiento es una técnica poderosa re- conocida en la minería de datos y ha sido es- tudiada exhaustivamente durante los últi- mos años. Este es un método para agrupar objetos de un conjunto de datos dentro de diferente “grupos”, de acuerdo con las ca- racterísticas encontradas en dichos datos. El mayor logro es la creación de particiones de objetos que tengan similitud entre ellos; te- niendo un conjunto de datos X={x1; x2; … ; xn}, x se divide en k grupos {C1;C2; …;Ck}, donde Ci ∈ X(i = 1; 2;…; k). El resultado obte- nido de este proceso puede revelar objetos/ categorías desconocidas que pueden ayu- dar a un mejor entendimiento de los datos (Zhou, Li y Ma, 2009). Similar al agrupamiento de puntos de datos estáticos, el propósito de agrupamiento de series de tiempo es resaltar la estructura in- herente en un conjunto de datos de serie de tiempo agrupando los datos en un número de grupos homogéneos, de forma que la si- milaridad entre datos dentro de un grupo es máxima. Los datos de series de tiempo pue- den ser de valor discreto o real, muestreados uniformemente o no, uni variables o multi- variables y de igual longitud o longitud dife- rente (Chandrakala y Sekhar, 2008). El agrupamiento de series de tiempo es una tarea importante en la minería de datos. En comparación con los problemas tradiciona- les de agrupamiento, en las series de tiempo se plantean algunas dificultades adicionales. La estructura única de series de tiempo hace que muchos métodos tradicionales de agru- pamiento no se puedan aplicar a las series de tiempo de manera directa (Guo, Jia y Zhang, 2008). El objetivo final del análisis de agru- pamiento de series de tiempo es dividir un conjunto de series de tiempo no etiquetadas, en las cuales las secuencias agrupadas deben ser coherentes u homogéneas (Yang y Chen, 2010, p. 10; Vilar, Alonso y Vilar, 2010, p. 16). Los componentes más importantes de un método de agrupamiento de series de tiem- po son probablemente: la definición de una adecuada medida de similitud/distancia, y el algoritmo de agrupamiento (Piccardi y Calatroni, 2010). Sin importar el método de agrupamiento utilizado, siempre se requiere de una medida de distancia o similitud para la comparación de dos series de tiempo. La selección de esta medida de similitud deter- mina el buen desempeño del agrupamiento (Zhang, Liu y Yan, 2010). Las medidas de si- militud más ampliamente utilizadas para el agrupamiento de datos estáticos son la dis- tancia euclidiana (Euclidean Distance, EC) y el coeficiente de correlación de Peason (Peason’s
  • 4. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 213 213 Gustavo Cáceres Castellanos, Jorge E. Rodríguez Correlation Coefficient, CC) (Zhang, Liu y Yan, 2010). Conceptualmente, muchos de los criterios de disimilitud propuestos para agrupamien- to de series de tiempo tratan con la noción de similaridad confiando en dos posibles cri- terios: proximidad entre datos de series en bruto y proximidad entre procesos de pro- ducción fundamentales. En ambos casos, la tarea de clasificación llega a ser inheren- temente estática, dado que la búsqueda de la similitud es controlada solamente por el comportamiento de las series sobre sus pe- riodos de observación (Vilar, Alonso y Vilar, 2010, p. 16). Estudios empíricos en minería de datos de series de tiempo revelan que muchos de los algoritmos de agrupamiento existentes no trabajan bien, debido a su complejidad en la estructura fundamental y a su dependencia de los datos (Keogh y Kasetty, 2002, pp. 102- 111), lo cual plantea un reto real en agrupa- miento de series de tiempo de alta dimen- sionalidad, correlación temporal compleja y una cantidad sustancial de ruido (Yang y Chen, 2010, p. 10). En el contexto del tratamiento de dependen- cia de datos, existen algoritmos de agrupa- miento de series de tiempo que pueden ser clasificados en metodologías de agrupa- miento basadas en proximidad temporal, basadas en modelos y basadas en representación. A conti- nuación, se describen algunas de las caracte- rísticas más relevantes de estas metodologías. Agrupamiento de series de tiempo basado en proximidad temporal Estos algoritmos trabajan directamente sobre las series de tiempo, en las cuales la corre- lación temporal es tratada directamente du- rante el análisis del agrupamiento por medio de medidas de similitud. Entre las ventajas presentadas por este método, se encuentra que previenen la pérdida de información y es una forma directa de capturar el compor- tamiento dinámico de una serie de tiempo; adicionalmente, es un medio flexible para tratar con longitudes de datos de series de tiempo variables. Sin embargo, estas metodologías regular- mente son sensibles a la inicialización, pre- sentan problemas de selección del modelo y una complejidad computacional alta. Algu- nos trabajos desarrollados en esta metodolo- gía son: algoritmo de agrupamiento para vi- deo basado en series de tiempo de trayectoria de movimiento de transformadas wavelet de movimiento de objetos en video (Luo, Liao y Zhan, 2010), análisis de datos de series de tiempo sobre vegetación de agroecología uti- lizando árboles de agrupamiento predictivo (Debeljak et ál., 2010, p. 6), agrupamiento de datos de series de tiempo del gen basado en representaciones continuas y una mediada de similaridad basada en energía (Zhang, Liu y Yan, 2010), agrupamiento adaptativo para series de tiempo (Douzal-Chouakria, Diallo y Giroud, 2009, p. 13), un procedimiento de agrupamiento para minería exploratoria de series de tiempo vector (Liao, 2007, p. 13), un algoritmo de agrupamiento para datos de se- ries de tiempo (Yin, Zhou y Xie, 2006). Agrupamiento de series de tiempo basado en modelos Trabajan directamente sobre las series de tiempo, en las cuales la correlación temporal es tratada directamente durante el análisis del agrupamiento por medio de medidas de similitud. Los grupos de las series de tiempo son especificados por una serie de modelos dinámicos, identifican la independencia de datos y la regularidad, más allá del compor- tamiento dinámico de las series de tiempo.
  • 5. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 214 214 Esta metodología es adecuada para enfren- tar dependencias de datos entre las series de tiempo; estas son caracterizadas con mode- los generativos. Como desventaja, presentan una alta complejidad computacional y pro- blemas en la selección del modelo. Algunos de los trabajos desarrollados utilizando esta metodología son: un algoritmo basado en in- teracción de series de tiempo multivariables (Plant, Wohlschläger y Zherdin, 2009), agru- pamiento de series de tiempo meteorológi- cas no estacionarias (Horenko, 2010, p. 23), agrupamiento de series de tiempo no linea- les basado en densidades de pronóstico no paramétricas (Vilar, Alonso y Vilar, 2010, pp. 2850-2865), algoritmo de agrupamiento k- means basado en modelo oculto de Markov (Wei y Jiang, 2010, pp. 135-138), un método de agrupamiento jerárquico basado en HMM para series de tiempo de expresión genética (Zhao y Deng, 2010). Agrupamiento de series de tiempo basado en representaciones Se extrae un conjunto de características de la serie de tiempo, convierte las series de tiempo en dimensionalidades más bajas con caracte- rísticas de espacio, en las cuales cualquier al- goritmo de agrupamiento de datos estático existente puede ser aplicado, lo cual, en es- pecial, eficiente en computación. Presenta la ventaja de reducir significativamente el costo computacional y su compatibilidad con los algoritmos de agrupamiento para datos está- ticos. No obstante, una representación tiende a codificar solamente aquellas características bien presentadas en su espacio de represen- tación, lo cual inevitablemente causa pérdi- da de otra información útil llevada en la serie de tiempo original. Debido a la alta comple- jidad y variedad de las series de tiempo, no existe una representación universal que ca- racterice perfectamente diferentes tipos de series de tiempo (Ding et ál., 2008, pp. 1542– 1552). Por consiguiente, una representación es simplemente aplicable a clases de series de tiempo, en las cuales sus características salientes puedan ser completamente captu- radas en el espacio de representación; pero esta información es difícilmente disponible sin conocimiento previo y un análisis cui- dadoso. Con esta metodología encontramos trabajos desarrollados como: agrupamien- to de series de tiempo por medio de conjun- to de redes RCPL(Yang y Chen, 2010. p. 10), agrupamiento de series de tiempo por aná- lisis de comunidad de redes (Piccardi y Ca- latroni, 2010), agrupamiento difuso en series de tiempo en el dominio de frecuencia (Ma- haraj, E.-A. and D’urso, 2010, p. 25), agrupa- miento basado en LLE (Locally Linear Em- bedding) para series de tiempo financieras multivariables [25] Trabajos realizados Basados en la clasificación para algoritmos de agrupamiento de series de tiempo, enun- ciada anteriormente, a continuación se pre- sentan algunos trabajos que se han desarro- llado en años recientes, que nos permiten ver el avance y las tendencias de la investigación en el campo de la minería de datos y parti- cularmente del agrupamiento en series de tiempo. Agrupamiento de series de tiempo basada en proximidad temporal Estas metodologías centran su esfuerzo del proceso de agrupamiento en diseñar medi- das de similitud o distancia entre secuencias, siendo una de las más efectivas la DTW (Wei y Jiang, 2010, pp. 135-138). Acontinuación, se enuncian algunas de las técnicas de agrupa- miento de series de tiempo basadas en proxi- midad temporal, desarrolladas en los últi- mos años:
  • 6. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 215 215 Gustavo Cáceres Castellanos, Jorge E. Rodríguez Cuando se trabaja con series de tiempo de expresión génica, a menudo, los puntos del tiempo no son muestreados uniformemen- te, lo cual representa un problema en el des- empeño del agrupamiento. Con el propósi- to de mejorar dicho desempeño, Zhang, Liu y Yan (2010), presentan una nueva metodo- logía de agrupamiento, que se basa en la re- presentación continua y medidas de simila- ridad basadas en energía. La metodología propuesta modela cada perfil de la expresión génica como una expansión B-spline, para lo cual son estimados los coeficientes spline por medio del esquema del cuadrado mínimo re- gularizado sobre los datos observados. Lue- go de ajustar la representación continua del perfil de la expresividad del gen, utilizan la medida de similaridad basada en energía para tomar en cuenta la información tempo- ral y cambios relativos de la serie de tiempo. El método propuesto está enfocado a mejo- rar el agrupamiento de series de tiempo del gen combinando la representación continua y la medida de similaridad, basada en ener- gía, más que el algoritmo de agrupamiento mismo. Este método puede ser extendido a otros algoritmos de agrupamiento. Luo, Liao y Zhan (2010) proponen un análi- sis de similaridad y un algoritmo de agrupa- miento de videos, basado en la transforma- da wavelet de datos de series de tiempo de la trayectoria del movimiento de objetos en los videos. Este algoritmo detecta el movi- miento de objetos desde la observación de escenas del video, calcula el centroide del movimiento del objeto y usa la serie centroi- de para caracterizar la trayectoria del movi- miento del objeto. Luego, utiliza el método de análisis wavelet para lograr la reducción de la dimensionalidad y obtener el primer coeficiente wavelet k para sustituir los da- tos de serie de tiempo original. Basado en la distancia euclidiana, utiliza dos reglas de jui- cio para determinar la similaridad de los da- tos de series de tiempo y agruparlos, utiliza las reglas para ejecutar la búsqueda de simi- litud y agrupamiento del video. Para reali- zar el agrupamiento, se utiliza el algoritmo K-means. Debeljak et ál. (2010, p. 6) describen una apli- cación exitosa de árboles de agrupamiento predictivo en el análisis de series de tiempo en un conjunto de datos ecológico grande y complejo. Fueron combinados tres métodos en esta aplicación DTW para definir la dis- tancia entre dos series de tiempo; el algorit- mo K-medoids para hacer una partición de las series de tiempo y de los árboles de agrupa- miento predictivo, a fin de asociar una varia- ble destino, en este caso, la segunda serie de tiempo, para variables independientes (atri- butos de entrada), incluyendo pertenencias en los grupos definidos para la primera se- rie de tiempo. Por su parte, Douzal-Chouakria, Diallo y Gi- roud (2009, p. 13)aplican un algoritmo de agrupamiento adaptativo de series de tiem- po para identificar el ciclo celular expresa- do en los genes. Este algoritmo primero se basa en un índice de disimilitud, cubriendo tanto la proximidad sobre los valores como los comportamientos. El método de agrupa- miento debería ayudar a aprender la contri- bución apropiada sobre valores y comporta- miento del índice de disimilitud. Finalmente, este permite extraer un conjunto de genes ca- racterizando, bien las fases del ciclo celular. Se utilizó el algoritmo Partitioning Around Medoids (PAM) para dividir el conjunto de genes estudiado en n grupos (siendo n el nú- mero de fases o interfaces de ciclo celular es- tudiado). Este algoritmo, siendo más robusto en relación al manejo de valores atípicos que el K-means, permite un mayor detalle en el análisis de la partición, suministrando carac- terísticas de agrupamiento; particularmente, indica, para cada gen, si este está bien clasifi- cado o si se encuentra en el límite del grupo.
  • 7. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 216 216 Liao (2007, p. 13) propone un procedimien- to de dos pasos para minería exploratoria de series de tiempo multivariada valor continuo (real-valued) utilizando métodos de agrupa- miento basados en partición. Esta metodo- logía trabaja directamente sobre los datos en bruto y es capaz de manipular series de tiem- po de longitud diferente. El primer paso de la metodología propuesta convierte la serie de tiempo continua en serie se tiempo uni- variable de valor discreto. Este primer paso se puede considerar un paso de reducción de dimensión. Se lleva acabo aplicando un algo- ritmo de agrupamiento a los datos multiva- riados trazados en el tiempo. El segundo paso agrupa los n números de la serie de tiempo de valor discreto conver- tida dentro de un número predeterminado de grupos. Se tomaron dos diferentes meto- dologías para esto, la primera utiliza la dis- tancia DTW y algoritmos de agrupamien- to jerárquico, o basado en medoid, estos son necesarios si esta metodología es tomada. La segunda metodología primero expresa cada valor discreto de la serie de tiempo univaria- ble como una matriz de transición de proba- bilidades n. Esta segunda alternativa puede hacer uso de todos los algoritmos de agrupa- miento existentes. Yin, Zhou y Xie (2006) proponen una mejora al método clásico de agrupamiento jerárqui- co, desarrollando un método de intercam- bio basado en la metodología de codificación Bitmap. Este método consta de seis pasos: • Inicia asignando cada ítem a su propio grupo, así que si son n ítems. Hay n gru- pos, cada uno conteniendo solamente un ítem. • Usa la relación grey como medida de si- milaridad de series de tiempo y deja las similitudes entre grupos igual a las simili- tudes entre los ítems que ellos contienen. • Encuentra pares de grupos similares y los combina dentro de un grupo simple, así que un grupo puede ser reducido. • Calcula el enlace promedio como simila- ridad entre los nuevos grupos y cada uno de los grupos viejos. • Repite los pasos tres y cuatro hasta obte- ner k grupos. • Adopta el intercambio basado en la me- todología de codificación bitmap para re- finar los k grupos del paso cinco y luego obtener los nuevos k grupos. Chen (2007) resuelve algunos problemas en- contrados en la popular técnica de agrupa- miento STS, por consiguiente, se pudo con- cluir que esta técnica carece de sentido. Propone el algoritmo TF que produce agru- pamiento de series de tiempo útiles. La me- todología está basada en restringir el espacio de agrupamiento para extender solamente la región visitada por las series de tiempo en la subdivisión del vector espacio. Dicho algo- ritmo fue validado en doce conjuntos de da- tos sintéticos y de la vida real. La tabla 1 resume los principales componen- tes utilizados en cada algoritmo de agrupa- miento basado en proximidad temporal. Agrupamiento de series de tiempo basada en modelos La metodología basada en modelos como pri- mer paso modela las series de tiempo y luego aplica el algoritmo de agrupamiento sobre el modelo obtenido. En algunos casos, la des- ventaja presentada en relación con otras me- todologías es la complejidad computacional. Algunas de las metodologías propuestas en los últimos años se presentan a continuación.
  • 8. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 217 217 Gustavo Cáceres Castellanos, Jorge E. Rodríguez Zhao y Deng (2010) proponen un novedoso método de agrupamiento para analizar los datos de series de tiempo de expresión gé- nica, denominado agrupamiento jerárqui- co basado en el Modelo de Markov Oculto (Hidden Markov Model-based hierarchical clus- tering, HMM-HC). Convierten datos de pun- tos del tiempo en símbolos discretos sobre la base del hecho de que el logaritmo del dato obedece aproximadamente a una dis- tribución normal y construyen los modelos de Markov ocultos con estos símbolos para secuencias del gen. En una serie de tiempo de expresión génica, el dato en el punto del tiempo es correlacionado con otros; el uso de HMM puede ayudar a tomar ventajas de su correlación especial. El algoritmo de agrupa- miento HMM-HC está dividido en dos eta- pas. Primero, modelar los datos de la serie de tiempo de expresión génica, ya que cada mo- delo representa un grupo. Segundo, agrupar los modelos con la estrategia de jerarquía. Wei y Jiang (2010, pp. 135-138) proponen un método que busca subsanar algunas insu- ficiencias presentadas en los algoritmos de agrupamiento basados en los modelos de Markov, como secuencias largas y longitudes iguales. El algoritmo de agrupamiento de se- ries de tiempo K-means, basado en HMM; este algoritmo primero parte el conjunto de datos usando DWT, agrupa las secuencias similares en un grupo, a fin de evitar sobre- ajustes (overfitting) para el entrenamiento de muestras. Luego, entrena un modelo HMM para cada grupo, calcula las probabilidades que cada secuencia pertenece a cada mode- lo, asigna cada secuencia en una clase corres- Tabla 1. Resumen de los algoritmos de series de tiempo basados en proximidad temporal Artículo Variable Longitud Medida de distancia Algortimo de agrupamiento Aplicación Zhang et ál. (2010) Simple Igual SimilB K-means Expresión genética. Luo et ál. (2010) Simple Igual Euclidiana K-means Análisis de videos de deporte atlético. Debeljak et ál. (2010) Múlti- ples Diferentes DTW K-medoids Cobertura de cultivos y maleza Reino Unido. Qu et ál. (2010) Simple Igual Euclidiana Fuzzy C-means Conjuntos de da- tos sintéticos. Douzal- Chouakria et ál. (2009, p. 13) Simple igual Euclidiana PAM Expresión genética. Liao (2007, p. 13) Múltiple Diferentes DTW o Jerárquico Datos Sintéticosl gene- rados por procedimien- to varmasim de SAS. Kullback- Liebeler Fuzzy C-means Yin (2006) Simple Igual Relación gris Jerárqui- co mejorado Sistema de administración de tráfico en Washington. Chen (2007) Simple Igual Euclidiana K-medoids Doce series de tiempo del mundo real y sintéticas Lytkin (2008, p. 33) Múltiple Igual Euclidiana Basado en gradiente Fondos de inversión común.
  • 9. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 218 218 pondiente con el principio de máxima proba- bilidad. Por último, una mejora iterativa del modelo hasta que la función de probabilidad de unión converja a un umbral preajusta- do. Experimentos sobre datos artificiales han mostrado que la metodología propuesta fun- ciona mucho mejor que las metodologías es- tándar de agrupamiento basadas en HMM. Vilar, Alonso y Vilar (2010, p. 16) extienden el procedimiento de agrupamiento, propues- to por Alonso et ál (2006, p. 15), para cubrir el caso de modelos no paramétricos de au- torregresión arbitraria. Esta metodología no asume ningún modelo paramétrico para la verdadera estructura autorregresiva de la se- rie, que es estimada usando técnicas de kernel smoothing. Como consecuencia, solamente aproximaciones no paramétricas para la ver- dadera función autorregresiva están disponi- bles en este nuevo ajuste y, por tanto, el filtro de bootstrap no es un proceso de producción válido. En este procedimiento, el mecanismo usado para obtener las predicciones bootstrap está basado en imitar el proceso de produc- ción usando un estimado no paramétrico de la función autorregresiva y un remuestreo bootstrap de los residuos no paramétricos. De esta manera, suministran un dispositivo útil para clasificar series de tiempo autorregre- sivas no lineales, incluyendo modelos para- métricos estudiados ampliamente, como el autorregresivo de umbral (Threshold Auto- regressive, TAR), el autorregresivo exponen- cial (Exponential Autoregressive, EXPAR), el autorregresivo de transición sin problemas (Smooth-Transition Autoregressive, STAR), y el bi lineal, entre otros. Pamminger y Frühwirth-Schnatter (2010, p. 24) plantean dos metodologías para agru- pamiento basado en modelos de series de tiempo categóricas basadas en cadenas de Markov de primer orden de tiempo homo- géneo. Para el agrupamiento de cadenas de Markov, las probabilidades de transición in- dividual son fijadas a una matriz de transi- ción de grupo específico. En la nueva meto- dología, llamada agrupamiento multinomial de Dirichelt, las filas de las matrices de tran- sición individual se derivan del grupo me- dio y siguen una distribución Dirichlet con híper parámetros de grupo específico desco- nocidos. La estimación es llevada median- te Monte Carlo Cadenas de Markov (Markov Chain Monte Carlo, MCMC). Varios criterios de agrupamiento bien conocidos son aplica- dos para seleccionar el número de grupos. Horenko (2010, p. 23) presenta un método para agrupamiento de series de tiempo me- teorológicas no estacionarias multidimensio- nales. Esta metodología está basada en la op- timización del agrupamiento promediado regularizado funcional, describiendo la cali- dad de la representación de datos en térmi- nos de k modelos de regresión y un proceso oculto meta estable intercambiado entre es- tos. El algoritmo de agrupamiento numérico propuesto está basado en aplicación del mé- todo de elementos finitos (finite element me- thod, FEM) para el problema del análisis de series de tiempo no estacionarias. La princi- pal ventaja del algoritmo presentado en com- paración con HMM y con modelos de mez- cla finita es que ninguna suposición a priori acerca del modelo de probabilidad para los procesos ocultos y observados es necesaria. Otra característica numérica atractiva de este algoritmo es la posibilidad para seleccionar el número óptimo de grupos metaestables y una oportunidad para controlar la ambigüe- dad de la descomposición resultante pos- teriormente, basado en la distinguibilidad estadística de los estados de grupos persis- tentes resultantes. Plant, Wohlschläger y Zherdin (2009) propo- nen una noción nueva para series de tiempo multivariables. Definen un grupo como un conjunto de objetos compartiendo un patrón de interacción específica entre dimen
  • 10. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 219 219 Gustavo Cáceres Castellanos, Jorge E. Rodríguez siones: proponen un algoritmo eficiente para agrupamiento basado en interacciones deno- minado interacción K-Means (IKM). Este al- goritmo demostró que el grupo basado en interacción es un complemento valioso para agrupamiento en series de tiempo multiva- riado. La tabla 2 resume los principales com- ponentes usados en cada algoritmo basado en modelos. Tabla 2. Resumen de algoritmos de agrupamiento para series de tiempo basado en modelos Artículo Variable Modelo Medida de distancia Algoritmo de agrupamiento Aplicación Zhao y Deng (2010) Simple HMM Distancia de Ward Hierarchical Datos de expre- sión genética. Wei y Jiang (2010) Simple HMM DTW K-means Datos artificia- les generados. Vilar et ál. (2010) Múltiple Autorregre- sión bootstrap L1 y L2 Jerárquico agregativo Índice de produc- ción industrial. Horenko (2010) Multiple Modelos de regresión Euclidiana FEM-K_Trends (Fi- nite element me- thod-K-Trends) Temperaturas dia- rias desde 1958-2002. Piccardi y Ca- latroni (2010) Múltiple Modelo de red Euclidiana Jerárquico agregativo Series de tiem- po financieras. Pammin- ger (2010) Múltiple Multinomial Dirichlet N/A multinomial Dirichlet Panel de movilidad sa- larial Australiana. Plant y Frühwir- th-Schnat- ter (2009) Múltiple Modelo lineal Euclidiana K-means Datos sintéticos fMRI, EEG, CAD. Alonso et ál. (2006) Múltiple Procedimien- to de bootstrap L2 Jerárquico aglo- merativo Emisión de CO2 . Agrupamiento de series de tiempo basada en representaciones Este método consiste primero en extraer ca- racterísticas de la serie de tiempo y luego aplicar el algoritmo de agrupamiento sobre la representación de las características de la serie de tiempo. La desventaja que plantean algunos autores al utilizar esta metodología es que se pierde alguna información de la se- rie de tiempo al realizar la extracción. A con- tinuación, se presentan algunas metodolo- gías propuestas en años recientes. Yang y Cheng (2010. p. 10) proponen una nueva metodología práctica aún para agru- pamiento de series de tiempo por medio de una combinación de redes de aprendiza- je competitivo rival-penalized (rival-penali- zed competitive learning, RPCL) con diferen- tes representaciones, las cuales direccionan tanto el agrupamiento y los problemas de se- lección del modelo en el análisis de agrupa- miento de manera general. Esta metodología está motivada por el éxito previo en el uso de diferentes representaciones para construir un modelo combinado para tratar con difíci- les tareas de aprendizaje, supervisado y se- misupervisado donde el uso de diferentes re- presentaciones explota mejor la información llevada en los datos en bruto y, por consi- guiente, conduce a un mejor desempeño. Por cada representación individual, pri- mero emplean una red RPCL para análisis
  • 11. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 220 220 de agrupamiento de la selección del mode- lo automático; por otra parte, la naturaleza de la red RPCL a menudo induce a análisis de agrupamiento rápidos. Esta combinación de redes RPCL hace frente a la diversidad de grupos generados por las redes RPCL sobre las diferentes representaciones reconcilián- dolas en una forma óptima. Como resultado del conjunto de red, RPCL reduce considera- blemente ambigüedades resultantes del uso de diferentes inicializaciones, porcentajes de aprendizaje y condiciones de terminación en una red RPCL individual y, además, aumen- ta su capacidad de selección de modelo auto- mático sobre diferentes representaciones. La arquitectura del modelo de ensamble RPCL consta de tres módulos, es decir, ex- tracción de la representación, aprendiza- je competitivo RPCL y ensamble de agrupa- miento. En el módulo de extracción, varias representaciones de naturaleza complemen- taria son utilizadas (piecewise local statis- tics, PLS; piecewise discrete wavelet transform, PDWT; polynimial curve fitting, PCF y discre- te fourier transforms, DFT). Así, las series de tiempo son transformadas en diferentes re- presentaciones para ser la entrada de las redes RPCL. En el módulo de aprendiza- je competitivo, una red RPCL sobre una re- presentación individual sería entrenada con sus reglas de aprendizaje para análisis de agrupamiento. Piccardi y Calatroni (2010) proponen un al- goritmo de agrupamiento no convencional, que es, de hecho, una aplicación de un de- sarrollo reciente de la teoría de redes com- plejas, llamado análisis de comunidad. Una red con n nodos es asociada a el conjunto de n series de tiempo, con el peso del enlace (i,j) cuantificando la similitud entre los dos com- ponentes de la serie. Luego, buscando para comunidades de redes, se permite identifi- car grupos de nodos (por ejemplo, series de tiempo) con fuerte similaridad. Maharaj y D’urso (2010, p. 25) presentaron una metodología de agrupamiento Fuzzy para series de tiempo basado en coeficientes cepstral, esto es, basado en lógica difusa; asi- mismo, clasificaron las series de tiempo en el dominio de frecuencia considerando su re- presentación cepstral. En este enfoque, a di- ferencia del enfoque tradicional (no fuzzy), los elementos de datos pertenecen a más de un grupo y asociados con cada elemento está un conjunto de niveles de pertenencia. Esto indica la fuerza de la asociación entre ese ele- mento de dato y un grupo en particular. El agrupamiento fuzzy es un proceso de asig- nación de esos niveles de pertenencia y, lue- go, usando estos para asignar los elementos de datos a uno o más grupos. Lai, Chung y Tseng (2010, p. 8) proponen un método de agrupamiento de dos niveles lla- mado 2LTSC (2 [level time series clustering]), el cual puede suministrar un profundo en- tendimiento para agrupamiento de series de tiempo por medio de la consideración de di- ferentes granulaciones de tiempo. El método considera tanto la serie de tiempo comple- ta, denominada nivel 1, en el primer nivel, como la información subdividida de la serie de tiemi 2 debería ser diferente y así es tam- bién considerada en el segundo nivel este método. Chiu, Hsu y Wang (2010) presentan un al- goritmo de agrupamiento no supervisado para analizar series de tiempo de datos de expresión genética, el cual no requiere cono- cimiento previo. Este algoritmo combina la propagación de afinidad y el agrupamien- to de consenso con varios intervalos de se- ries de tiempo suministrando robustez y pre- cisión progresiva. Este algoritmo suministra un apropiado y efectivo análisis sobre expe-
  • 12. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 221 221 Gustavo Cáceres Castellanos, Jorge E. Rodríguez Zhou, Li y Ma (2009) proponen un enfoque basado en la agrupación local incrustación lineal (Local Linear Embedding, LLE) para la base de datos financieros, en este enfoque, primero se convierten los datos de series de tiempo raw en dimensiones menores me- diante el algoritmo LLE, y luego se aplica un algoritmo modificado de k-means a las carac- terísticas de vectores extraídas. Primer paso: se realiza una reducción de la dimensionali- dad por medio del LLE. Segundo paso: lue- go se aplica el algoritmo de agrupamiento K-means ajustado para agrupar la matriz de mezcla W obtenida por LLE. El algoritmo in- tenta dividir n cantidad de objetos en k gru- pos, donde cada uno tendría un objeto como el centro del grupo, lo que representa que to- dos los objetos de datos están asociados a un grupo. Luego de esto asignan cada uno de los objetos al grupo adecuado de acuerdo con el centro del grupo definido, una vez to- dos los objetos están asignados a algún gru- po se recalculan los centros promediando los miembros de cada grupo, hasta estabilizar el centro. Con esto, se logra, después de cada iteración, una mejor calidad en los grupos y los centros de estos. Savvides, Promponas y Fokianos (2008, p. 15) proponen un algoritmo de agrupamien- to aplicado a series de tiempo biológicas. Para esto, se plantea una nueva medida de distancia basada en el coeficiente cepstral, el cual transporta información acerca del regis- tro de espectros de una serie de tiempo es- tacionaria. Una vez que estos coeficientes son estimados, esta medida de distancia es dada como entrada a un método de agrupa- miento para producir grupos disyuntos de datos. Para el agrupamiento se utiliza el al- goritmo Diana (Divisive Analysis), el cual cal- cula una jerarquía divisionista, mientras que otros procedimientos para agrupamiento je- rárquico es aglomerativo. El algoritmo Diana crea una jerarquía de grupos, iniciando con un grupo grande que incluye todos los pun- tos de datos. Luego, los grupos son divididos hasta que cada grupo contiene una observa- ción única. Otranto (2008, p. 14) propone un procedi- miento de agrupamiento basado en herra- mientas estadísticas simples. En particular, considera la interferencia cuadrática del re- torno de una serie de tiempo financiera como la volatilidad de las series. Luego, utilizan la representación GARCH (Generalized Autore- gressive Conditional Heteroskedasticity) de una varianza condicional para derivar el modelo fundamental de la inferencia cuadrática. De este modelo se separa la volatilidad dentro de una parte constante y parte variante en el tiempo; esta subdivisión puede tener una in- terpretación atractiva, en particular, cuando se usa la volatilidad para representar el ries- go del activo. La parte constante de la vola- tilidad es medida en forma natural, mientras que miden la parte variante en el tiempo ex- tendiendo la idea de distancia entre mode- los AR para la familia GARCH. Se aplica un algoritmo aglomerativo y como característi- ca de este procedimiento, a diferencia de los principales algoritmos aglomerativos, el nú- mero de grupos es detectado automática- mente y no es determinado por el usuario. Hsu y Chen (2008) proponen una nueva me- todología para estimar el índice de equilibrio utilizando mapas de autoorganización (self organizing map, SOM), que sirve como una red de dos capas no supervisadas que pue- de organizar un mapeo topológico. El mapeo resultante muestra las relaciones naturales entre los patrones que están dados en la red. Por su parte, SOM es adecuado para análi- sis de agrupamiento y ha sido aplicado para predicción de series de tiempo y en el pro- ceso de investigación desarrollado primero, las series de tiempo son agrupadas con SOM. Segundo, el índice de equilibrio es calcula-
  • 13. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 222 222 do basado en el grupo de la similaridad de los patrones de series de tiempo. Se asumió que los patrones de similaridad de las series de tiempo tendrán el mismo comportamien- to y serán adecuados para la estimación del índice de equilibrio. Finalmente, varios mo- delos basados en SOM propuestos son in- vestigados y comparados con los modelos tradicionales. Bandyopadhyay, Baragona y Maulik (2010) proponen técnicas para agrupamiento de se- ries de tiempo univariables y multivariables. Se utilizan dos pasos básicos, extracción de características y asignación de series de tiem- po a grupos, de acuerdo con un criterio de optimización. Se ha introducido la optimiza- ción de Pareto como un criterio valioso para resolver problemas de optimización en los cuales varios objetivos conflictivos a menu- do tienen que ser tomados en cuenta simul- táneamente. Con el propósito de subir la ve- locidad de computación hasta que los pasos de optimización estén involucrados, se apli- can algoritmos genéticos, debido a que estos son meta heurística más popular en cuanto a problemas de agrupamiento y buena can- tidad de conocimiento está disponible. Una metodología de agrupamiento fuzzy ha sido considerada para agrupamiento de datos se- ries de tiempo univariable y multivariable. Chandrakala y Sekhar (2008) proponen un método de agrupamiento basado en densi- dad dentro del espacio de características de núcleo para agrupamiento de datos de serie de tiempo multivarible de longitud variable. Este método puede ser usado para agrupa- miento de cualquier tipo de estructura de da- tos, suministrando un núcleo que puede ma- nipular la clase de datos es usado. Presentan métodos heurísticos para encontrar los valo- res iniciales de los parámetros usados en el algoritmo propuesto. Alonso et ál. (2006, p. 15) proponen una nue- va metodología basada en modelos que crean las observaciones, pero con respecto a la pre- dicción en un tiempo futuro específico. Este procedimiento está basado en la completa predicción de densidades para cada una de las series observadas en la muestra, en lugar de enfocarlas en el punto de pronóstico. Se aplica un procedimiento bootstrap de tamiz suavizado, combinado con estimación de densidades kernel no paramétricas ideado para aproximar la distribución de prediccio- nes. Esto es hecho en un contexto general, sin restricciones a la habitual hipótesis de Gaus- sinidad. Las diferencias entre cada par de densidades bootstrap suministran una ma- triz de disimilitud, que será usada para exa- minar posibles estructuras de agrupamiento. El método propuesto reduce las dimensiones altas del problema de 3D, convirtiendo la es- tructura del cubo de datos de diferentes se- ries de tiempo p, medidos en m individuos sobre T momentos de tiempo, en una o más estructuras 2D de p predicciones, obtenidas para m individuos en un tiempo fijo T+h. La metodología desarrollada consta de tres pa- sos. Paso 1: cálculo de predicciones; paso 2: cálculo de la matriz de disimilitud; paso 3: aplicación de un método clásico de agrupa- miento a la matriz de disimilitud. Guo et ál. (2008) tienen en cuenta que los re- sultados del agrupamiento no pueden re- flejar apropiadamente la similaridad de las series de tiempo, debido a la distorsión del ruido y detalles en las series de tiempo, proponen una nueva metodología basada en la descomposición y eliminación de rui- do wavelet. La aplicación de esta metodo- logía primero realizan una descomposición Wavelet de la serie de tiempo, luego se rea- liza una reducción del ruido wavelet y una reconstrucción Wavelet. Y finalmente, se lle- va a cabo un agrupamiento con el método K-means.
  • 14. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 223 223 Gustavo Cáceres Castellanos, Jorge E. Rodríguez Wang en [46] presenta un nuevo método para agrupamiento multivariado de series de tiempo basado en la estructura global de datos. Una serie de tiempo de una sola va- riable puede ser representada por un vector de longitud fija cuyos componentes son ca- racterísticas estadísticas de la serie de tiem- po, capturando la estructura global. Estos vectores descriptivos, uno para cada com- ponente de la serie de tiempo multivarian- te, son concatenados, antes de ser agrupa- dos usando un algoritmo estándar rápido de agrupamiento, como agrupamiento k-means o jerárquico. Tal extracción de características estadísticas sirve como un procedimiento de reducción de dimensión para series de tiem- po multivariadas. El método propuesto basa- do en estructuras de series de tiempo de una sola variable y métricas estadísticas sumi- nistra un novedoso, y aún simple y flexible forma de agrupar datos de series de tiempo multivariados eficientemente con precisión prometedora. Toshniwal y Joshi (2005, p. 12) proponen una nueva metodología para agrupamiento de datos de series de tiempo basado en agrupa- miento completo de secuencias. En este mé- todo, la extracción de características de los datos de serie de tiempo es hecha usando la tendencia acumulativa ponderada (cumulati- ve weighted slopes). La tendencia acumulativa ponderada puede ser definida como la suma de tendencias ponderadas de la secuencia de tiempo computada sobre una base punto a punto. Los parámetros representan la ten- dencia acumulativa ponderada para varias secuencias de tiempo y son agrupadas den- tro de grupos, y utilizan el método de agru- pamiento K-means para identificar patrones similares. Fujimaki, Hirose y Nakata (2008, p. 12) pre- sentan una análisis teórico de agrupamien- to de subdivisión de series de tiempo (Sub- secuence Time series, STS) desde un punto de vista de análisis de frecuencias e identi- fica unos antecedentes matemáticos sobre los cuales el agrupamiento STS genera pa- trones de onda sinusoidal. También presen- ta una novedosa metodología de análisis teó- rico para descubrimiento de patrones desde datos de series de tiempo. Adicionalmen- te, proponen un algoritmo de agrupamien- to usando una fase de preprocesamiento de ajustes para evitar patrones de onda sinusoi- dal y referirse a estos como agrupamiento fase de ajuste STS (Phase Alignment STS, PA- STS). El PA-STS es un algoritmo basado en análisis teórico, que permite obtener resulta- dos de agrupamiento significativos. Lytkin Kulikowski y Muchnik (2008, p. 33) proponen dos métodos de agrupamiento ba- sados en la teoría del muestreo estadístico: generalización del criterio de Neyman para muestreo estratificado y generalización del método de selección de tipos representati- vos. Dichos algoritmos trabajan sobre datos de n dimensiones. Se realiza un estudio de los algoritmos planteados y el K-means apli- cado a datos con series de tiempo diario. Los resultados experimentales obtenidos sobre series de tiempo de retorno diario del mundo real demostraron la credibilidad de las me- todologías presentadas para la clasificación. La tabla 3 presenta el resumen de los algorit- mos de agrupamiento basado en representa- ciones tratados en este estudio. Discusión A diferencia de lo observado por Liao (2005, p. 18), donde la mayoría de estudios de agru- pamiento de series de tiempo estaban enfo- cados a series de tiempo de una sola varia- ble, en los artículos revisados en el presente estudio se observa un crecimiento significati- vo en cuanto a la cantidad de propuestas que abordan las series de tiempo multivaluada,
  • 15. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 224 224 llegando a corresponder aproximadamente al 65% de las técnicas revisadas. Entre las metodologías estudiadas Debeljak et ál. (2010, p. 6), Wei y Jang (2010, pp. 135- 138), Liao (2007, p. 13), se utilizan DTW para establecer las medidas de similitud, mientras que el 50% de las técnicas evaluadas utilizan la medida de distancia Euclidiana. En los estudios realizados por Lytkin, Ku- likowski, C.A., and Muchnik (2008, p. 33), Horenko (2010, p. 23), Pamminger y Frühwirth-Schnatter (2010, p. 24), Chiu, Hsu y Wang (2010), Otranto (2008, p. 14), desa- rrollan sus propias técnicas para realizar el agrupamiento. Artículo Variable Característica Medida de distancia Algoritmo de agrupamiento Aplicación Yang y Chen (2010, p. 10) Simple Picewise Local Sta- tistics (PLS), Pie- cewise Discrete Wave- let Transfor (PDWT), Polynomial Curve fitting,(PCF) y Dis- crete Fourier Trans- formation (DFT) Euclidiana RPCL Network 16 series de tiem- po de minería de da- tos de prueba Maharaj y D’Urso [36] Multiple Dominio de frecuen- cia, coeficiente cepstral Euclidiana Fuzzy Datos generados y se- rie de tiempo de 200 electroencefalogramas. Lai, Chung y Tseng (2010, p. 8) Múltiple Representación de aproximación agrega- da simbólica (SAX) Euclidiana CAST Datos sintéticos, mercado de accio- nes de Taiwan. Chiu et ál. (2010) Múltiple Propagación de afinidad Agrupamien- to de consenso Expresión génetica Zhou et ál. (2009) [25] Múltiple Vectores Mahalanobis K-means Series de tiem- po financieras Sawidesa et ál. (2008, p. 15) Simple Dominio de espectro, Coeficiente cepstral Distancia cepstral Diana Series de tiem- po biológicas Otranto [43] Múltiple Volatil GRACH Prueba de Wald y mé- tricas auto- regresivas Algoritmo de- sarrollado Índices del mer- cado italiano. Hsu y Chen (2008) Múltiple Espacio Euclidiana SOM Datos financieros Bolsa de Taiwan Bandyo- padhyay et ál. (2010) Múltiple y sencilla Pronosticabilidad, Interpolabilidad Euclidiana Fuzzy Conjunto de da- tos artificiales. Chandraka- la y She- kar (2006) Múltiple Matriz de densida- des o matriz distancia Euclidiana DBSCAN Conjuntos de datos de carácter manuscrito. Tabla 3. Resumen de algoritmos de agrupamiento de series de tiempo basado en representaciones
  • 16. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 225 225 Gustavo Cáceres Castellanos, Jorge E. Rodríguez Solamente el artículo presentado por Band- yopadhyay, Baragona y Maulik (2010) utiliza técnicas de computación evolucionaria como algoritmos genéticos dentro del proceso de agrupamiento de series de tiempo. Entre los trabajos de metodologías basadas en mode- los, Zhao y Deng (2010), Wie y Jiang (2010, pp. 135-138) y Pamminger y Frühwirth-Sch- natter utilizan un método de agrupamien- to basado en HMM. En el caso de metodolo- gías basadas en representaciones Maharaj y D’ruso (2010, p. 25) y Savvides, Promponas y Fokianos (2008, p. 15) realizan el trabajo apli- cado a dominio de frecuencias extrayendo el coeficiente cepstral. Conclusiones (t1) En este artículo, se han examinado algunos de los más recientes estudios sobre agru- pamiento de series de tiempo, desde el año 2006, teniendo en cuenta que Liao (2005, p. 18) desarrolló un estudio de la misma natu- raleza. Estos estudios están organizados en tres categorías principales si trabajan direc- tamente sobre los datos originales, indirec- tamente con modelos construidos desde los datos en bruto, o indirectamente con extrac- ción de características desde los datos en bru- to. Las áreas de aplicación son resumidas con una breve descripción de los datos usados y algunas referencias de su obtención cuando son públicos. Las características y particula- ridades de algunos trabajos son discutidas. Se aprecia que no se puede encontrar un al- goritmo único que se ajuste a todas las series de tiempo que se puedan encontrar y que, en muchos casos, los algoritmos se desarro- llan para un conjunto de datos en particular y considerando las características de estos. Como trabajos futuros, es importante conti- nuar la extensión de algunos algoritmos de agrupamiento de datos estáticos que pre- sentan buen rendimiento y pueden ser una buena alternativa para lograr algoritmos de agrupamiento de series de tiempo que ofrez- can eficiencia y efectividad al determinar los grupos. Adicionalmente, es importante con- siderar el uso de técnicas de computación evolutiva para proponer nuevos algoritmos de agrupamiento de datos de series de tiem- po en los cuales su complejidad computacio- nal ofrezca mejores condiciones que los ac- tualmente existentes. Apéndice. Aplicaciones y datos utilizados En algunos casos, cuando se desarrollan nue- vos métodos no se utilizan datos específicos definidos previamente. Sin embargo, para probar dichos métodos y compararlos con los ya existentes, normalmente los investiga- dores generan datos simulados o se basan en Guo et ál. (2008) Múltiples Wavelet Euclidiana K-means Datos sintéticos se- ries de tiempo de con- trol de flujo SCCTS. Wang (2008) Múltiples Estructura global Euclidiana K-means o je- rárquico Secuencias de mo- vimiento humano. Toshniwal y Joshi (2005, p. 12)[47] Múltiple Tendencias pon- deradas Euclidiana K-means Datos sintéticos y da- tos de ventas al por menor de cadenas de almacenes de los Estados Unidos. Fujimaki et ál. (2008, p. 12) Simple Patrones de onda senosidal Euclidiana K-means o Je- rárquico Datos sintéticos CBF
  • 17. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 226 226 depósitos de datos de series de tiempo de ac- ceso público, como la página UCR time se- ries clasification/clustering [http://www. cs.ucr.edu/~eamonn/time_series_data/]. Para otros casos, las investigaciones están enfocadas en aspectos particulares y utilizan datos específicos del área de interés. Como se aprecia en el siguiente resumen, el agrupa- miento de datos series de tiempo es necesa- rio en aplicaciones ampliamente diferentes. Negocios y socioeconómicos Agrupamiento aplicado al análisis de estilos de administración de fondos de inversión co- mún basado en series de tiempo de retorno diario (Lytkin, Kulikowski y Muchnik, 2008, p. 33). Se hicieron pruebas sobre datos sinté- ticos generados por una distribución Gaus- siana y como datos reales las series de tiempo de retorno diario de dos fondos de inversión común (mayo del 2005 a mayo del 2006). Agrupamiento de series de tiempo no li- neales basado en densidades no paramétri- cas proyectadas (Vilar, Alonso y Vilar, 2010, p. 16). El conjunto de datos sobre el cual se aplicó el algoritmo consta de una colección de series de tiempo que representan el índice de producción industrial mensual mundial para veintiún países, desde enero de 1990 hasta noviembre del 2007. Todos los países considerados son miembros de la Organiza- ción para la Cooperación y Desarrollo Eco- nómico (Organization for Economic Coope- ration and Development, OECD). (http:// stats.oecd.org/index.aspx) Agrupamiento basado en modelos de se- ries de tiempo categóricas (Pamminger y Frühwirth-Schnatter, 2010, p. 24). El algorit- mo se aplicó a los datos de movilidad salarial austriaco, los datos fueron tomados de las ba- ses de datos de la Seguridad Social Austriaca (Austrian Social Security Data Base, ASSD). (http://ideas.repec.org/p/jkun nwps/2009_03.html) Agrupamiento de series de tiempo median- te análisis de comunidad de redes (Piccardi y Calatroni, 2010). Esta técnica se aplicó sobre conjunto de datos de series financieras deri- vadas de los valores de bolsa diarios de las compañías incluidas en el índice promedio industrial Down Jones (Down Jones Industrial Average, DJIA). Un método novedoso de agrupamiento de dos niveles para el análisis de datos de series de tiempo (Lai, C Chung y Tseng, 2010, p. 8). Para evaluar el algoritmo, datos del mundo real del mercado de acciones de Taiwan son probadas. Agrupamiento basado en empotramiento lo- calmente lineal (Locally Linear Embedding, LLE) (Zhou, Li y Ma, 2009). Las pruebas fue- ron realizadas sobre datos de la bolsa de va- lores de Shangai. Agrupamiento de series de tiempo de varia- bles aleatorias (heteroskedatic) mediante pro- cedimientos basados en modelos (Otran- to,2008, p. 14). El procedimiento fue aplicado al sector de índice del mercado italiano. Agrupamiento de datos de series de tiempo mediante SOM para la estimación del índi- ce de equilibrio óptimo (Hsu y Chen, 2008). Se realizan pruebas del algoritmo en datos fi- nancieros de la bolsa de Taiwan. Agrupamiento difuso de series de tiem- po univariable y multivariable, mediante la optimización genética multiobjetivo (Band- yopadhyay, Baragona y Maulik, 2010). Las pruebas del algoritmo se realizaron utilizan- do datos sintéticos y como datos reales, los índices mensuales de la producción indus- trial en Italia.
  • 18. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 227 227 Gustavo Cáceres Castellanos, Jorge E. Rodríguez Agrupamiento de datos de series de tiempo usando inclinaciones acumulativas pondera- das (Toshniwal y Joshi, 2005, p. 12). Los da- tos reales utilizados para aplicar el algoritmo representan el conjunto de datos de ventas al por menor de cadenas de almacenes de los Estados Unidos. Ingeniería Agrupamiento de series de tiempo multiva- riado (vector) (Liao, 2007, p. 13). Se aplica en cuatro conjuntos de datos. El primero es un conjunto de datos sintéticos de series de tiempo de valor real generado por el procedi- miento varmasin de SAS. El segundo conjun- to de datos es el conformado por las señales de fuerza de tres componentes en un esme- ril. El tercer conjunto de datos está confor- mado por señales basadas por multi sensores en un esmeril. Y por último, un conjunto de datos de series de tiempo multivariados que consta de una muestra del lenguaje de se- ñas autraliano (Australia Sign Language, Aus- lan). (http://kdd.ics.uci.edu/summary.data. type.html) Agrupamiento para las series de tiempo del flujo de tráfico (Yin, Zhou y Xie, 2006). Los datos utilizados fueron tomados de datos reales de tráfico del sistema de administra- ción de tráfico en el estado de Washington en los Estados Unidos. http://www.wsdot. wa.gov/traffic/seattle/products/webflow. htm Agrupamiento para subdivisiones de se- ries de tiempo (subsequence time series, STS) mejorado (Chen, 2007). Para validar la metodología se utilizaron doce conjuntos de datos sintéticos y de la vida real toma- dos de: (http://www.cs.ucr.edu/~eamonn/ time_series_data/) Agrupamiento K-means de series de tiempo basado en el modelo oculto de Markov (Wei y Jiang, 2010, pp. 135-138). Para probar el al- goritmo propuesto se utilizó un conjunto de datos artificiales generados desde dos mode- los ocultos de Markov. Agrupamiento de series de tiempo por me- dio de ensamble de redes RPCL con diferen- tes representaciones(Yang y Chen, 2010, p. 10). Los experimentos y los resultados de si- mulación de esta técnica se realizaron sobre una colección de conjuntos de datos de prue- ba estándar para minería de datos ya men- cionado anteriormente. (http://www.cs.ucr. edu/~eamonn/time_series_data/) Identificación automática basada en agru- pamiento de modelos de inferencia difusos para series de tiempo (Montesino-Pouzols y Barriga-Barros, 2010, p. 13). Los análisis fue- ron realizados sobre cinco diversos conjun- tos de datos: 1) conjunto de datos de mues- tras semanales de temperatura del fenómeno de oscilación sureño del niño; 2) serie del nú- mero de promedio de mancha solar men- sual desde enero de 1749 hasta diciembre del 2009, suministrado por el Centro de Datos Geográfico Nacional de los Estados Unidos; 3) serie de tiempo que representa la deman- da de electricidad diaria promedio normali- zada en Polonia en la década de los noven- ta; 4) series de tiempo multidimensionales del promedio mensual de descriptores quí- micos diferentes de cierta área del mar Bálti- co; 5) series de tiempo univariable de la can- tidad promedio diaria del tráfico en una red de datos. Agrupamiento de series de tiempo basado en descomposición y reducción de ruido Wave- let (Guo et ál., 2008). Datos de cartas de con- trol generados sintéticamente. (http://kdd. ics.uci.edu/databases/synthetic_control/ synthetic_control.html) Agrupamiento de subdivisión de series de tiempo desde un punto de vista de análisis
  • 19. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 228 228 de frecuencia (Fujimaki, Hirose y Nakata, 2008, p. 12). Ciencia Agrupamiento en series de tiempo de ex- presión genética basado en representaciones continuas y medida de similaridad basada en energía (Zhang, Liu y Yan, 2010). Se utilizó un conjunto de datos de la proteína de con- trol de división celular cdc15. (http://www. wikigenes.org/e/gene/e/2541975.html) Agrupamiento de series de tiempo de expre- sión genética (Qu, Ng y Chen, 2010), plicado a diversos datos artificiales. Primero se ge- neró un conjunto de datos sintéticos que in- cluían tres valores constantes bicluster y lue- go para medir la eficiencia computacional generaron un gran conjunto de datos de ex- presión genética con 10.000 genes y 100 pun- tos de tiempo. Agrupamiento adaptativo para series de tiempo aplicado para identificar el ciclo celu- lar expresado en genes (Douzal-Chouakria, Diallo y Giroud, 2009, p. 13). Utilizaron un conjunto de datos de acceso público de- nominado datos transcriptómicos de la lí- nea celular del cáncer cervical humano HeLa. (http://genome-www.stanford.edu/ Human-CellCycle/Hela/). Agrupamiento jerárquico basado en HMM para analizar datos de series de tiempo de expresión genética (Zhao y Deng, 2010). Uti- lizan dos conjuntos de datos de series de tiempo de expresión genética ampliamen- te utilizados para validar agrupamientos: ciclo celular del hongo y respuesta del fi- broblasto humano al suero. (http://geno- me-www.stanford.edu/cellcycle/data/raw- data/ y http://genome-www.stanford.edu/ serum/). Agrupamiento en consenso basado en propa- gación de afinidad (AP) (Chiu, Hsu y Wang, 2010). Para la prueba de estos datos, además de utilizar datos sintéticos, se utilizaron da- tos reales conformados por un conjunto de datos de expresión genética del hongo de ga- lactosa y ciclo celular del honho. Análisis de datos de series de tiempo sobre vegetación de agroecología utilizando árboles predicti- vos de agrupamiento (Debeljak et ál., 2010, p. 6). El conjunto de datos utilizado consta de las parejas de series de tiempo del porcenta- je cubierto de cultivos y maleza de 128 sitios experimentales del Reino Unido. Agrupamiento de series de tiempo me- teorológicas no estacionarias [18]. Se utili- zan datos históricos de temperatura multi- dimensionales de Europa y un conjunto de datos de temperatura global.Agrupamien- to de series de tiempo basada en pronósti- co de densidades(Alonso et ál., 2006, p. 15). Los datos utilizados para probar el algoritmo fueron datos relacionados con la emisión de CO2 en países industrializados. Agrupamiento de series de tiempo biológi- cas mediante distancia basada en coeficien- te cepstral (Savvides, Promponas y Fokianos, 2008, p. 15). Esta metodología fue aplicada para clasificar secuencias de aminoácidos. Agrupamiento de series de tiempo multiva- riable basado en estructuras (Wang, 2008). Se aplicó esta técnica a secuencias de movi- miento humano. Medicina Agrupamiento basado en interacción de se- ries de tiempo multi variable (Plant, Wohls- chläger y Zherdin, 2009). Para probar este método se generaron un conjunto de datos sintéticos con seiscientos objetos y trece di- mensiones. Adicionalmente, se utilizaron
  • 20. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 229 229 Gustavo Cáceres Castellanos, Jorge E. Rodríguez veintiséis imágenes funcionales de resonan- cia magnética. Agrupamiento difuso de series de tiempo en el domino de frecuencia (Maharaj y D’urso, 2010, p. 25). Para aplicar esta metodología desarrollada se utilizó una serie de tiempo de 200 electroencefalogramas (EEG), la cual está dividida en dos conjuntos denotados por A y E, cada uno contiene 100 EEG de 23,6 s de duración (4096 observaciones): el con- junto A EEG tiene registros de voluntarios saludables mientras que el conjunto E regis- tra pacientes de epilepsia durante la activi- dad de ataque epiléptico. Arte y entretenimiento Agrupamiento para videos basado en trans- formadas Wavelet de series de tiempo de tra- yectoria de movimiento de objetos en mo- vimiento en video (Luo, Liao y Zhan, 2010). Los datos utilizados en el estudio son videos jugando baloncesto. Un método basado en densidades para agru- pamiento de series de tiempo en kernel feature space (Chandrakala y Sekhar, 2008). Se utili- zaron dos conjuntos diferentes de datos ca- racteres manuscritos en línea: el conjunto de datos 1 contiene tres caracteres en escritura de lenguaje indio, telugu; el conjunto de da- tos 2 contiene los datos de tres caracteres en ingles. Referencias Alonso, A.M., et al. (2006). Time series cluste- ring based on forecast densities. Scien- ceDirect, 15. Bandyopadhyay, S., Baragona, R. y Maulik, M. (2010). Fuzzy clustering of univaria- te and multivariate time series by gene- tic multiobjective optimization. Comisef Working Papers Series. Computational Optimization Methods in Statistics, Econometrics and Finance. Chandrakala, S. and Sekhar, C.C. (2008). A density based method for multivaria- te time series clustering in kernel featu- re space. International Joint Conference on Neural Networks, 6. Chen, J.R. (2007). Useful clustering outcomes from meaningful time series clustering. En Proc. 6th Australasian Data Mining Conference (AusDM’07). Gold Coast (Australia). Chiu, T.Y., Hsu, T.C. y Wang, J.S. (2010). Ap- based consensus clustering for gene expression time series. En 20th IAPR International Conference on Pattern Recognition. Istanbul, Turkey, IEEE, 2512-2515. Cowpertwait, P.S.P. y Metcalfe, A.V. (2009). Introductory time series with r. New York, NY: Springer. Debeljak, M. et ál. (2010). Analysis of time se- ries data on agroecosystem vegetation using predictive clustering trees. Ecolo- gicall Modeling, Volume 222, Issue 14 6. Ding, H. et ál. (2008) Querying and mining of time series data: Experimental com- parison of representations and distan- ce measures. En Proceedings of the VLDB Endowment. Auckland, New Zealanda: ACM. Douzal-Chouakria, A., Diallo, A. y Giroud, F. (2009). Adaptive clustering for time se- ries: Application for identifying cell cy- cle expressed genes. Computational Sta- tistics and Data Analysis, 53, 13. Fujimaki, R., Hirose, S. y Nakata, T. (2008). Theoretical analysis of subsequence time- series clustering from a frequency-analy- sis viewpoint. Society fro Industrial and Applied Mathematics, SIAM. Guo, C., Jia, H. y Zhang, N. (2008). Time se- ries clustering based on ica for stock data analysis. en Proceedings of the fourth international conference wire-
  • 21. A T A g r u p a m i e n t o d e d a t o s d e s e r i e s d e t i e m p o REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 230 230 less communications, networking and mobile computing, WiCOM ‘08. IEEE, 4 Guo, H. et ál. (2008). An application on time series clustering based on wavelet de- composition and denoising. En Four- th International Conference on Natural Computation. Jinan, Shandong, China: IEEE, 4. Horenko, I. (2010). On clustering of non-sta- tionary meteorological time series. Dy- namics of Atmospheres and Oceans, 49 (2- 3), 23. Hsu, Y.C. y Chen, A.P. (2008). Clustering time series data by som for the optimal hed- ge ratio estimation. En Third 2008 In- ternational Conference on Convergen- ce and Hybrid Information Technology. Daejeon, (Korea): IEEE, 6 Kavitha, V. y Punithavalli, M. (2010). Cluste- ring time series data stream a literature survey. International Journal of Computer Science and Information Security, 8 (1), 6. Keogh, E. y Kasetty, S. (2002). On the need for time series data mining bench- marks: Asurvey and empirical Knowl. Data Discov, 6, 102-111. Kitagawa, G. (2010). Introduction to time se- ries modeling. Monographs on satatistics and applied probability. Boca Raton, (FL): Chapman & Hall/CRC. Kuenzel, L. (2010). Gene clustering methods for time series microarray data. Lai, C.P., Chung, P.C. y Tseng, V.S. (2010). A novel two-level clustering method for time series data analysis. Expert Systems with Applications, 37, 8. Liao, T.W. (2007). A clustering procedure for exploratory mining of vector time se- ries. Pattern Recognition, 40, 13. Liao, T.W. (2005). Clustering of time series data a survey. The Journal of the pattern Recognition Society, 38, 18. Luo, Y., Liao, M. y Zhan, Z. A similarity analysis and clustering algorithm for video based on moving trajectory time series wavelet transform of moving ob- ject in video. En 2nd International Con- ference on Image Analysis and Signals Processing, IASP 2010. XiaMen, (Chi- na): IEEE, 5 Lytkin, N.I., Kulikowski, C.A. y Muchnik, I.B. (2008). Variance-based criteria for cluste- ring and their application to the analysis of management styles of mutual funds based on time series of daily returns. New Jersey (USA): New Brunswick. Maharaj, E.A. y D’urso, P. (2010). Fuzzy clus- tering of time series in the frequency domain. Information Sciences, 25. Montesino-Pouzols, F. y Barriga-Barros, A. (2010). Automatic clustering-based identification of autoregressive fuzzy inference models for time series. Neuro- computing, 73, 13. Olier, I. y Vellido, A. (2008). Advances in clus- tering and visualization of time series using gtm through time. Neural Networ- ks, 21, 10. Otranto, E. (2008). Clustering heteroskedas- tic time series by model-based proce- dures. Computational Statistics & Data Analysis, 52, 14. Palit, A.K. y Popovic, D. (2005). Computatio- nal intelligence in time series forecas- ting: Theory and engineering applica- tions. En M.J. Grimble y M.A. Johnson (ed.). Advances in industrial control (381). Glasgw (Scotland, UK): Springer. Pamminger, C. y Frühwirth-Schnatter, S. (2010). Model-based clustering of cate- gorical time series. Bayesian Analysis articulo. Papanastassiou, D. Classification and cluste- ring of garch time series. En XIII Inter- national Conference Applied Stochas- tic Models and Data Analysis ASMDA 2009. 2009. Vilnius, Lithuania. 5 Piccardi, C. y Calatroni, L. Clustering time series by network community analysis.
  • 22. L O S E N E R O - J U N I O D E 2 0 1 1 V O L U M E N 8 N Ú M E R O 1 U C N Í V REVISTA VINCULOS Vol 8 • Número 1 • ENERO - JUNIO 2011 231 231 Gustavo Cáceres Castellanos, Jorge E. Rodríguez En COMPENG 2010 Complexity in Enginee- ring. Roma (Italy): IEEE, 94-96. Plant, C., Wohlschläger, A.M. y Zherdin, A. (2009). Interaction-based clustering of multivariate time series. En Ninth In- ternational Conference on Data Mining. Venice, (Italy): IEEE, 914-919. Pylvänen, M., Äyrämö, S. y Kärkkäinen, T. (2009). Visualizing time series state chan- ges with prototype based clustering. Qu, J., Ng, M. y Chen, L. (2010). Constrai- ned subspace clustering for time series gene expresion data. En The Fourth In- ternational Conference on Computatio- nal Systems Biology (ISB2010). Suzhou, (China): ORSC & APORC, 323-330. Savvides, A., Promponas, V.J. y Fokianos, K. (2008) Clustering of biological time se- ries by cepstral coefficients based dis- tances. Pattern Recognition, 41, 15. Toshniwal, D. y Joshi, R.C. (2005). Using cu- mulative weighted slopes for cluste- ring time series data. GESTS Int’l Trans. Computer Science and Engr, 20, 12. Tsiporkova, E. y Boeva, V. (2008). A novel ge- ne-centric clustering algorithm for stan- dardization of time series expression data. En 4th International IEEE Con- ference “Intelligent Systems”. Varna, (Bulgaria): IEEE. Vilar, J.A., Alonso, A.M. y Vilar, J.M. (2010). Non-linear time series clustering based on non-parametric forecast densities. Computational Statistics & Data Analysis, 2010, 54, 16. Vilar, J.A., Alonso, A.M. y Vilar, J.M. (2010). Non-linear time series clustering based on non-parametric forecast densities. Computational Statistics & Data Analysis, 54, 2850-2865. Wang, X. (2008). Structure-based multivaria- te time series clustering. En Computer Science Colloquium. Hong Kong, China. Wei, L.L. y Jiang, J.Q. (2010). A hidden markov model-based k-means time se- ries clustering algorithm. In Internatio- nal Conference on Information Systems (ICIS) 2010 (135-138). Saint Louis, Mis- souri, (USA): IEEE. Wei, W.W.S. (2006). Time Series Analysis:Univariate and Multivariate Me- thods (2a ed.). New York (NY, USA): Pearson Education, Inc. Yang, Y. y Chen, K. (2010). Time series cluste- ring via RPCL network ensemble with different representations. IEEE Transac- tions on Systems, Man, and Cybernetics- part C: Applications and Reviews, 10. Yin, J., Zhou, D. y Xie, Q.Q. (2006). A cluste- ring algorithm for time series data. En Proceedings of the Seventh Internatio- nal Conference on Parallel and Distri- buted Computing, Applications and Te- chnologies (PDCAT’06). IEEE, 4. Zhang, W.F., Liu, C.C. y Yan, H. (2010). Gene time series data clustering based on continuos representations and an ener- gy based similarity measure. En Pro- ceedings of the Ninth International Conference on Machine Learning and Cybernetics. Qingdao, Shandong (Chi- na): IEEE. 2079-2083. Zhao, G. y Deng, W. (2010). An hmm-ba- sed hierarchical clustering method for gene expression time series data. En The Fifth International Conference on Bio-Inspired Computing: Theories and Applications (BIC-TA 2010). Liverpool (United Kingdom): IEEE, 219-222. Zhou, D., Li, J. y Ma, W. (2009). Clustering based on lle for financial multivariate time series. En International Conferen- ce on Management and Service Scien- ce (MASS 2009). Wuhan/Beijing (Chi- na): IEEE, 4.
  • 23. REVISTA VÍNCULOS ISSN 1794-211X Dirección: Transversal 70B No. 73A-35 sur, Candelaria la Nueva, teléfono: 731 15 39 e-mail: revistavinculos@udistrital.edu.co Vínculos: Revista Institucional de las ca- rreras Sistematización de Datos e Ingenie- ría en Telemática, con periodicidad semes- tral, editada por la Facultad Tecnológica de la Universidad Distrital Francisco José Caldas. Propende por la construcción, publicación y socializa- ción del conocimiento tecnológico y científi- co entre investigadores, académicos, docen- tes y estudiantes. Los siguientes son los requerimientos del comité editorial para la publicación de artículos. 1. Secciones de la revista La revista contará con tres secciones que pre- tenden clasificar y agrupar los artículos se- gún su temática. • I+D (Investigación y Desarrollo): apa- recerán todos los artículos producto de ivestigaciones que presenten resultados- parciales o totales de las mismas. • Actualidad Tecnológica: es fundamental que la temática planteada trate sobre te- mas y tecnologías de punta en el área de- los sistemas y las redes de computadores o en la ingeniería en general. Es funda- mental que el tratamiento de dichos te- mas sea crítico y presente aportes signi- ficativos que coadyuven a la construcción del conocimiento. • Entorno Social: en esta sección se publica- rán artículos de las diferentes áreas de co- nocimiento que no están enfocadas espe- cíficamente a los sistemas y a las redes de computadoras; es el caso de las ciencias básicas y las ciencias humanas. Los artícu- los deben analizar y reflejar la incidencia endógena y exógena en aspectos tecnoló- gicos, científicos e ingenieriles logrados por la Universidad con su entorno. 2. Tipos de documentos aceptados Considerando los actuales requisitos de Col- ciencias para la indexación de las revistas en el Índice Nacional de Publicaciones Científi- cas y Tecnológicas, podrán postularse los ar- tículos inéditos de los siguientes tipos • Artículos de investigación científica y tec- nológica: documento que presenta, de manera detallada, los resultados origina- les de proyectos de investigación. La es- tructura generalmente utilizada contiene cuatro partes importantes: introducción, metodología, resultados y conclusiones. • Artículos de reflexión: documento que presenta resultados de investigación des- de una perspectiva analítica, interpretati- va o crítica del autor, sobre un tema espe- cífico, recurriendo a fuentes originales. • Artículo de revisión: es el resultado de una investigación donde se analizan, sis- tematizan e integran los resultados de las investigaciones publicadas o no publica- das, sobre un campo en ciencia o tecnolo- gía, con el fin de dar cuenta de los avan- ces y las tendencias de desarrollo. Se caracteriza por presentar una cuidadosa revisión bibliográfica de por lo menos 50 referencias. Con el propósito de alimentar la sección de “Reseñas”, también este tipo de escritos son aceptados, siempre y cuando se relacionen con libros de actualidad. En este caso los tex- tos deben tener una extensión de dos a tres páginas, y acompañarse de la carátula esca- neada del libro reseñado.
  • 24. Los artículos que se tienen en cuenta para la indexación de una revista en categoría C son los anteriormente expuestos; adicionalmen- te, están tipificados los siguientes: • Artículo corto: documento breve que pre- senta resultados originales preliminares o parciales de una investigación científica o tecnológica, que por lo general requiere de una pronta difusión. • Reporte de caso: documento que presenta los resultados de un estudio sobre una si- tuación particular con el fin de dar a cono- cer las experiencias técnicas y metodoló- gicas consideradas en un caso específico. Incluye una revisión sistemática comentada de la literatura sobre casos análogos. • Revisión de tema: documento resultado- de la revisión crítica de la literatura sobre un tema particular. • Cartas al editor: posiciones críticas, analí- ticas o interpretativas sobre los documen- tos publicados en la revista, que a juicio del comité editorial constituyen un apor- te importante a la discusión del tema por la comunidad científica de referencia. • Editorial: documento escrito por el editor, un miembro del comité editorial o un in- vestigador invitado sobre orientaciones en el dominio temático de la revista. • Traducciones: traducciones de textos clá- sicos o de actualidad o transcripciones de documentos históricos o de interés parti- cular en el dominio de publicación de la revista. 3. Algunos aspectos de forma de los artículos Se hace necesario que los artículos sean escri- tos para una audiencia internacional, evitan- do la centralización excesiva en experiencias estrictamente locales o particulares. Deben emplearse estructuras de oraciones simples, evitando las demasiado largas o complejas. El vocabulario empleado debe ser básico y común. Los términos técnicos deben expli- carse brevemente; así mismo, el significado de las siglas debe presentarse la primera vez que aparecen en el texto. Los autores son responsables de que su tra- bajo sea conducido de una manera profesio- nal y ética. De la extensión de los documentos Los artículos postulados deben tener una ex- tensión mínima de 10 páginas a doble espa- cio y máxima de 20. Del formato de presentación Los documentos deben ser entregados en medio impreso y medio magnético, tamaño carta, elaborados en Word 97 para Windows o versiones superiores. El documento debe realizarse en tipo de le- tra Times New Roman con un tamaño de 12 puntos, a doble espacio, una columna y to- das las márgenes de 2 cm. El título del artículo deberá ser corto o di- vidido en título y subtítulo, atractivo para el lector potencial y escrito en mayúscula sostenida. Después de él deberá escribirse el (los) nombre(s) completo(s) del (los) autor(es), acompañado de los datos biográficos bási- cos a pie de página (profesión y universi- dad de la cual es egresado, títulos de posgra- do, lugar de trabajo) y de la(s) dirección(es) electrónica(s). Todas las figuras y tablas deben realizarse en tinta negra, ser incluidas en el medio magné-
  • 25. tico, numerarse y titularse de manera clara. Además, deben localizarse en el lugar más cercano a donde son citadas. Cuando se trate de figuras deberá garantizarse su buena re- solución en cualquier tipo de papel; para el caso de realización de tablas, se recomienda que no sean insertadas como imágenes, con- siderando que en este formato no pueden ser modificadas. Cuando los artículos incluyen ecuaciones, deben ser elaboradas en un editor de ecua- ciones apropiado y compatible con el paque- te de software “Page Maker”, por ejemplo el editor de ecuaciones de Windows. De la estructura del documento Para la presentación del contenido se reco- mienda la utilización de varios subtítulos, ini- ciando con uno de introducción y finalizando con otro de conclusiones. El texto del artículo debe acompañarse de un resumen de máxi- mo 150 palabras traducido al inglés, cuatro palabras claves en español y cuatro en inglés. Las notas de pie de página deben ser sola- mente de carácter aclaratorio. Por ejemplo: 1 Se espera que la promulgación de estas carac- terísticas genere debate y discusión en los dife- rentes círculos docentes. La utilización de referentes bibliográficos en el texto del artículo deberá realizarse nu- merándolas entre paréntesis angulares e in- cluyendo el número de página cuando sea necesario. Por ejemplo: Estudios recientes demuestran que los aportes de la psicología conductiva han sido seriamente cuestionados por expertos en el tema [1, p. 85]. Las referencias bibliográficas completas solo deberán ser incluidas al final del artículo y deben comprender únicamente la literatu- ra específica sobre el tema. Se presentan a continuación los siguientes ejemplos (Lazcano, 1994): - Libro con un autor: Browne, D. R. La experiencia de seis nacio- nes industrializadas. Prensa de la Universi- dad del Estado de Iowa. Ames, Iowa. 1989. - Libro con dos autores: Siune, K., Truetzschler, W. Dinámica de las políticas de los media: el difundir y media electrónicos en Europa occidental. Publica- ciones Sabias. Parque de Newbury, Ca. 1992. - Autor corporativo de un libro: Grupo de Investigación de Euromedia. Los media en Europa occidental: el manual de Euromedia (1993, reimpresión). Publicacio- nes Sabias. Parque de Newbury, Ca. 1992. - Artículo de diario con un autor: Wishnevsky, J. Lejos de libre. Informe 2 (20). De la investigación de Rfe/rl. Mayo de 1993, pp. 86-91. - Un documento en un sitio web: Rosenbaum, J. (1990, noviembre). ¿Dis- cutible o acogedor?: Radio de la comuni- dad y del condado en la república de Irlan- da. Papel presentado al Roy H. Park School del coloquio de la facultad de las comu- nicaciones, Universidad de Ithaca, Ithaca, NY. Extraído de: http://www.ithaca.edu/ johnrosenbaum. Las referencias bibliográficas deben ordenar- se numéricamente, según el orden en que se citan en el texto.
  • 26. 4. Procedimiento de selección Considerando la periodicidad semestral de la revista, el Comité Editorial realiza dos con- vocatorias anuales para la recepción de artí- culos, en marzo y septiembre de cada año. Los artículos serán recibidos hasta la fecha máxima establecida semestralmente, siem- pre y cuando cumplan con todos los elemen- tos de la lista de verificación que se presenta en el anexo. Luego de su recepción, los textos recibidos serán sometidos a la evaluación de dos pares académicos; paulatinamente se espera incor- porar al proceso un mayor número de pares externos que participen en el proceso. Una vez recibidos los conceptos emitidos por los pares, el Comité Editorial toma las deci- siones acerca de la prioridad de publicación de los artículos, considerando la alimenta- ción adecuada de las diferentes secciones de la revista, el espacio total disponible y la ex- tensión de cada artículo aceptado. En algu- nos casos el Comité podrá aceptar el artículo con algunas modificaciones, o podrá suge- rir una forma diferente de presentación u or- ganización. En todos los casos las decisiones son notificadas en forma escrita, a manera de retroalimentación para los autores de los escrit
  • 27. EDITORIAL INVESTIGACIÓN Y DESARROLLO ENTORNO SOCIAL 2011 8 1 2 0 1 1 8 Facultad Tecnológica Compresión de datos utilizando la teoría de teselas Implementación de transacciones distribuidas usando agentes inteligentes Ambiente de experimentación remota de robótica móvil Aplicación voip para dispositivos moviles sobre redes wifi privadas Servicios web soa utilizando agentes inteligentes para la integracion de aplicaciones y servicios de las instituciones de educacion superior Sistema multiagente educativo (sme) para la población con discapacidad cognitiva Herramienta software para la implementación de algoritmos basados en técnicas metaheurísticas, orientados a optimizar el establecimiento de rutas para el flujo de información en comunicaciones Integración de búsquedas de texto completo en bases de datos nosql Prototipo servicio observacion y planificacion informacion geosensores ambiente grid tunja Docencia asistencial en boavita boyacá como un caso exitoso de implementación de tics en educación Aplicación de técnicas de minería de datos en la construcción de un inventario de maguey papalote, en el estado de guerrero Sistema de monitoreo inteligente como ayuda en niños con síndrome de down para la interpretación de caracteres numéricos y alfabéticos Técnica, tecnología y ciencia: algunos lineamientos generales Ponencia A T El conectivismo al servicio de sus predecesoras teorías del aprendizaje. Una herramienta para docentes por medio de tecnologías de la información y la comunicación (tic). Desarrollo de software para la empresa 2.0 Interoperabilidad entre lenguajes de programación Desarrollo rápido de aplicaciones y puesta a punto Proceso evolutivo de los agentes inteligentes E I + D E S Computación e inteligencia artificial Autores invitados Universidad Autónoma de Guerrero México Universidad Distrital Francisco José de Caldas Colombia