Análisis Cluster basado en la técnica de vecinos cercanos

T´ecnicas de agrupamiento
basadas en vecinos compartidos
Alejandro Alonso Capel
Aspectos avanzados en Miner´ıa de datos
10 de febrero de 2015
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 1 / 14

´Indice
1 SNN Clustering Approach

´Indice
2 Agglomerative Clustering using KNN Graphs

´Indice
3 SNN facing traditional measures

´Indice
3 SNN facing traditional measures
4 Algorithm comparisons

SNN Clustering Approach
Introducción:
En datasets pequeños es
posible emplear, no siempre con
éxito, técnicas básicas, tales
como k-medias, DBSCAN,
CURE, Chameleon, etc.
En datasets cada vez de mayor
tamaño resultan ineficientes
estas técnicas. Aspectos como
la similaridad y la densidad de
instancias se ven afectadas.
Este problema conlleva a plantear nuevas metas y desaf´ıos: SNN clustering.

El algoritmo ha de construirse en base a la redefinición de dos conceptos
básicos:
Similaridad SNN: Concebida en términos de “vecinos más cercanos
compartidos” entre dos instancias.
similarity(p,q) = size(NN(p)∩NN(q))
Densidad SNN: Se define como el número de instancias dentro de
un radio dado en términos de similaridad SNN. Si el k-ésimo vecino
más cercano de una instancia tiene una alta similaridad, entonces
existe una gran densidad en dicha instancia.

El algoritmo de agrupamiento SNN consta de los siguientes pasos:
1 Obtener la matriz de distancias (Matriz SNN)
2 Fragmentar dicha matriz manteniendo únicamente los k vecinos más similares
3 Construir el gráfico de vecinos cercanos compartidos procedentes del anterior
paso
4 Averiguar la densidad SNN de cada punto
La densidad SNN se define como el número de puntos que tienen una similaridad SNN
de Eps o más
5 Encontrar los puntos núcleo
Todos los puntos que tienen una densidad SNN mayor que MinPts
6 A partir de los anteriores, formar clusters
7 Eliminar todos los puntos “ruido”
Todos los puntos que no son núcleo y que no están dentro de un radio Eps de un punto
núcleo son descartados
8 Asignar a todos las instancias restantes a su cluster correspondiente

Agglomerative Clustering using KNN Graphs
La técnica basada en cluster aglomerativo es bastante usada. Su
principal desventaja es su complejidad (O(N3)). Existen diversas
mejoras, entre ellas las basadas en métodos gráficos.
Se usa el gráfico como mero elemento de búsqueda, con el objetivo de
reducir el número de distancias a calcular.
Surgen dos desaf´ıos: cómo construir el gráfico y cómo utilizarlo.

En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de
ejecuci´on de otro llamado Fast Exact PNN.
1. Algoritmo Simple

2. Algoritmo de doble enlace (DLA)

El gráfico de vecinos se puede crear:
Por fuerza bruta, es decir, calculando las distancias entre cada par de
nodos
Con técnicas como K-d tree, divide y vencerás y búsqueda basada en
proyecciones

SNN facing traditional measures
En este último art´ıculo, se presta atención al mismo hecho que el primero,
pero su trabajo se diferencia de este en que demuestra por qué una medida
secundaria como SNN puede mejorar el rendimiento que las medidas
primarias o clásicas, por medio de datasets artificiales y reales.
PRIMARY SIMILARITY MEASURES
Distancia Coseno
Distancia Eucl´ıdea
Distancia de Manhattan
Otras
SECONDARY SIMILARITY MEASURE
Shared Nearest-Neighbor (SNN)

También se menciona un fenómeno interesante de contemplar en estas
situaciones: “la maldición de la dimensionalidad (The Curse of
Dimensionality)”, en el que se comenta las limitaciones que se presentan
cuando se aborda un problema de agrupamiento de datos en dimensiones
grandes, tales como:
Discriminación pobre de distancias:
Pérdida de utilidad de medidas de similitud o proximidad
Presencia de atributos no importantes:
Pueden entorpecer el rendimiento del agrupamiento
Presencia de atributos redundantes:
La presencia de correlaciones o redundancias puede dificultar también
el buen rendimiento de cualquier algoritmo bajo dimensiones grandes

Para la evaluaci´on experimental se crearon datasets artiﬁciales
distinguiendo el grado de relevancia de los atributos incluidos, as´ı como
reales.

Conclusiones:
Atributos relevantes VS atributos irrelevantes
La calidad del ranking puede estar determinada por el n´umero de atributos relevantes en el
conjunto de datos
Mejora de la calidad de ranking
Emp´ıricamente se demuestra que hacer uso de la medida secundaria SNN estimula la calidad
del ranking
Estabilidad de SNN
Hacer uso de medidas de distancia secundarias estabiliza el rendimiento de la b´usqueda de
similaridad y sus aplicaciones en MD

Algorithm comparisons
ALGORITMO COMPLEJIDAD
SNN Clustering O(n2)*
Simple Algorithm O(kN2)
Double Linked Algorithm O(τNlogN)**
*Solo en el caso de tener que calcular la matriz de distancias.
**τ denota el número de actualizaciones de vecinos cercanos requeridas en cada iteración.
Bibliograf´ıa:
Levent Ertöz, Michael Steinbach, and Vipin Kumar. 2003. Finding clusters of diferent
sizes, shapes, and densities in noisy, high dimensional data. SIAM international
conference on data mining (SDM’2003), pp 47-58.
Pasi Franti, Olli Virmajoki, and Ville Hautamaki. 2006. Fast Agglomerative Clustering
Using a k-Nearest Neighbor Graph. IEEE Transactions on Pattern Analysis and Machine
Intelligence 28, 11 (November 2006), 1875-1881. DOI 10.1109/TPAMI.
Michael E. Houle, Hans-Peter Kriegel, Peer Kroger, Erich Schubert, and Arthur Zimek.
2010. Can shared-neighbor distances defeat the curse of dimensionality?. In Proceedings
of the 22nd international conference on Scientific and Statistical Database Management
(SSDBM’10), Michael Gertz and Bertram Ludäscher (Eds.). LNCS 6187, pp. 482-500.
2006.227

Análisis Cluster basado en la técnica de vecinos cercanos

Recomendados

Recomendados

Más contenido relacionado

Similar a Análisis Cluster basado en la técnica de vecinos cercanos

Similar a Análisis Cluster basado en la técnica de vecinos cercanos (13)

Último

Último (20)

Análisis Cluster basado en la técnica de vecinos cercanos