T´ecnicas de agrupamiento
basadas en vecinos compartidos
Alejandro Alonso Capel
Aspectos avanzados en Miner´ıa de datos
10...
´Indice
1 SNN Clustering Approach
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
´Indice
1 SNN Clustering Approach
2 Agglomerative Clustering using KNN Graphs
Aspectos avanzados en Miner´ıa de datos Alej...
´Indice
1 SNN Clustering Approach
2 Agglomerative Clustering using KNN Graphs
3 SNN facing traditional measures
Aspectos a...
´Indice
1 SNN Clustering Approach
2 Agglomerative Clustering using KNN Graphs
3 SNN facing traditional measures
4 Algorith...
SNN Clustering Approach
Introducci´on:
En datasets peque˜nos es
posible emplear, no siempre con
´exito, t´ecnicas b´asicas...
SNN Clustering Approach
El algoritmo ha de construirse en base a la redefinici´on de dos conceptos
b´asicos:
Similaridad SN...
SNN Clustering Approach
El algoritmo de agrupamiento SNN consta de los siguientes pasos:
1 Obtener la matriz de distancias...
Agglomerative Clustering using KNN Graphs
La t´ecnica basada en cluster aglomerativo es bastante usada. Su
principal desve...
Agglomerative Clustering using KNN Graphs
En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de
ejecuci...
Agglomerative Clustering using KNN Graphs
En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de
ejecuci...
Agglomerative Clustering using KNN Graphs
En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de
ejecuci...
SNN facing traditional measures
En este ´ultimo art´ıculo, se presta atenci´on al mismo hecho que el primero,
pero su trab...
SNN facing traditional measures
Tambi´en se menciona un fen´omeno interesante de contemplar en estas
situaciones: “la mald...
SNN facing traditional measures
Para la evaluaci´on experimental se crearon datasets artificiales
distinguiendo el grado de...
SNN facing traditional measures
Conclusiones:
Atributos relevantes VS atributos irrelevantes
La calidad del ranking puede ...
Algorithm comparisons
ALGORITMO COMPLEJIDAD
SNN Clustering O(n2)*
Simple Algorithm O(kN2)
Double Linked Algorithm O(τNlogN...
Próxima SlideShare
Cargando en…5
×

Análisis Cluster basado en la técnica de vecinos cercanos

347 visualizaciones

Publicado el

Tecnicas de agrupamiento basadas en vecinos compartidos: SNN algorithm, Agglomerative Clustering using KNN. Comparisons against other cluster extensions.

Publicado en: Datos y análisis
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
347
En SlideShare
0
De insertados
0
Número de insertados
6
Acciones
Compartido
0
Descargas
0
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

Análisis Cluster basado en la técnica de vecinos cercanos

  1. 1. T´ecnicas de agrupamiento basadas en vecinos compartidos Alejandro Alonso Capel Aspectos avanzados en Miner´ıa de datos 10 de febrero de 2015 Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 1 / 14
  2. 2. ´Indice 1 SNN Clustering Approach Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
  3. 3. ´Indice 1 SNN Clustering Approach 2 Agglomerative Clustering using KNN Graphs Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
  4. 4. ´Indice 1 SNN Clustering Approach 2 Agglomerative Clustering using KNN Graphs 3 SNN facing traditional measures Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
  5. 5. ´Indice 1 SNN Clustering Approach 2 Agglomerative Clustering using KNN Graphs 3 SNN facing traditional measures 4 Algorithm comparisons Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
  6. 6. SNN Clustering Approach Introducci´on: En datasets peque˜nos es posible emplear, no siempre con ´exito, t´ecnicas b´asicas, tales como k-medias, DBSCAN, CURE, Chameleon, etc. En datasets cada vez de mayor tama˜no resultan ineficientes estas t´ecnicas. Aspectos como la similaridad y la densidad de instancias se ven afectadas. Este problema conlleva a plantear nuevas metas y desaf´ıos: SNN clustering. Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 3 / 14
  7. 7. SNN Clustering Approach El algoritmo ha de construirse en base a la redefinici´on de dos conceptos b´asicos: Similaridad SNN: Concebida en t´erminos de “vecinos m´as cercanos compartidos” entre dos instancias. similarity(p,q) = size(NN(p)∩NN(q)) Densidad SNN: Se define como el n´umero de instancias dentro de un radio dado en t´erminos de similaridad SNN. Si el k-´esimo vecino m´as cercano de una instancia tiene una alta similaridad, entonces existe una gran densidad en dicha instancia. Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 4 / 14
  8. 8. SNN Clustering Approach El algoritmo de agrupamiento SNN consta de los siguientes pasos: 1 Obtener la matriz de distancias (Matriz SNN) 2 Fragmentar dicha matriz manteniendo ´unicamente los k vecinos m´as similares 3 Construir el gr´afico de vecinos cercanos compartidos procedentes del anterior paso 4 Averiguar la densidad SNN de cada punto La densidad SNN se define como el n´umero de puntos que tienen una similaridad SNN de Eps o m´as 5 Encontrar los puntos n´ucleo Todos los puntos que tienen una densidad SNN mayor que MinPts 6 A partir de los anteriores, formar clusters 7 Eliminar todos los puntos “ruido” Todos los puntos que no son n´ucleo y que no est´an dentro de un radio Eps de un punto n´ucleo son descartados 8 Asignar a todos las instancias restantes a su cluster correspondiente Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 5 / 14
  9. 9. Agglomerative Clustering using KNN Graphs La t´ecnica basada en cluster aglomerativo es bastante usada. Su principal desventaja es su complejidad (O(N3)). Existen diversas mejoras, entre ellas las basadas en m´etodos gr´aficos. Se usa el gr´afico como mero elemento de b´usqueda, con el objetivo de reducir el n´umero de distancias a calcular. Surgen dos desaf´ıos: c´omo construir el gr´afico y c´omo utilizarlo. Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 6 / 14
  10. 10. Agglomerative Clustering using KNN Graphs En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de ejecuci´on de otro llamado Fast Exact PNN. 1. Algoritmo Simple Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 7 / 14
  11. 11. Agglomerative Clustering using KNN Graphs En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de ejecuci´on de otro llamado Fast Exact PNN. 2. Algoritmo de doble enlace (DLA) Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 8 / 14
  12. 12. Agglomerative Clustering using KNN Graphs En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de ejecuci´on de otro llamado Fast Exact PNN. El gr´afico de vecinos se puede crear: Por fuerza bruta, es decir, calculando las distancias entre cada par de nodos Con t´ecnicas como K-d tree, divide y vencer´as y b´usqueda basada en proyecciones Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 9 / 14
  13. 13. SNN facing traditional measures En este ´ultimo art´ıculo, se presta atenci´on al mismo hecho que el primero, pero su trabajo se diferencia de este en que demuestra por qu´e una medida secundaria como SNN puede mejorar el rendimiento que las medidas primarias o cl´asicas, por medio de datasets artificiales y reales. PRIMARY SIMILARITY MEASURES Distancia Coseno Distancia Eucl´ıdea Distancia de Manhattan Otras SECONDARY SIMILARITY MEASURE Shared Nearest-Neighbor (SNN) Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 10 / 14
  14. 14. SNN facing traditional measures Tambi´en se menciona un fen´omeno interesante de contemplar en estas situaciones: “la maldici´on de la dimensionalidad (The Curse of Dimensionality)”, en el que se comenta las limitaciones que se presentan cuando se aborda un problema de agrupamiento de datos en dimensiones grandes, tales como: Discriminaci´on pobre de distancias: P´erdida de utilidad de medidas de similitud o proximidad Presencia de atributos no importantes: Pueden entorpecer el rendimiento del agrupamiento Presencia de atributos redundantes: La presencia de correlaciones o redundancias puede dificultar tambi´en el buen rendimiento de cualquier algoritmo bajo dimensiones grandes Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 11 / 14
  15. 15. SNN facing traditional measures Para la evaluaci´on experimental se crearon datasets artificiales distinguiendo el grado de relevancia de los atributos incluidos, as´ı como reales. Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 12 / 14
  16. 16. SNN facing traditional measures Conclusiones: Atributos relevantes VS atributos irrelevantes La calidad del ranking puede estar determinada por el n´umero de atributos relevantes en el conjunto de datos Mejora de la calidad de ranking Emp´ıricamente se demuestra que hacer uso de la medida secundaria SNN estimula la calidad del ranking Estabilidad de SNN Hacer uso de medidas de distancia secundarias estabiliza el rendimiento de la b´usqueda de similaridad y sus aplicaciones en MD Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 13 / 14
  17. 17. Algorithm comparisons ALGORITMO COMPLEJIDAD SNN Clustering O(n2)* Simple Algorithm O(kN2) Double Linked Algorithm O(τNlogN)** *Solo en el caso de tener que calcular la matriz de distancias. **τ denota el n´umero de actualizaciones de vecinos cercanos requeridas en cada iteraci´on. Bibliograf´ıa: Levent Ert¨oz, Michael Steinbach, and Vipin Kumar. 2003. Finding clusters of diferent sizes, shapes, and densities in noisy, high dimensional data. SIAM international conference on data mining (SDM’2003), pp 47-58. Pasi Franti, Olli Virmajoki, and Ville Hautamaki. 2006. Fast Agglomerative Clustering Using a k-Nearest Neighbor Graph. IEEE Transactions on Pattern Analysis and Machine Intelligence 28, 11 (November 2006), 1875-1881. DOI 10.1109/TPAMI. Michael E. Houle, Hans-Peter Kriegel, Peer Kroger, Erich Schubert, and Arthur Zimek. 2010. Can shared-neighbor distances defeat the curse of dimensionality?. In Proceedings of the 22nd international conference on Scientific and Statistical Database Management (SSDBM’10), Michael Gertz and Bertram Lud¨ascher (Eds.). LNCS 6187, pp. 482-500. 2006.227 Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 14 / 14

×