SlideShare una empresa de Scribd logo
T´ecnicas de agrupamiento
basadas en vecinos compartidos
Alejandro Alonso Capel
Aspectos avanzados en Miner´ıa de datos
10 de febrero de 2015
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 1 / 14
´Indice
1 SNN Clustering Approach
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
´Indice
1 SNN Clustering Approach
2 Agglomerative Clustering using KNN Graphs
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
´Indice
1 SNN Clustering Approach
2 Agglomerative Clustering using KNN Graphs
3 SNN facing traditional measures
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
´Indice
1 SNN Clustering Approach
2 Agglomerative Clustering using KNN Graphs
3 SNN facing traditional measures
4 Algorithm comparisons
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
SNN Clustering Approach
Introducci´on:
En datasets peque˜nos es
posible emplear, no siempre con
´exito, t´ecnicas b´asicas, tales
como k-medias, DBSCAN,
CURE, Chameleon, etc.
En datasets cada vez de mayor
tama˜no resultan ineficientes
estas t´ecnicas. Aspectos como
la similaridad y la densidad de
instancias se ven afectadas.
Este problema conlleva a plantear nuevas metas y desaf´ıos: SNN clustering.
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 3 / 14
SNN Clustering Approach
El algoritmo ha de construirse en base a la redefinici´on de dos conceptos
b´asicos:
Similaridad SNN: Concebida en t´erminos de “vecinos m´as cercanos
compartidos” entre dos instancias.
similarity(p,q) = size(NN(p)∩NN(q))
Densidad SNN: Se define como el n´umero de instancias dentro de
un radio dado en t´erminos de similaridad SNN. Si el k-´esimo vecino
m´as cercano de una instancia tiene una alta similaridad, entonces
existe una gran densidad en dicha instancia.
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 4 / 14
SNN Clustering Approach
El algoritmo de agrupamiento SNN consta de los siguientes pasos:
1 Obtener la matriz de distancias (Matriz SNN)
2 Fragmentar dicha matriz manteniendo ´unicamente los k vecinos m´as similares
3 Construir el gr´afico de vecinos cercanos compartidos procedentes del anterior
paso
4 Averiguar la densidad SNN de cada punto
La densidad SNN se define como el n´umero de puntos que tienen una similaridad SNN
de Eps o m´as
5 Encontrar los puntos n´ucleo
Todos los puntos que tienen una densidad SNN mayor que MinPts
6 A partir de los anteriores, formar clusters
7 Eliminar todos los puntos “ruido”
Todos los puntos que no son n´ucleo y que no est´an dentro de un radio Eps de un punto
n´ucleo son descartados
8 Asignar a todos las instancias restantes a su cluster correspondiente
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 5 / 14
Agglomerative Clustering using KNN Graphs
La t´ecnica basada en cluster aglomerativo es bastante usada. Su
principal desventaja es su complejidad (O(N3)). Existen diversas
mejoras, entre ellas las basadas en m´etodos gr´aficos.
Se usa el gr´afico como mero elemento de b´usqueda, con el objetivo de
reducir el n´umero de distancias a calcular.
Surgen dos desaf´ıos: c´omo construir el gr´afico y c´omo utilizarlo.
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 6 / 14
Agglomerative Clustering using KNN Graphs
En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de
ejecuci´on de otro llamado Fast Exact PNN.
1. Algoritmo Simple
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 7 / 14
Agglomerative Clustering using KNN Graphs
En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de
ejecuci´on de otro llamado Fast Exact PNN.
2. Algoritmo de doble enlace (DLA)
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 8 / 14
Agglomerative Clustering using KNN Graphs
En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de
ejecuci´on de otro llamado Fast Exact PNN.
El gr´afico de vecinos se puede crear:
Por fuerza bruta, es decir, calculando las distancias entre cada par de
nodos
Con t´ecnicas como K-d tree, divide y vencer´as y b´usqueda basada en
proyecciones
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 9 / 14
SNN facing traditional measures
En este ´ultimo art´ıculo, se presta atenci´on al mismo hecho que el primero,
pero su trabajo se diferencia de este en que demuestra por qu´e una medida
secundaria como SNN puede mejorar el rendimiento que las medidas
primarias o cl´asicas, por medio de datasets artificiales y reales.
PRIMARY SIMILARITY MEASURES
Distancia Coseno
Distancia Eucl´ıdea
Distancia de Manhattan
Otras
SECONDARY SIMILARITY MEASURE
Shared Nearest-Neighbor (SNN)
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 10 / 14
SNN facing traditional measures
Tambi´en se menciona un fen´omeno interesante de contemplar en estas
situaciones: “la maldici´on de la dimensionalidad (The Curse of
Dimensionality)”, en el que se comenta las limitaciones que se presentan
cuando se aborda un problema de agrupamiento de datos en dimensiones
grandes, tales como:
Discriminaci´on pobre de distancias:
P´erdida de utilidad de medidas de similitud o proximidad
Presencia de atributos no importantes:
Pueden entorpecer el rendimiento del agrupamiento
Presencia de atributos redundantes:
La presencia de correlaciones o redundancias puede dificultar tambi´en
el buen rendimiento de cualquier algoritmo bajo dimensiones grandes
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 11 / 14
SNN facing traditional measures
Para la evaluaci´on experimental se crearon datasets artificiales
distinguiendo el grado de relevancia de los atributos incluidos, as´ı como
reales.
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 12 / 14
SNN facing traditional measures
Conclusiones:
Atributos relevantes VS atributos irrelevantes
La calidad del ranking puede estar determinada por el n´umero de atributos relevantes en el
conjunto de datos
Mejora de la calidad de ranking
Emp´ıricamente se demuestra que hacer uso de la medida secundaria SNN estimula la calidad
del ranking
Estabilidad de SNN
Hacer uso de medidas de distancia secundarias estabiliza el rendimiento de la b´usqueda de
similaridad y sus aplicaciones en MD
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 13 / 14
Algorithm comparisons
ALGORITMO COMPLEJIDAD
SNN Clustering O(n2)*
Simple Algorithm O(kN2)
Double Linked Algorithm O(τNlogN)**
*Solo en el caso de tener que calcular la matriz de distancias.
**τ denota el n´umero de actualizaciones de vecinos cercanos requeridas en cada iteraci´on.
Bibliograf´ıa:
Levent Ert¨oz, Michael Steinbach, and Vipin Kumar. 2003. Finding clusters of diferent
sizes, shapes, and densities in noisy, high dimensional data. SIAM international
conference on data mining (SDM’2003), pp 47-58.
Pasi Franti, Olli Virmajoki, and Ville Hautamaki. 2006. Fast Agglomerative Clustering
Using a k-Nearest Neighbor Graph. IEEE Transactions on Pattern Analysis and Machine
Intelligence 28, 11 (November 2006), 1875-1881. DOI 10.1109/TPAMI.
Michael E. Houle, Hans-Peter Kriegel, Peer Kroger, Erich Schubert, and Arthur Zimek.
2010. Can shared-neighbor distances defeat the curse of dimensionality?. In Proceedings
of the 22nd international conference on Scientific and Statistical Database Management
(SSDBM’10), Michael Gertz and Bertram Lud¨ascher (Eds.). LNCS 6187, pp. 482-500.
2006.227
Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 14 / 14

Más contenido relacionado

La actualidad más candente

Banco de sangre
Banco de sangreBanco de sangre
Banco de sangre
Samy AnarchyWorld Dustye
 
Hemoterapia y Banco de Sangre
Hemoterapia y Banco de SangreHemoterapia y Banco de Sangre
Hemoterapia y Banco de Sangre
MZ_ ANV11L
 
Bacteriologia Medica
Bacteriologia MedicaBacteriologia Medica
Bacteriologia Medica
Leonardo Romero
 
Cocos y cocobacilos gram negativos
Cocos y cocobacilos gram negativosCocos y cocobacilos gram negativos
Cocos y cocobacilos gram negativos
Maria Constanza Bl Enfermera
 
Estomatocitosis
EstomatocitosisEstomatocitosis
Estomatocitosis
Rander Ruiz
 
Inmunohematología
Inmunohematología Inmunohematología
Inmunohematología
Salvador Camacho Garrido
 
Mycoplasma y Ureaplasma
Mycoplasma y UreaplasmaMycoplasma y Ureaplasma
Mycoplasma y Ureaplasma
Carlos Malpica
 
Bacterias gram negativas (-) zeledon.
Bacterias gram negativas (-) zeledon.Bacterias gram negativas (-) zeledon.
Bacterias gram negativas (-) zeledon.
Yader Zeledon Diaz
 
GRUPO SANGUINEO
GRUPO SANGUINEOGRUPO SANGUINEO
GRUPO SANGUINEO
JEYMYELI
 
PRIMERA CLASE CITOLOGIA MICROBIANA
PRIMERA CLASE  CITOLOGIA MICROBIANAPRIMERA CLASE  CITOLOGIA MICROBIANA
PRIMERA CLASE CITOLOGIA MICROBIANA
anamercedesparada
 
Apoptosis
ApoptosisApoptosis
Arn
ArnArn
Estafilococs y estreptocococos
Estafilococs y estreptocococosEstafilococs y estreptocococos
Estafilococs y estreptocococos
Luis Andres Godinez
 
Microbiologia
MicrobiologiaMicrobiologia
Microbiologia
Vannesa Lopez Camones
 
diagnostico prenatal
diagnostico prenataldiagnostico prenatal
diagnostico prenatal
GabrielaDevia
 
Presentacion rh
Presentacion rhPresentacion rh
Presentacion rh
Montsedelatorre
 
Hermafroditismo verdadero
Hermafroditismo verdaderoHermafroditismo verdadero
Hemoglobina
HemoglobinaHemoglobina
Hemoglobina
rober_torres
 
Sistema ABO y Rh
Sistema ABO y RhSistema ABO y Rh
Sistema ABO y Rh
Xavier Pérez
 
criterios para la eleccion de un donante
criterios para la eleccion de un donantecriterios para la eleccion de un donante
criterios para la eleccion de un donante
Juan Calderon
 

La actualidad más candente (20)

Banco de sangre
Banco de sangreBanco de sangre
Banco de sangre
 
Hemoterapia y Banco de Sangre
Hemoterapia y Banco de SangreHemoterapia y Banco de Sangre
Hemoterapia y Banco de Sangre
 
Bacteriologia Medica
Bacteriologia MedicaBacteriologia Medica
Bacteriologia Medica
 
Cocos y cocobacilos gram negativos
Cocos y cocobacilos gram negativosCocos y cocobacilos gram negativos
Cocos y cocobacilos gram negativos
 
Estomatocitosis
EstomatocitosisEstomatocitosis
Estomatocitosis
 
Inmunohematología
Inmunohematología Inmunohematología
Inmunohematología
 
Mycoplasma y Ureaplasma
Mycoplasma y UreaplasmaMycoplasma y Ureaplasma
Mycoplasma y Ureaplasma
 
Bacterias gram negativas (-) zeledon.
Bacterias gram negativas (-) zeledon.Bacterias gram negativas (-) zeledon.
Bacterias gram negativas (-) zeledon.
 
GRUPO SANGUINEO
GRUPO SANGUINEOGRUPO SANGUINEO
GRUPO SANGUINEO
 
PRIMERA CLASE CITOLOGIA MICROBIANA
PRIMERA CLASE  CITOLOGIA MICROBIANAPRIMERA CLASE  CITOLOGIA MICROBIANA
PRIMERA CLASE CITOLOGIA MICROBIANA
 
Apoptosis
ApoptosisApoptosis
Apoptosis
 
Arn
ArnArn
Arn
 
Estafilococs y estreptocococos
Estafilococs y estreptocococosEstafilococs y estreptocococos
Estafilococs y estreptocococos
 
Microbiologia
MicrobiologiaMicrobiologia
Microbiologia
 
diagnostico prenatal
diagnostico prenataldiagnostico prenatal
diagnostico prenatal
 
Presentacion rh
Presentacion rhPresentacion rh
Presentacion rh
 
Hermafroditismo verdadero
Hermafroditismo verdaderoHermafroditismo verdadero
Hermafroditismo verdadero
 
Hemoglobina
HemoglobinaHemoglobina
Hemoglobina
 
Sistema ABO y Rh
Sistema ABO y RhSistema ABO y Rh
Sistema ABO y Rh
 
criterios para la eleccion de un donante
criterios para la eleccion de un donantecriterios para la eleccion de un donante
criterios para la eleccion de un donante
 

Similar a Análisis Cluster basado en la técnica de vecinos cercanos

Redes neuronales artificiales convolucionales
Redes neuronales artificiales convolucionalesRedes neuronales artificiales convolucionales
Redes neuronales artificiales convolucionales
jarniel1
 
Algoritmo de INGRES
Algoritmo de INGRES Algoritmo de INGRES
Algoritmo de INGRES
Benjamín Joaquín Martínez
 
Reconocimiento de Dígitos Manuscritos usando la Dase de Datos MNIST
Reconocimiento de Dígitos Manuscritos usando la Dase de Datos MNISTReconocimiento de Dígitos Manuscritos usando la Dase de Datos MNIST
Reconocimiento de Dígitos Manuscritos usando la Dase de Datos MNIST
Emilio Garcia
 
Técnicas de Machine Learning aplicadosa la estimación de Recursos Minerales
Técnicas de Machine Learning aplicadosa la estimación de Recursos MineralesTécnicas de Machine Learning aplicadosa la estimación de Recursos Minerales
Técnicas de Machine Learning aplicadosa la estimación de Recursos Minerales
José Enrique Gutiérrez Ramírez
 
Técnicas de análisis: Clustering
Técnicas de análisis: ClusteringTécnicas de análisis: Clustering
Técnicas de análisis: Clustering
Rafael Morales
 
Redes neuronales artificiales_aplicadas
Redes neuronales artificiales_aplicadasRedes neuronales artificiales_aplicadas
Redes neuronales artificiales_aplicadas
Ivan Gooseman
 
Resumen del articulo sobre retardo y perdida de paquetes en Internet
Resumen del articulo sobre retardo y perdida de paquetes en InternetResumen del articulo sobre retardo y perdida de paquetes en Internet
Resumen del articulo sobre retardo y perdida de paquetes en Internet
Laura Piñeiro Mendez
 
Simulación en Ing. Eléctrica - Aproximación de funciones
Simulación en Ing. Eléctrica - Aproximación de funcionesSimulación en Ing. Eléctrica - Aproximación de funciones
Simulación en Ing. Eléctrica - Aproximación de funciones
Carlos Vergara Branje
 
Capitulo 4 sistemas_de_ecuaciones_no_lineales
Capitulo 4 sistemas_de_ecuaciones_no_linealesCapitulo 4 sistemas_de_ecuaciones_no_lineales
Capitulo 4 sistemas_de_ecuaciones_no_lineales
miguellagos19
 
Databeer
DatabeerDatabeer
Databeer
Tomás Morales
 
Estrategias de lectura
Estrategias de lecturaEstrategias de lectura
Estrategias de lectura
tempo16
 
Karolina Argote - Monitoreo de cambios en el hábitat en Colombia (Octubre 2010)
Karolina Argote - Monitoreo de cambios en el hábitat en Colombia (Octubre 2010)Karolina Argote - Monitoreo de cambios en el hábitat en Colombia (Octubre 2010)
Karolina Argote - Monitoreo de cambios en el hábitat en Colombia (Octubre 2010)
Decision and Policy Analysis Program
 
Implementación de un módulo para el entrenamiento y evaluación de redes neuro...
Implementación de un módulo para el entrenamiento y evaluación de redes neuro...Implementación de un módulo para el entrenamiento y evaluación de redes neuro...
Implementación de un módulo para el entrenamiento y evaluación de redes neuro...
Adrián Palacios Corella
 
Paper Mmulfpuna Mpi Cparra Fmancia
Paper Mmulfpuna Mpi Cparra FmanciaPaper Mmulfpuna Mpi Cparra Fmancia
Paper Mmulfpuna Mpi Cparra Fmancia
FcoKraken
 
Paper Mmulfpuna Mpi Cparra Fmancia
Paper Mmulfpuna Mpi Cparra FmanciaPaper Mmulfpuna Mpi Cparra Fmancia
Paper Mmulfpuna Mpi Cparra Fmancia
FcoKraken
 
Update Big Data 2014
Update Big Data 2014Update Big Data 2014
Update Big Data 2014
Stratebi
 
Optimizacion en IMRT
Optimizacion en IMRTOptimizacion en IMRT
Optimizacion en IMRT
Armando Alaminos Bouza
 
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdfRedes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
JosAndrRosarioVzquez
 
Aplicación Redes Neuronales: Estudio de Yacimientos de Petróleo
Aplicación Redes Neuronales: Estudio de Yacimientos de PetróleoAplicación Redes Neuronales: Estudio de Yacimientos de Petróleo
Aplicación Redes Neuronales: Estudio de Yacimientos de Petróleo
ManuelJimnez56
 

Similar a Análisis Cluster basado en la técnica de vecinos cercanos (19)

Redes neuronales artificiales convolucionales
Redes neuronales artificiales convolucionalesRedes neuronales artificiales convolucionales
Redes neuronales artificiales convolucionales
 
Algoritmo de INGRES
Algoritmo de INGRES Algoritmo de INGRES
Algoritmo de INGRES
 
Reconocimiento de Dígitos Manuscritos usando la Dase de Datos MNIST
Reconocimiento de Dígitos Manuscritos usando la Dase de Datos MNISTReconocimiento de Dígitos Manuscritos usando la Dase de Datos MNIST
Reconocimiento de Dígitos Manuscritos usando la Dase de Datos MNIST
 
Técnicas de Machine Learning aplicadosa la estimación de Recursos Minerales
Técnicas de Machine Learning aplicadosa la estimación de Recursos MineralesTécnicas de Machine Learning aplicadosa la estimación de Recursos Minerales
Técnicas de Machine Learning aplicadosa la estimación de Recursos Minerales
 
Técnicas de análisis: Clustering
Técnicas de análisis: ClusteringTécnicas de análisis: Clustering
Técnicas de análisis: Clustering
 
Redes neuronales artificiales_aplicadas
Redes neuronales artificiales_aplicadasRedes neuronales artificiales_aplicadas
Redes neuronales artificiales_aplicadas
 
Resumen del articulo sobre retardo y perdida de paquetes en Internet
Resumen del articulo sobre retardo y perdida de paquetes en InternetResumen del articulo sobre retardo y perdida de paquetes en Internet
Resumen del articulo sobre retardo y perdida de paquetes en Internet
 
Simulación en Ing. Eléctrica - Aproximación de funciones
Simulación en Ing. Eléctrica - Aproximación de funcionesSimulación en Ing. Eléctrica - Aproximación de funciones
Simulación en Ing. Eléctrica - Aproximación de funciones
 
Capitulo 4 sistemas_de_ecuaciones_no_lineales
Capitulo 4 sistemas_de_ecuaciones_no_linealesCapitulo 4 sistemas_de_ecuaciones_no_lineales
Capitulo 4 sistemas_de_ecuaciones_no_lineales
 
Databeer
DatabeerDatabeer
Databeer
 
Estrategias de lectura
Estrategias de lecturaEstrategias de lectura
Estrategias de lectura
 
Karolina Argote - Monitoreo de cambios en el hábitat en Colombia (Octubre 2010)
Karolina Argote - Monitoreo de cambios en el hábitat en Colombia (Octubre 2010)Karolina Argote - Monitoreo de cambios en el hábitat en Colombia (Octubre 2010)
Karolina Argote - Monitoreo de cambios en el hábitat en Colombia (Octubre 2010)
 
Implementación de un módulo para el entrenamiento y evaluación de redes neuro...
Implementación de un módulo para el entrenamiento y evaluación de redes neuro...Implementación de un módulo para el entrenamiento y evaluación de redes neuro...
Implementación de un módulo para el entrenamiento y evaluación de redes neuro...
 
Paper Mmulfpuna Mpi Cparra Fmancia
Paper Mmulfpuna Mpi Cparra FmanciaPaper Mmulfpuna Mpi Cparra Fmancia
Paper Mmulfpuna Mpi Cparra Fmancia
 
Paper Mmulfpuna Mpi Cparra Fmancia
Paper Mmulfpuna Mpi Cparra FmanciaPaper Mmulfpuna Mpi Cparra Fmancia
Paper Mmulfpuna Mpi Cparra Fmancia
 
Update Big Data 2014
Update Big Data 2014Update Big Data 2014
Update Big Data 2014
 
Optimizacion en IMRT
Optimizacion en IMRTOptimizacion en IMRT
Optimizacion en IMRT
 
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdfRedes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
 
Aplicación Redes Neuronales: Estudio de Yacimientos de Petróleo
Aplicación Redes Neuronales: Estudio de Yacimientos de PetróleoAplicación Redes Neuronales: Estudio de Yacimientos de Petróleo
Aplicación Redes Neuronales: Estudio de Yacimientos de Petróleo
 

Último

Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
MedTechBiz
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
mvargasleveau
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
silvanasotos
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
NereaMolina10
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
DieguinhoSalazar
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
christianllacchasand
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
brayansangar73
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
DivergenteDespierto
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
defola5717
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
WendyMLaura
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
nahumrondanurbano
 

Último (20)

Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
 

Análisis Cluster basado en la técnica de vecinos cercanos

  • 1. T´ecnicas de agrupamiento basadas en vecinos compartidos Alejandro Alonso Capel Aspectos avanzados en Miner´ıa de datos 10 de febrero de 2015 Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 1 / 14
  • 2. ´Indice 1 SNN Clustering Approach Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
  • 3. ´Indice 1 SNN Clustering Approach 2 Agglomerative Clustering using KNN Graphs Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
  • 4. ´Indice 1 SNN Clustering Approach 2 Agglomerative Clustering using KNN Graphs 3 SNN facing traditional measures Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
  • 5. ´Indice 1 SNN Clustering Approach 2 Agglomerative Clustering using KNN Graphs 3 SNN facing traditional measures 4 Algorithm comparisons Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 2 / 14
  • 6. SNN Clustering Approach Introducci´on: En datasets peque˜nos es posible emplear, no siempre con ´exito, t´ecnicas b´asicas, tales como k-medias, DBSCAN, CURE, Chameleon, etc. En datasets cada vez de mayor tama˜no resultan ineficientes estas t´ecnicas. Aspectos como la similaridad y la densidad de instancias se ven afectadas. Este problema conlleva a plantear nuevas metas y desaf´ıos: SNN clustering. Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 3 / 14
  • 7. SNN Clustering Approach El algoritmo ha de construirse en base a la redefinici´on de dos conceptos b´asicos: Similaridad SNN: Concebida en t´erminos de “vecinos m´as cercanos compartidos” entre dos instancias. similarity(p,q) = size(NN(p)∩NN(q)) Densidad SNN: Se define como el n´umero de instancias dentro de un radio dado en t´erminos de similaridad SNN. Si el k-´esimo vecino m´as cercano de una instancia tiene una alta similaridad, entonces existe una gran densidad en dicha instancia. Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 4 / 14
  • 8. SNN Clustering Approach El algoritmo de agrupamiento SNN consta de los siguientes pasos: 1 Obtener la matriz de distancias (Matriz SNN) 2 Fragmentar dicha matriz manteniendo ´unicamente los k vecinos m´as similares 3 Construir el gr´afico de vecinos cercanos compartidos procedentes del anterior paso 4 Averiguar la densidad SNN de cada punto La densidad SNN se define como el n´umero de puntos que tienen una similaridad SNN de Eps o m´as 5 Encontrar los puntos n´ucleo Todos los puntos que tienen una densidad SNN mayor que MinPts 6 A partir de los anteriores, formar clusters 7 Eliminar todos los puntos “ruido” Todos los puntos que no son n´ucleo y que no est´an dentro de un radio Eps de un punto n´ucleo son descartados 8 Asignar a todos las instancias restantes a su cluster correspondiente Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 5 / 14
  • 9. Agglomerative Clustering using KNN Graphs La t´ecnica basada en cluster aglomerativo es bastante usada. Su principal desventaja es su complejidad (O(N3)). Existen diversas mejoras, entre ellas las basadas en m´etodos gr´aficos. Se usa el gr´afico como mero elemento de b´usqueda, con el objetivo de reducir el n´umero de distancias a calcular. Surgen dos desaf´ıos: c´omo construir el gr´afico y c´omo utilizarlo. Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 6 / 14
  • 10. Agglomerative Clustering using KNN Graphs En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de ejecuci´on de otro llamado Fast Exact PNN. 1. Algoritmo Simple Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 7 / 14
  • 11. Agglomerative Clustering using KNN Graphs En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de ejecuci´on de otro llamado Fast Exact PNN. 2. Algoritmo de doble enlace (DLA) Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 8 / 14
  • 12. Agglomerative Clustering using KNN Graphs En este trabajo se han propuesto dos algoritmos que mejoran el tiempo de ejecuci´on de otro llamado Fast Exact PNN. El gr´afico de vecinos se puede crear: Por fuerza bruta, es decir, calculando las distancias entre cada par de nodos Con t´ecnicas como K-d tree, divide y vencer´as y b´usqueda basada en proyecciones Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 9 / 14
  • 13. SNN facing traditional measures En este ´ultimo art´ıculo, se presta atenci´on al mismo hecho que el primero, pero su trabajo se diferencia de este en que demuestra por qu´e una medida secundaria como SNN puede mejorar el rendimiento que las medidas primarias o cl´asicas, por medio de datasets artificiales y reales. PRIMARY SIMILARITY MEASURES Distancia Coseno Distancia Eucl´ıdea Distancia de Manhattan Otras SECONDARY SIMILARITY MEASURE Shared Nearest-Neighbor (SNN) Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 10 / 14
  • 14. SNN facing traditional measures Tambi´en se menciona un fen´omeno interesante de contemplar en estas situaciones: “la maldici´on de la dimensionalidad (The Curse of Dimensionality)”, en el que se comenta las limitaciones que se presentan cuando se aborda un problema de agrupamiento de datos en dimensiones grandes, tales como: Discriminaci´on pobre de distancias: P´erdida de utilidad de medidas de similitud o proximidad Presencia de atributos no importantes: Pueden entorpecer el rendimiento del agrupamiento Presencia de atributos redundantes: La presencia de correlaciones o redundancias puede dificultar tambi´en el buen rendimiento de cualquier algoritmo bajo dimensiones grandes Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 11 / 14
  • 15. SNN facing traditional measures Para la evaluaci´on experimental se crearon datasets artificiales distinguiendo el grado de relevancia de los atributos incluidos, as´ı como reales. Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 12 / 14
  • 16. SNN facing traditional measures Conclusiones: Atributos relevantes VS atributos irrelevantes La calidad del ranking puede estar determinada por el n´umero de atributos relevantes en el conjunto de datos Mejora de la calidad de ranking Emp´ıricamente se demuestra que hacer uso de la medida secundaria SNN estimula la calidad del ranking Estabilidad de SNN Hacer uso de medidas de distancia secundarias estabiliza el rendimiento de la b´usqueda de similaridad y sus aplicaciones en MD Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 13 / 14
  • 17. Algorithm comparisons ALGORITMO COMPLEJIDAD SNN Clustering O(n2)* Simple Algorithm O(kN2) Double Linked Algorithm O(τNlogN)** *Solo en el caso de tener que calcular la matriz de distancias. **τ denota el n´umero de actualizaciones de vecinos cercanos requeridas en cada iteraci´on. Bibliograf´ıa: Levent Ert¨oz, Michael Steinbach, and Vipin Kumar. 2003. Finding clusters of diferent sizes, shapes, and densities in noisy, high dimensional data. SIAM international conference on data mining (SDM’2003), pp 47-58. Pasi Franti, Olli Virmajoki, and Ville Hautamaki. 2006. Fast Agglomerative Clustering Using a k-Nearest Neighbor Graph. IEEE Transactions on Pattern Analysis and Machine Intelligence 28, 11 (November 2006), 1875-1881. DOI 10.1109/TPAMI. Michael E. Houle, Hans-Peter Kriegel, Peer Kroger, Erich Schubert, and Arthur Zimek. 2010. Can shared-neighbor distances defeat the curse of dimensionality?. In Proceedings of the 22nd international conference on Scientific and Statistical Database Management (SSDBM’10), Michael Gertz and Bertram Lud¨ascher (Eds.). LNCS 6187, pp. 482-500. 2006.227 Aspectos avanzados en Miner´ıa de datos Alejandro Alonso Capel 14 / 14