UNIVERSIDAD TECNICA PARTICULAR DE LOJA “La Universidad Católica de Loja” INTELIGENCIA ARTIFICIAL AVANZADA CLUSTERING
CLASIFICACIÓN: ANÁLISIS DE CLUSTERS (CLUSTERING)
INTRODUCCION El Análisis de Clusters (o Análisis de conglomerados) es una técnica de Análisis Exploratorio de Datos para resolver problemas de clasificación. Su objeto consiste en ordenar objetos (personas, cosas, animales, plantas, variables, etc, …) en grupos (conglomerados o clusters) deacuerdo a carcteristicas que asemejan a los diferentes objetos
ETAPAS DE UN ANÁLISIS CLUSTER 1) Elección de las variables 2) Elección de la medida de asociación 3) Elección de la técnica Cluster 4) Validación de los resultados
Elección de variables Variables: ♦  Variables cualitativas Ordinales (ej: nivel de estudios) Nominales (ej: nacionalidad) ♦  Variables cuantitativas Variables discretas (ej: número de hermanos) Variables continuas (ej: peso) ANÁLISIS CLUSTER POR VARIABLES O POR INDIVIDUOS
Un paso importante en cualquier agrupación consiste en seleccionar una medida de distancia , lo que determinará la forma en la  similitud  de los dos elementos que se calcula . Esto influirá en la forma de los clusters, ya que algunos elementos pueden estar cerca o lejos el uno del uno otro en función de  una distancia. Distancia Euclidea Elección de una medida de asociación
Distancia de Minkowsky (q >=1) q=2  distancia euclidea q=1  distancia ciudad Distancia Valor Absoluto q=1   Minkowsky
Distancia Mahalanobis: Datos provienen de una o varias poblaciones con matrices de varianzas-covarianzas
EJEMPLO Supongamos que se han medido n=4 variables continuas y que dos casos x,y vienen representados por los vectores x=(2.1,3.1,3.4,1.9)` e y=(1.2,2.0,1.7,3.6)` Distancia euclidea:x-y=(0.9,1.1,1.7,-1.7)`
Distancia Minkowsky para q=1 y q=3 Con q=1: Con q=3: Distancia del Valor absoluto:
MÉTODOS DE ANÁLISIS CLUSTER Se dividen en dos grandes grupos Métodos jerárquicos: son aquellos que para formar un clúster nuevo une o separa alguno  ya existente para dar origen a otros dos de forma que se maximice una similaridad o se minimice una distancia. Dentro de estos a su vez se clasifican en: 1. Asociativos o aglomerativos: se parte de tantos grupos como individuos y se van agrupando hasta llegar a tener todos los individuos en un solo grupo. 2. Disociativos: se parte de un solo grupo que contenga a todos los individuos y se va separando hasta llegar a formar grupos individuales. Métodos no jerárquicos: se clasifican los individuos en k grupos, estudiando todas las  particiones de individuos en esos k grupos y eligiendo la mejor partición.
 
MÉTODOS JERÁRQUICOS Sucesión de particiones donde cada partición se obtiene uniendo o dividiendo clusters Ejemplo:
Metodos aglomerativos:  los nuevos clusters se crean uniendo clusters Ventaja Rapidez Son los mas habituales Metodos divisivos:  los nuevos clusters se crean dividiendo clusters(lentos) Ventaja Parten de la información global que hay en los datos  El proceso de división no tienen porque seguir  hasta que cada elemento forme un cluster MÉTODOS JERÁRQUICOS
Dendrograma:  son diagramas bidimensional es utilizados para representar  clasificaciones jerárquicas Muestra como ha sido el proceso  de unión o división de los clusters MÉTODOS JERÁRQUICOS divisivo Aglomerativo
Algoritmo básico de clasificación (ABC) Cada caso formara un cluster P0={{1}….{m}} Supongamos que los casos mas cercanos son  i,j:Entonces la union de estos formara un nuevo cluster ({i}U{j}={i,j}) y se actualizara la matriz  u`(k,{i,j})=u(k,i)   =u(k,j) Una vez obtenida la particion P1={{1},..{i,j},..{n}}, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos  formen un unico cluster
EJEMPLO: supongamos que tenemos la siguiente matriz definida sobre  Ω={1,2,3,4,5} calculemos cual es la jerarquia indexada que nos da el algoritmo ABC Algoritmo básico de clasificación (ABC)
Algoritmo básico de clasificación (ABC)
Dendrograma Algoritmo básico de clasificación (ABC)
Algoritmo de clasificación (AC) Cada caso formara un cluster P0={{1}….{m}} Supongamos que los casos mas cercanos son  i,j:Entonces la union de estos formara un unico cluster ({i}U{j}={i,j}) y se definira la disyancia desde un caso cualquiera l al nuevo cluster(i,j) d`(l,{i,j})= f(d(l,i),d(l,j), l <>i,j    Una vez obtenida la particion P1={{1},..{i,j},..{n}}, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos  formen un unico cluster
Método del mínimo La distancia entre dos clústeres    mínima de las distancias entre los casos de cada clúster Ejemplo: S upongamos que tenemos la siguiente matriz de distancias D  definida sobre  Ω={1,..5} calcular cual es la jerarquía indexada de método del mínimo.
PASOS caso forma un clúster Los casos i, j más cercanos Formamos el clúster {1,2} Definimos la distancias de un caso al nuevo clúster Método del mínimo Matriz de distancias
Volver a los pasos 2 y 3 buscar casos con distancias mínimas d(3,4)=2 nuevo cluster{3,4} rehacer distancia Volver a los pasos 2 y 3 buscar casos con distancias mínimas 3=d({1,2},{3,4}) nuevo cluster{1,2,3,4} rehacer matriz Método del mínimo
Jerarquía aglomerada indexada Método del mínimo
Método del Máximo Este método es conocido como Complete Linkage o “vecino más lejano”, . La distancia entre dos clúster se define como el máximo de las distancias entre los casos de los clúster.
EJEMPLO Inicialmente la partición es: {{1}, {2},{3},{4},{5} y los casos más próximos son 1 y 2  La nueva matriz de distancia es: Los casos 3 y 4 forman la siguiente matriz Método del Máximo
Cálculo para sacar el máximo Por lo tanto se unen {1,2} con {3,4} Método del Máximo DENDROGRAMA
Método de Ward Se calculan las distancias como medida de similitud entre los objetos.  El objetivo del método se basa en que al unir dos clúster el aumento de la heterogeneidad total sea lo menor posible. El proceso termina cuando todos los casos forman un único clúster. Mide heterogeneidad Suma distancias Vector de medias
EJEMPLO Hay 6 casos con dos variables Cada caso forma un clúster Método de Ward P0={{1},{2},{3},{4},{5},{6}} Perdida mínima  de heterogeneidad P1={{1},{2},{3},{4},{5,6}}
Luego la pérdida mínima se obtiene uniendo {1} y {3} Por lo tanto:  Se calcula el centro de {1,3}  Método de Ward P2={{1,3},{2},{4},{5,6}} La siguiente perdida mínima de heterogeneidad al unir {1,3} y {2} es: P3={{1,2,3},{4},{5,6}}
Siguiendo el proceso de aglomeración para la partición P4 hay 3 posibilidades: Calculando cada uno de los centros y la pérdida mínima queda: Método de Ward
Quedando como perdida mínima de heterogeneidad uniendo los clúster {4} y {5,6} con un valor de 2,21. P4={{1,2,3},{4,5,6}} Método de Ward
Single - linkeage Jerárquico Aglomerativo Si hay un error en algún paso no se puede volver atrás …
Single - linkeage Dado un conjunto de N (5) elementos a ser agrupado y una matriz de distancia (o similitud) de N x N: d 1 2 3 4 5 1 0 5 6 10 13 2 5 0 1 5 8 3 6 1 0 4 7 4 10 5 4 0 3 5 13 8 7 3 0
Single - linkeage Comenzar por asignar cada item a un cluster. Tenemos 5 clusters Sean las distancias entre los clusters las mismas que entre los elementos de cada cluster d 1 2 3 4 5 1 0 5 6 10 13 2 5 0 1 5 8 3 6 1 0 4 7 4 10 5 4 0 3 5 13 8 7 3 0
Single - linkeage Encontrar el par más cercano de clusters y unirlo en un único cluster. Tenemos 4 clusters d 1 2 3 4 5 1 0 5 6 10 13 2 5 0 1 5 8 3 6 1 0 4 7 4 10 5 4 0 3 5 13 8 7 3 0
Single - linkeage Calcular las distancias entre el nuevo cluster y los viejos clusters old clusters d 1 2 -3 4 5 1 0 5,5 10 13 2 -3 5,5 0 4,5 8,5 4 10 4,5 0 3 5 13 8,5 3 0 d 1 2 3 4 5 1 0 5 6 10 13 2 5 0 1 5 8 3 6 1 0 4 7 4 10 5 4 0 3 5 13 8 7 3 0
Single - linkeage Repetir los pasos 2y 3 hasta que todos los elementos se encuentren en el mismo cluster de tamaño N
Single-linkeage http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletH.html
Simple K-Medias Particional Distancia eucl í dea Necesita el valor de  k  (#clusters) Búsqueda de prototipos
Simple K-Medias Ubicar  k (2)  puntos en el espacio representado por los objetos a ser agrupados. Estos  k  puntos son los centroides iniciales de cada grupo
Simple K-Medias Asignar cada objeto al grupo que esté más cercano a su centroide
Simple K-Medias Recalcular la posición de los  k  centroides
K-means Repetir pasos 2 y 3 hasta que los prototipos ya no varíen De esta manera se minimiza la distancia intracluster según la metrica dada
GRACIAS!!

Clustering

  • 1.
    UNIVERSIDAD TECNICA PARTICULARDE LOJA “La Universidad Católica de Loja” INTELIGENCIA ARTIFICIAL AVANZADA CLUSTERING
  • 2.
    CLASIFICACIÓN: ANÁLISIS DECLUSTERS (CLUSTERING)
  • 3.
    INTRODUCCION El Análisisde Clusters (o Análisis de conglomerados) es una técnica de Análisis Exploratorio de Datos para resolver problemas de clasificación. Su objeto consiste en ordenar objetos (personas, cosas, animales, plantas, variables, etc, …) en grupos (conglomerados o clusters) deacuerdo a carcteristicas que asemejan a los diferentes objetos
  • 4.
    ETAPAS DE UNANÁLISIS CLUSTER 1) Elección de las variables 2) Elección de la medida de asociación 3) Elección de la técnica Cluster 4) Validación de los resultados
  • 5.
    Elección de variablesVariables: ♦ Variables cualitativas Ordinales (ej: nivel de estudios) Nominales (ej: nacionalidad) ♦ Variables cuantitativas Variables discretas (ej: número de hermanos) Variables continuas (ej: peso) ANÁLISIS CLUSTER POR VARIABLES O POR INDIVIDUOS
  • 6.
    Un paso importanteen cualquier agrupación consiste en seleccionar una medida de distancia , lo que determinará la forma en la similitud de los dos elementos que se calcula . Esto influirá en la forma de los clusters, ya que algunos elementos pueden estar cerca o lejos el uno del uno otro en función de una distancia. Distancia Euclidea Elección de una medida de asociación
  • 7.
    Distancia de Minkowsky(q >=1) q=2  distancia euclidea q=1  distancia ciudad Distancia Valor Absoluto q=1  Minkowsky
  • 8.
    Distancia Mahalanobis: Datosprovienen de una o varias poblaciones con matrices de varianzas-covarianzas
  • 9.
    EJEMPLO Supongamos quese han medido n=4 variables continuas y que dos casos x,y vienen representados por los vectores x=(2.1,3.1,3.4,1.9)` e y=(1.2,2.0,1.7,3.6)` Distancia euclidea:x-y=(0.9,1.1,1.7,-1.7)`
  • 10.
    Distancia Minkowsky paraq=1 y q=3 Con q=1: Con q=3: Distancia del Valor absoluto:
  • 11.
    MÉTODOS DE ANÁLISISCLUSTER Se dividen en dos grandes grupos Métodos jerárquicos: son aquellos que para formar un clúster nuevo une o separa alguno ya existente para dar origen a otros dos de forma que se maximice una similaridad o se minimice una distancia. Dentro de estos a su vez se clasifican en: 1. Asociativos o aglomerativos: se parte de tantos grupos como individuos y se van agrupando hasta llegar a tener todos los individuos en un solo grupo. 2. Disociativos: se parte de un solo grupo que contenga a todos los individuos y se va separando hasta llegar a formar grupos individuales. Métodos no jerárquicos: se clasifican los individuos en k grupos, estudiando todas las particiones de individuos en esos k grupos y eligiendo la mejor partición.
  • 12.
  • 13.
    MÉTODOS JERÁRQUICOS Sucesiónde particiones donde cada partición se obtiene uniendo o dividiendo clusters Ejemplo:
  • 14.
    Metodos aglomerativos: los nuevos clusters se crean uniendo clusters Ventaja Rapidez Son los mas habituales Metodos divisivos: los nuevos clusters se crean dividiendo clusters(lentos) Ventaja Parten de la información global que hay en los datos El proceso de división no tienen porque seguir hasta que cada elemento forme un cluster MÉTODOS JERÁRQUICOS
  • 15.
    Dendrograma: sondiagramas bidimensional es utilizados para representar clasificaciones jerárquicas Muestra como ha sido el proceso de unión o división de los clusters MÉTODOS JERÁRQUICOS divisivo Aglomerativo
  • 16.
    Algoritmo básico declasificación (ABC) Cada caso formara un cluster P0={{1}….{m}} Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un nuevo cluster ({i}U{j}={i,j}) y se actualizara la matriz u`(k,{i,j})=u(k,i) =u(k,j) Una vez obtenida la particion P1={{1},..{i,j},..{n}}, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster
  • 17.
    EJEMPLO: supongamos quetenemos la siguiente matriz definida sobre Ω={1,2,3,4,5} calculemos cual es la jerarquia indexada que nos da el algoritmo ABC Algoritmo básico de clasificación (ABC)
  • 18.
    Algoritmo básico declasificación (ABC)
  • 19.
    Dendrograma Algoritmo básicode clasificación (ABC)
  • 20.
    Algoritmo de clasificación(AC) Cada caso formara un cluster P0={{1}….{m}} Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un unico cluster ({i}U{j}={i,j}) y se definira la disyancia desde un caso cualquiera l al nuevo cluster(i,j) d`(l,{i,j})= f(d(l,i),d(l,j), l <>i,j Una vez obtenida la particion P1={{1},..{i,j},..{n}}, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster
  • 21.
    Método del mínimoLa distancia entre dos clústeres  mínima de las distancias entre los casos de cada clúster Ejemplo: S upongamos que tenemos la siguiente matriz de distancias D definida sobre Ω={1,..5} calcular cual es la jerarquía indexada de método del mínimo.
  • 22.
    PASOS caso formaun clúster Los casos i, j más cercanos Formamos el clúster {1,2} Definimos la distancias de un caso al nuevo clúster Método del mínimo Matriz de distancias
  • 23.
    Volver a lospasos 2 y 3 buscar casos con distancias mínimas d(3,4)=2 nuevo cluster{3,4} rehacer distancia Volver a los pasos 2 y 3 buscar casos con distancias mínimas 3=d({1,2},{3,4}) nuevo cluster{1,2,3,4} rehacer matriz Método del mínimo
  • 24.
    Jerarquía aglomerada indexadaMétodo del mínimo
  • 25.
    Método del MáximoEste método es conocido como Complete Linkage o “vecino más lejano”, . La distancia entre dos clúster se define como el máximo de las distancias entre los casos de los clúster.
  • 26.
    EJEMPLO Inicialmente lapartición es: {{1}, {2},{3},{4},{5} y los casos más próximos son 1 y 2 La nueva matriz de distancia es: Los casos 3 y 4 forman la siguiente matriz Método del Máximo
  • 27.
    Cálculo para sacarel máximo Por lo tanto se unen {1,2} con {3,4} Método del Máximo DENDROGRAMA
  • 28.
    Método de WardSe calculan las distancias como medida de similitud entre los objetos. El objetivo del método se basa en que al unir dos clúster el aumento de la heterogeneidad total sea lo menor posible. El proceso termina cuando todos los casos forman un único clúster. Mide heterogeneidad Suma distancias Vector de medias
  • 29.
    EJEMPLO Hay 6casos con dos variables Cada caso forma un clúster Método de Ward P0={{1},{2},{3},{4},{5},{6}} Perdida mínima de heterogeneidad P1={{1},{2},{3},{4},{5,6}}
  • 30.
    Luego la pérdidamínima se obtiene uniendo {1} y {3} Por lo tanto: Se calcula el centro de {1,3} Método de Ward P2={{1,3},{2},{4},{5,6}} La siguiente perdida mínima de heterogeneidad al unir {1,3} y {2} es: P3={{1,2,3},{4},{5,6}}
  • 31.
    Siguiendo el procesode aglomeración para la partición P4 hay 3 posibilidades: Calculando cada uno de los centros y la pérdida mínima queda: Método de Ward
  • 32.
    Quedando como perdidamínima de heterogeneidad uniendo los clúster {4} y {5,6} con un valor de 2,21. P4={{1,2,3},{4,5,6}} Método de Ward
  • 33.
    Single - linkeageJerárquico Aglomerativo Si hay un error en algún paso no se puede volver atrás …
  • 34.
    Single - linkeageDado un conjunto de N (5) elementos a ser agrupado y una matriz de distancia (o similitud) de N x N: d 1 2 3 4 5 1 0 5 6 10 13 2 5 0 1 5 8 3 6 1 0 4 7 4 10 5 4 0 3 5 13 8 7 3 0
  • 35.
    Single - linkeageComenzar por asignar cada item a un cluster. Tenemos 5 clusters Sean las distancias entre los clusters las mismas que entre los elementos de cada cluster d 1 2 3 4 5 1 0 5 6 10 13 2 5 0 1 5 8 3 6 1 0 4 7 4 10 5 4 0 3 5 13 8 7 3 0
  • 36.
    Single - linkeageEncontrar el par más cercano de clusters y unirlo en un único cluster. Tenemos 4 clusters d 1 2 3 4 5 1 0 5 6 10 13 2 5 0 1 5 8 3 6 1 0 4 7 4 10 5 4 0 3 5 13 8 7 3 0
  • 37.
    Single - linkeageCalcular las distancias entre el nuevo cluster y los viejos clusters old clusters d 1 2 -3 4 5 1 0 5,5 10 13 2 -3 5,5 0 4,5 8,5 4 10 4,5 0 3 5 13 8,5 3 0 d 1 2 3 4 5 1 0 5 6 10 13 2 5 0 1 5 8 3 6 1 0 4 7 4 10 5 4 0 3 5 13 8 7 3 0
  • 38.
    Single - linkeageRepetir los pasos 2y 3 hasta que todos los elementos se encuentren en el mismo cluster de tamaño N
  • 39.
  • 40.
    Simple K-Medias ParticionalDistancia eucl í dea Necesita el valor de k (#clusters) Búsqueda de prototipos
  • 41.
    Simple K-Medias Ubicar k (2) puntos en el espacio representado por los objetos a ser agrupados. Estos k puntos son los centroides iniciales de cada grupo
  • 42.
    Simple K-Medias Asignarcada objeto al grupo que esté más cercano a su centroide
  • 43.
    Simple K-Medias Recalcularla posición de los k centroides
  • 44.
    K-means Repetir pasos2 y 3 hasta que los prototipos ya no varíen De esta manera se minimiza la distancia intracluster según la metrica dada
  • 45.

Notas del editor

  • #26 En estos métodos, en etapas sucesivas se va construyendo una jerarquía de conjuntos de grupos, donde cada nuevo grupo se obtiene uniendo un par de grupos de la etapa anterior.