Slides utilizados durante a apresentação do artigo intitulado "Avaliação de Partições Vs Avaliação de Clusters" no III Workshop on Computational Intelligence - Joint Conference 2010
Avaliacao de particao vs avaliacao de clusters wci 2010
1. III Workshop on Computational Intelligence
Avaliação de Partições vs
Avaliação de Clusters
Gustavo Henrique Rodrigues Pinto Tomas
Dra. Katti Faceli
Projeto financiado por:
Programa Institucional de Bolsas de Iniciação Cientifica – PIBIC
Conselho Nacional de Desenvolvimento Científico e Tecnológico – CNPq
Universidade Federal de São Carlos – Campus Sorocaba
2. Motivação
• Definição de cluster;
• Abordagens tradicionais: cada algoritmo
segue um critério diferente;
• Abordagens multi-objetivos: Ex.: MOCLE.
• Nova Abordagem: Análise de Clusters
Individualmente.
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
3. Motivação
Preparação dos
Agrupamento Validação
Dados
Critérios de Agrupamento
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
4. Critérios de Agrupamento
• Compactação:
– Pequena variação intra-cluster;
– Clusters esféricos e/ou bem separados;
• Encadeamento:
– Objetos vizinhos tem que compartilhar o mesmo cluster;
– Adequado para clusters com forma arbitrária;
– Ruim quando há pouca separação entre os clusters;
• Separação:
– Somente a separação espacial fornece pouca informação;
– Aplicada em associação com outros critérios.
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
5. Abordagens
Estrutura Real K-Means
Single Link Average
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
6. Índices Relativos
Índice Critério Característica
Desvio Total Compactação Avalia a qualidade de um
(Adaptado) agrupamento em termos da
compactação dos clusters
Conectividade Encadeamento Reflete o grau com que os objetos
(Adaptado) vizinhos são colocados no mesmo
cluster
Silhueta Compactação e Baseia-se na proximidade entre os
Separação objetos de um cluster e na distância
dos objetos de um cluster ao cluster
mais próximo
Consistência-KNN Encadeamento Os objetos de cada classe são
(Adaptado) distribuídos de forma consistente.
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
7. Experimento Realizado
1. Preparação dos dados artificiais FCPS;
2. Execução para vários conjuntos de dados, utilizando
a distância Euclideana como função de
proximidade;
3. Tratamento dos resultados;
4. Plotagem de gráficos;
5. Análise dos índices.
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
8. Experimento Realizado
-Normalizar: Silhueta, Desvio Total
1. Preparação dos dados artificiais Conectividade
e
FCPS;
- Alterar melhor valor: Silhueta e
2. Execução para vários conjuntos de dados, utilizando
Consistência-KNN
a distância Euclideana como função de
proximidade;
3. Tratamento dos resultados;
4. Plotagem de gráficos;
5. Análise dos índices.
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
9. Conjunto de Dados
Fundamental Clustering Problems Suite (FCPS)
Wing Nut Atom
LSun Target
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
10. Resultados: Wing Nut
1,0
0,9
0,8
0,7
0,6 sil
0,5 dev
0,39 0,39 0,39
0,4 con
0,28 0,28 0,28
0,3 cknn
0,2 0,12 0,13 0,11 0,13 0,14
0,1 0,01
0,0
Real C1 C2
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
11. Resultados: Atom
1,00
1,0
0,9
0,8
0,7 0,62
0,6 0,55
sil
0,5 dev
0,4 0,34 con
0,3 cknn
0,2
0,10
0,08
0,1 0,04 0,01
0,07
0,00 0,00 0,00
0,0
Real C1 C2
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
12. Resultados: LSun
1,0
0,9
0,8
0,7
0,6 sil
0,5 dev
0,4 con
0,29 0,29 0,32 0,29
0,3 0,26
0,24
0,26 cknn
0,16
0,2 0,13 0,13 0,13
0,1
0,01 0,00 0,00 0,00 0,01
0,0
Real C1 C2 C3
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
13. Resultados: Target
1,00 1,00 1,00 1,00
1,0
0,9
0,8
0,67 0,70
0,7 0,65 0,65 0,65
0,6
0,61
sil
0,5 0,44 dev
0,41
0,4 0,35 con
0,3 cknn
0,2 0,13
0,09
0,1 0,08
0,02 0,02 0,02 0,02
0,00 0,00 0,00 0,00 0,01 0,01 0,01 0,01
0,0
Real C1 C2 C3 C4 C5 C6
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
14. Considerações Finais
• Análise de clusters individualmente é uma abordagem
promissora;
• Conjunto de índices complementares para avaliar
estruturas heterogêneas;
• Qualidade baixa de um cluster influência
negativamente o resultado da partição.
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
15. Considerações Finais
• As estruturas destes conjuntos de dados
favorecem os critérios baseados em
encadeamento;
• O índice consistência-KNN obteve em média bom
desempenho;
• Índices com mesmo critério podem se comportar
de maneira diferente.
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba
16. Dúvidas?
Gustavo Henrique Rodrigues Pinto Tomas
Email: gustavoh_rodrigues@hotmail.com
Katti Faceli
Email: katti@ufscar.br
Obrigado!
Análise de Partições vs Avaliação de Clusters – III WCI – UFSCar Campus Sorocaba