The document discusses the silhouette coefficient, which is used to measure how closely grouped objects are within their assigned cluster. It defines the silhouette coefficient s(i) for each object i based on comparing a(i), the average similarity of i to other objects in its assigned cluster A, and b(i), the average similarity of i to objects in the next best cluster B. Values of s(i) near 1 indicate i is well matched to cluster A, while values near -1 suggest i belongs more in cluster B. The silhouette coefficient provides a way to validate how appropriately objects have been clustered.
2. FORMALIZAÇÃO
• Para construir silhuetas são necessárias:
1. A partição obtida pela aplicação de alguma técnica de
agrupamento;
2. A coleção de todas as proximidades entre os objetos.
• Para cada objeto i, um certo valor s(i) é introduzido, e então
esses números são combinados em um gráfico.
3. Dissimilaridades
• Números s(i) no caso de dissimilaridades:
• Pegar qualquer objeto i no conjunto de dados e denotar por A o
grupo ao qual ele foi atribuído;
• Quando o grupo A contém outros objetos além de i, então pode-se
calcular:
• a(i): dissimilaridade média do objeto i com relação a todos os
outros objetos de A
• Considere agora qualquer grupo C diferente do grupo A e calcule:
• d(i, C): dissimilaridade média de i para com todos os objetos de C.
4. Dissimilaridades
a(i): é o comprimento médio
de todas as linhas dentro dos
grupos
d(i,C): é o comprimento
médio de todas as linhas que
vão de i até o grupo C
5. Dissimilaridades
• Números s(i) no caso de dissimilaridades:
• Depois de calcular d(i, C) para todos os grupos C diferentes de A,
o menor desses números é selecionado e o denotado por:
• 𝑏 𝑖 = 𝑚𝑖𝑛𝑖𝑚𝑢𝑚𝐶<>𝐴d(i, C)
• O grupo B para o qual esse mínimo é atingido é denominado
vizinho do objeto i:
• d (i, B) = b (i)
6. Dissimilaridades
• Números s(i) no caso de dissimilaridades:
• Isso é como a segunda melhor escolha para o objeto i:
• Se ele não pudesse ser acomodado no cluster A, qual cluster B
seria o concorrente mais próximo?
• Na Figura, o cluster B realmente parece estar “mais próximo”, em
média, do objeto i, quando o próprio A é descartado.
7. Dissimilaridades
• Números s(i) no caso de dissimilaridades:
• O número s(i) é obtido combinando a(i) e b(i):
• 𝑠 𝑖 = ቐ
1 − 𝑎 𝑖 /𝑏 𝑖
0
𝑏 𝑖 /𝑎 𝑖 − 1
• Equação:
• 𝑠 𝑖 =
𝑏 𝑖 −𝑎(𝑖)
max{𝑎 𝑖 , 𝑏 𝑖 }
se a(i) < b(i)
se a(i) = b(i)
se a(i) > b(i)
8. Dissimilaridades
• Quando o cluster A contém apenas um único
objeto, não está claro como a(i) deve ser definido, e então
s(i) é simplesmente definido como igual a zero.
• Essa escolha é obviamente arbitrária, mas um valor zero
parece ser mais neutro, portanto:
• -1 <= s(i) <= 1
• Para cada objeto i.
9. Dissimilaridades
• Quando s(i) próximo a 1:
• Implica que a dissimilaridade “dentro” de a(i) é muito menor
do que a menor dissimilaridade “entre” b(i)
• Pode-se dizer que i é “bem agrupado”
• Há pouca dúvida de que i foi atribuído a um grupo muito
apropriado:
• A segunda melhor escolha (B) não é tão próxima quanto a
escolha real (A)
10. Dissimilaridades
• Quando s(i) próximo a 0:
• Implica que a(i) e b(i) são praticamente iguais
• Não está claro se i deveria ter sido atribuido ao grupo A ou ao grupo B
• O objeto i está igualmente longe de ambos os grupos
• Quando s(i) próximo a -1:
• Implica que a(i) é muito maior que b(i)
• O objeto i está, na média, muito mais perto do grupo B do que do
grupo A
• Seria mais natural atribuir o objeto i ao grupo B
11. Dissimilaridades
• s(i) mede quão bem o objeto i corresponde ao agrupamento em
questão, isto é, quão bem ele foi classificado
• No caso especial em que há apenas dois clusters (k = 2),
mudar o objeto i de um cluster para o outro converterá s(i) em -
s(i).
12. Similaridades
• a’(i) e d’(i,C) média das similaridades
• 𝑏′ 𝑖 = 𝑚𝑖𝑛𝑖𝑚𝑢𝑚𝐶<>𝐴d′(i, C)
• O número s(i) é dado por:
• 𝑠 𝑖 = ቐ
1 − 𝑏′ 𝑖 /𝑎′ 𝑖
0
𝑎′ 𝑖 /𝑏′ 𝑖 − 1
se a’(i) > b’(i)
se a’(i) = b’(i)
se a’(i) < b’(i)
13. Referência
• ROUSSEEUW, P. Silhouettes: a graphical aid to the
interpretation and validation of cluster analysis. J. Comput. Appl.
Math., Elsevier Science Publishers B. V., v. 20, n. 1, p. 53–65,
1987. ISSN 0377-0427. Disponível em:
<http://portal.acm.org/citation.cfm?id=38772>.