Este documento apresenta os principais algoritmos de aprendizado de máquina, incluindo regressão, classificação, clusterização e detecção de anomalias. Ele explica métricas de desempenho para classificação binária como acurácia, precisão, recall e F1 score, e demonstra como o algoritmo K-means funciona para clusterização de dados.
17. K-Means Cluster
Todos os dados são plotados no gráfico
Os pontos representam os indivíduos analisados, mas não estão
separados em grupos, todos fazem parte do mesmo grupo. Ao informar a
quantidade de centróides, as interções começam até o momento de convergir
e encontrar os K grupos.
Os pontos representam os dados de treinos, neste caso o dataset
18. K-Means Cluster
Centróides iniciais em posições aleatórias
Ao iniciar o algoritmo, os K pontos (chamados de centróides) são
plotados aleatoriamente no plano e possuem um ponto de partida para iniciar
o algoritmo.
As cruzes representam os centróides, e a linha tracejada é a borda de
separação entre os centróides, fazendo com que esse grupo seja
dividido entre os individuos da parte de cima desta linha, e da parte de
baixo.
19. K-Means Cluster
Com base nos pontos e centros, inicia-se o algoritmo
Os centróides são re-calculados a cada interação, calculando a
média da distância entre cada ponto e a posição do centróide. Então, com
base neste resultado o centróide muda de lugar ficando mais ao centro de seus
pontos (elementos).
Posição inicial (amarelo) do centróide seguindo para uma próxima
posição (vermelho e azul).
20. K-Means Cluster
Alteração dos pontos e centros
Enquanto a distância for recalculada e elementos mudarem de
centro, o algoritmo continua executando.
Reparem que os elementos marcados mudaram de centro.
22. K-Means Cluster
Com base nos pontos e centros, inicia-se o algoritmo
Mais uma interação e re-calculo das distâncias, e com isso, mais uma
vez a movimentação dos centróides.
Posição inicial (amarelo) do centróide seguindo para uma próxima
posição (vermelho e azul).
23. K-Means Cluster
Quando parar?
No momento que os centróides não recebem nenhum elemento novo
em seu grupo significa que eles convergiram para uma posição satisfatória, e
criou os grupos necessários.
Enquanto a média da distância calculada ainda alterar pontos entre os
grupos, o algoritmo continua interagindo e re-calculando os centróides.
24. K-Means Cluster
Ponto satisfatório
Ao encontrar o ponto satisfatório, o algoritmo para de executar e
mantém os elementos conectados com seus centróides.
Depois da interação não houve mudança de elementos.
25. K-Means Cluster
Quantos centróides usar?
Existe uma linha de pesquisa que usa esta representação de elbow
(cotovelo) para definir uma quantidade razoavel de centróides.
Esta técnica condiz em encontrar o platô e então utilizar valores
anteriores. Quando utilizar um valor que esteja estagnado no platô, o
resultado não terá tanta relevância e impacto para o agrupamento.