O documento discute a obtenção de combinações ótimas de classificadores para resolver problemas de classificação. Ele explica que cada classificador individual pode capturar informações únicas, e que combiná-los pode levar a um desempenho superior ao usar apenas um classificador. O objetivo final é encontrar um conjunto de classificadores que consiga classificar corretamente todas as amostras de uma base de validação.
2. Realidade...
Você possui um problema para resolver. Por
um exemplo de
classificação, predição, detecção de
anomalias.
O que você precisa para resolver um
problema desses?
1- Saber algumas características do
problema.
2- Saber que tipo de método pode ser
apropriado para resolvê-lo.
3- Testar os métodos e escolher o de melhor
desempenho.
3. Realidade...
Qual é o grande problema com os passos
descritos anteriormente?
Teorema No Free Lunch!
1- Para um problema X, qual o melhor
método?
2- Supondo que exista um método ótimo.
Quais os conjuntos de seus parâmetros que
permitem gerar um modelo ótimo?
3- O problema X tem solução satisfatória
com os métodos existentes?
4. Realidade...
Agora imagine que você seja uma
especialista em análise e mineração de
dados.
Toda semana surge um problema desses
para você resolver.
O que você faz?
Você faz aqueles três passos anteriores?
5. Supondo um problema qualquer
Base de dados X. Objetivo: conseguir um
classificador ótimo ou próximo disso.
Para gerar um modelo você divide sua base.
Em geral:
Treinamento, Validação e Teste.
Treinamento e Teste.
Qual seria o classificador ótimo?
Você pode até conseguir um classificador
ótimo para sua base X, mas ele será
realmente ótimo?
9. Combinando Classificadores
Objetivo: busca pela mistura de
classificadores que dá o melhor desempenho
possível.
Como: explorando o espaço de busca de
classificadores.
Algoritmos de busca.
Problema: como misturar os classificadores.
10. Combinando Classificadores
Informações únicas presentes em cada
classificador
Quando em conjunto produzem um melhor
desempenho.
Por exemplo, dados 10 classificadores e a
base X.
Para uma amostra de validação, apenas o
classificador 1 acerta. Os demais erram.
O classificador 1 também possui péssimo
desempenho.
Tendência: dar pouca importância a ele.
Problema: perda de informações relevantes.
11. Objetivo e Solução Candidata
Objetivo: encontrar um conjunto de
classificadores que acertem todas as
amostras de uma base de validação.
Representação da solução:
s = {MLP12,Tree2,Naive1,MLP2,MLP10};
s = {c1, c2, c3, c4, c5};
Weka e resultados...