O documento discute conceitos de Business Intelligence e Data Mining. Apresenta as etapas do processo CRISP-DM e do processo de Knowledge Discovery in Databases (KDD), incluindo preparação de dados, seleção de tarefas como classificação e clustering, e escolha de algoritmos. Demonstra exemplos de clustering com K-Means no R.
1. Business Intelligence
Prof. Leandro Guerra
E-mail: leandro.guerra@artedosdados.com.br
@leandro_war
artedosdados.com.br
Knowledge Discovery in Databases
fb.com/artedosdados
3. 3
Business Intelligence
Nível de Maturidade
MATURIDADE
I
N
T
E
L
L
I
G
E
N
C
E
O que
aconteceu?
Por quê
aconteceu?
O que
acontecerá?
Dashboards
Scorecards
Relatórios
OLAP
Queries
Ad Hoc
Predição
Data Mining
Relembrar é viver...
4. 4
Business Intelligence
CRISP-DM
Ele é constituído de seis etapas
• Entendimento do Negócio
• Entendimento dos Dados
• Preparação dos Dados
• Modelagem
• Avaliação
• Entrega
Relembrar é viver...
5. 5
Business Intelligence
& Data Mining
*Introduction to KDD and data mining - http://www.mimuw.edu.pl/~son/datamining/DM/1-intro.pdf
6. 6
KDD
Knowledge Discovery in Databases
*Etapas dos processo de KDD (Fayyad et. al. 1996)
“É o processo de descobrir conhecimento útil de uma ou mais
bases de dados. É um processo amplamente utilizado, que
inclui preparação dos dados, hieginação, seleção e técnicas
de data mining para encontrar padrões que possam ser
interpretados e transformado em conhecimento, auxiliando o
processo de tomada de decisão”
7. 7
KDD
Etapas
*Etapas dos processo de KDD - "From Data Mining to Knowledge Discovery: An Overview" (Fayyad et. al. 1996)
1 – Entendimento do
Negócio
2 – Entendimento e
escolha dos dados
3 – Data cleaning e
pré-processamento
• Tratamento de outliers
• Tratamento de missings
4 – Featuring Engineering e
Feature Selection
5 – Escolha da tarefa de
data mining
• Classificação
• Regressão
• Agrupamento (Clustering)
• Associação
6 – Escolha do algoritmo
7 – Execução
8 – Interpretação dos
resultados
9 - Entrega
8. 8
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Customer Churn
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
9. 9
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Regressão Linear
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
10. 10
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Classificação Linear
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
11. 11
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Classificação Não-Linear
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
12. 12
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Clustering – K-Means
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
Baixo
Churn Médio
Churn
Alto
Churn
24. 24
Random Forest
Uma floresta? Base de treinamento
(Z Variáveis e Classes)
Seleção aleatória de X
variáveis (com X << Z)
Seleção aleatória de X
variáveis (com X << Z)
Um árvore é calculada
Random Forest
Número de
árvores é
determinado
pelo usuário
*David Roberts, University of Alberta - http://www.ualberta.ca/~drr3/random-forest.html