SlideShare una empresa de Scribd logo
1 de 27
Business Intelligence
Prof. Leandro Guerra
E-mail: leandro.guerra@artedosdados.com.br
@leandro_war
artedosdados.com.br
Knowledge Discovery in Databases
fb.com/artedosdados
2
3
Business Intelligence
Nível de Maturidade
MATURIDADE
I
N
T
E
L
L
I
G
E
N
C
E
O que
aconteceu?
Por quê
aconteceu?
O que
acontecerá?
Dashboards
Scorecards
Relatórios
OLAP
Queries
Ad Hoc
Predição
Data Mining
Relembrar é viver...
4
Business Intelligence
CRISP-DM
Ele é constituído de seis etapas
• Entendimento do Negócio
• Entendimento dos Dados
• Preparação dos Dados
• Modelagem
• Avaliação
• Entrega
Relembrar é viver...
5
Business Intelligence
& Data Mining
*Introduction to KDD and data mining - http://www.mimuw.edu.pl/~son/datamining/DM/1-intro.pdf
6
KDD
Knowledge Discovery in Databases
*Etapas dos processo de KDD (Fayyad et. al. 1996)
“É o processo de descobrir conhecimento útil de uma ou mais
bases de dados. É um processo amplamente utilizado, que
inclui preparação dos dados, hieginação, seleção e técnicas
de data mining para encontrar padrões que possam ser
interpretados e transformado em conhecimento, auxiliando o
processo de tomada de decisão”
7
KDD
Etapas
*Etapas dos processo de KDD - "From Data Mining to Knowledge Discovery: An Overview" (Fayyad et. al. 1996)
1 – Entendimento do
Negócio
2 – Entendimento e
escolha dos dados
3 – Data cleaning e
pré-processamento
• Tratamento de outliers
• Tratamento de missings
4 – Featuring Engineering e
Feature Selection
5 – Escolha da tarefa de
data mining
• Classificação
• Regressão
• Agrupamento (Clustering)
• Associação
6 – Escolha do algoritmo
7 – Execução
8 – Interpretação dos
resultados
9 - Entrega
8
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Customer Churn
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
9
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Regressão Linear
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
10
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Classificação Linear
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
11
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Classificação Não-Linear
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
12
KDD
Etapa 5 – Escolha da tarefa de data mining
Exemplo: Clustering – K-Means
Valor
da
Fatura
# Reclamações
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
No
Churn
Churn
Churn
Churn
ChurnChurn
Churn
Churn
Churn
Churn
No
Churn
Baixo
Churn Médio
Churn
Alto
Churn
13
Clustering no R
K-Means – Demonstração do Algoritmo
*http://en.wikipedia.org/wiki/K-means_clustering
14
Clustering no R
K-Means
15
Clustering no R
K-Means
16
Clustering no R
K-Means
17
Clustering no R
K-Means
18
Clustering no R
Dendograma
19
Clustering no R
Dendograma
20
Clustering no R
Dendograma
21
Voltando ao Kaggle…
Otto Group Product Classification Challenge
22
Voltando ao Kaggle…
Otto Group Product Classification Challenge
23
Por onde começar?
Árvore de Decisão?
24
Random Forest
Uma floresta? Base de treinamento
(Z Variáveis e Classes)
Seleção aleatória de X
variáveis (com X << Z)
Seleção aleatória de X
variáveis (com X << Z)
Um árvore é calculada
Random Forest
Número de
árvores é
determinado
pelo usuário
*David Roberts, University of Alberta - http://www.ualberta.ca/~drr3/random-forest.html
25
Random forest
Decision Trees Ensemble
26
Random forest
Observações
Prós Contras
27
Business Intelligence

Más contenido relacionado

Similar a BI e KDD Processos

Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesRodolfo Mendes
 
Biweek Mineração de Dados com SQL Server
Biweek   Mineração de Dados com SQL ServerBiweek   Mineração de Dados com SQL Server
Biweek Mineração de Dados com SQL ServerRodrigo Dornel
 
O Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de DadosO Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de DadosCentus Consultoria
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...tdc-globalcode
 
IEncontroMinDados
IEncontroMinDadosIEncontroMinDados
IEncontroMinDadosufrj
 
Fortalecendo a Confiança: Como um semáforo na automação dá sinal verde pro ne...
Fortalecendo a Confiança: Como um semáforo na automação dá sinal verde pro ne...Fortalecendo a Confiança: Como um semáforo na automação dá sinal verde pro ne...
Fortalecendo a Confiança: Como um semáforo na automação dá sinal verde pro ne...Andre Boaz
 
TDC 2018 - Florianópolis - Case sobre Text Mining
TDC 2018 - Florianópolis - Case sobre Text Mining TDC 2018 - Florianópolis - Case sobre Text Mining
TDC 2018 - Florianópolis - Case sobre Text Mining Joao Gutheil
 
TDC2018FLN | Trilha Data Science - Text Mining. Uma abordagem simplificada pa...
TDC2018FLN | Trilha Data Science - Text Mining. Uma abordagem simplificada pa...TDC2018FLN | Trilha Data Science - Text Mining. Uma abordagem simplificada pa...
TDC2018FLN | Trilha Data Science - Text Mining. Uma abordagem simplificada pa...tdc-globalcode
 

Similar a BI e KDD Processos (20)

Ementa curso de dados
Ementa curso de dadosEmenta curso de dados
Ementa curso de dados
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
 
Biweek Mineração de Dados com SQL Server
Biweek   Mineração de Dados com SQL ServerBiweek   Mineração de Dados com SQL Server
Biweek Mineração de Dados com SQL Server
 
Clustering
ClusteringClustering
Clustering
 
Business Analytics
Business AnalyticsBusiness Analytics
Business Analytics
 
O Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de DadosO Modelo de Decisão para Profissionais de Administração de Dados
O Modelo de Decisão para Profissionais de Administração de Dados
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
TDC2018SP | Trilha BigData - Big Data Governance - Como estabelecer uma Gover...
 
IEncontroMinDados
IEncontroMinDadosIEncontroMinDados
IEncontroMinDados
 
Fortalecendo a Confiança: Como um semáforo na automação dá sinal verde pro ne...
Fortalecendo a Confiança: Como um semáforo na automação dá sinal verde pro ne...Fortalecendo a Confiança: Como um semáforo na automação dá sinal verde pro ne...
Fortalecendo a Confiança: Como um semáforo na automação dá sinal verde pro ne...
 
TDC 2018 - Florianópolis - Case sobre Text Mining
TDC 2018 - Florianópolis - Case sobre Text Mining TDC 2018 - Florianópolis - Case sobre Text Mining
TDC 2018 - Florianópolis - Case sobre Text Mining
 
TDC2018FLN | Trilha Data Science - Text Mining. Uma abordagem simplificada pa...
TDC2018FLN | Trilha Data Science - Text Mining. Uma abordagem simplificada pa...TDC2018FLN | Trilha Data Science - Text Mining. Uma abordagem simplificada pa...
TDC2018FLN | Trilha Data Science - Text Mining. Uma abordagem simplificada pa...
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Transformando dados em negócio
Transformando dados em negócioTransformando dados em negócio
Transformando dados em negócio
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 

Más de Leandro Guerra

Text Analytics para o Mercado Financeiro - Devcamp 2015
Text Analytics para o Mercado Financeiro - Devcamp 2015Text Analytics para o Mercado Financeiro - Devcamp 2015
Text Analytics para o Mercado Financeiro - Devcamp 2015Leandro Guerra
 
Text Analytics para o Mercado Financeiro
Text Analytics para o Mercado FinanceiroText Analytics para o Mercado Financeiro
Text Analytics para o Mercado FinanceiroLeandro Guerra
 
Azure Machine Learning
Azure Machine LearningAzure Machine Learning
Azure Machine LearningLeandro Guerra
 
Gráficos Interativos (R) e Gráficos de Redes Complexas (Gephi)
Gráficos Interativos (R) e Gráficos de Redes Complexas (Gephi)Gráficos Interativos (R) e Gráficos de Redes Complexas (Gephi)
Gráficos Interativos (R) e Gráficos de Redes Complexas (Gephi)Leandro Guerra
 
R, Python, Twitter e Tableau para Business Intelligence
R, Python, Twitter e Tableau para Business IntelligenceR, Python, Twitter e Tableau para Business Intelligence
R, Python, Twitter e Tableau para Business IntelligenceLeandro Guerra
 
Text Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no TableauText Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no TableauLeandro Guerra
 
Dashboards para BI e Introdução ao Tableau
Dashboards para BI e Introdução ao TableauDashboards para BI e Introdução ao Tableau
Dashboards para BI e Introdução ao TableauLeandro Guerra
 
Introdução - Big Data e Business Intelligence
Introdução - Big Data e Business IntelligenceIntrodução - Big Data e Business Intelligence
Introdução - Big Data e Business IntelligenceLeandro Guerra
 

Más de Leandro Guerra (9)

Text Analytics para o Mercado Financeiro - Devcamp 2015
Text Analytics para o Mercado Financeiro - Devcamp 2015Text Analytics para o Mercado Financeiro - Devcamp 2015
Text Analytics para o Mercado Financeiro - Devcamp 2015
 
Text Analytics para o Mercado Financeiro
Text Analytics para o Mercado FinanceiroText Analytics para o Mercado Financeiro
Text Analytics para o Mercado Financeiro
 
Azure Machine Learning
Azure Machine LearningAzure Machine Learning
Azure Machine Learning
 
Bi aula 8
Bi   aula 8Bi   aula 8
Bi aula 8
 
Gráficos Interativos (R) e Gráficos de Redes Complexas (Gephi)
Gráficos Interativos (R) e Gráficos de Redes Complexas (Gephi)Gráficos Interativos (R) e Gráficos de Redes Complexas (Gephi)
Gráficos Interativos (R) e Gráficos de Redes Complexas (Gephi)
 
R, Python, Twitter e Tableau para Business Intelligence
R, Python, Twitter e Tableau para Business IntelligenceR, Python, Twitter e Tableau para Business Intelligence
R, Python, Twitter e Tableau para Business Intelligence
 
Text Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no TableauText Mining para BI e Finalização do Dashboard no Tableau
Text Mining para BI e Finalização do Dashboard no Tableau
 
Dashboards para BI e Introdução ao Tableau
Dashboards para BI e Introdução ao TableauDashboards para BI e Introdução ao Tableau
Dashboards para BI e Introdução ao Tableau
 
Introdução - Big Data e Business Intelligence
Introdução - Big Data e Business IntelligenceIntrodução - Big Data e Business Intelligence
Introdução - Big Data e Business Intelligence
 

BI e KDD Processos

  • 1. Business Intelligence Prof. Leandro Guerra E-mail: leandro.guerra@artedosdados.com.br @leandro_war artedosdados.com.br Knowledge Discovery in Databases fb.com/artedosdados
  • 2. 2
  • 3. 3 Business Intelligence Nível de Maturidade MATURIDADE I N T E L L I G E N C E O que aconteceu? Por quê aconteceu? O que acontecerá? Dashboards Scorecards Relatórios OLAP Queries Ad Hoc Predição Data Mining Relembrar é viver...
  • 4. 4 Business Intelligence CRISP-DM Ele é constituído de seis etapas • Entendimento do Negócio • Entendimento dos Dados • Preparação dos Dados • Modelagem • Avaliação • Entrega Relembrar é viver...
  • 5. 5 Business Intelligence & Data Mining *Introduction to KDD and data mining - http://www.mimuw.edu.pl/~son/datamining/DM/1-intro.pdf
  • 6. 6 KDD Knowledge Discovery in Databases *Etapas dos processo de KDD (Fayyad et. al. 1996) “É o processo de descobrir conhecimento útil de uma ou mais bases de dados. É um processo amplamente utilizado, que inclui preparação dos dados, hieginação, seleção e técnicas de data mining para encontrar padrões que possam ser interpretados e transformado em conhecimento, auxiliando o processo de tomada de decisão”
  • 7. 7 KDD Etapas *Etapas dos processo de KDD - "From Data Mining to Knowledge Discovery: An Overview" (Fayyad et. al. 1996) 1 – Entendimento do Negócio 2 – Entendimento e escolha dos dados 3 – Data cleaning e pré-processamento • Tratamento de outliers • Tratamento de missings 4 – Featuring Engineering e Feature Selection 5 – Escolha da tarefa de data mining • Classificação • Regressão • Agrupamento (Clustering) • Associação 6 – Escolha do algoritmo 7 – Execução 8 – Interpretação dos resultados 9 - Entrega
  • 8. 8 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Customer Churn Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn
  • 9. 9 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Regressão Linear Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn
  • 10. 10 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Classificação Linear Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn
  • 11. 11 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Classificação Não-Linear Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn
  • 12. 12 KDD Etapa 5 – Escolha da tarefa de data mining Exemplo: Clustering – K-Means Valor da Fatura # Reclamações No Churn No Churn No Churn No Churn No Churn No Churn No Churn Churn Churn Churn ChurnChurn Churn Churn Churn Churn No Churn Baixo Churn Médio Churn Alto Churn
  • 13. 13 Clustering no R K-Means – Demonstração do Algoritmo *http://en.wikipedia.org/wiki/K-means_clustering
  • 21. 21 Voltando ao Kaggle… Otto Group Product Classification Challenge
  • 22. 22 Voltando ao Kaggle… Otto Group Product Classification Challenge
  • 24. 24 Random Forest Uma floresta? Base de treinamento (Z Variáveis e Classes) Seleção aleatória de X variáveis (com X << Z) Seleção aleatória de X variáveis (com X << Z) Um árvore é calculada Random Forest Número de árvores é determinado pelo usuário *David Roberts, University of Alberta - http://www.ualberta.ca/~drr3/random-forest.html