Este documento apresenta um seminário sobre teoria e prática de data mining. Apresenta o orador Pedro Perfeito e sua experiência. A agenda inclui introdução ao data mining, metodologia CRISP-DM e demonstrações práticas de modelos de data mining no Excel e SQL Server 2008 R2. O objetivo é que os participantes entendam data mining e saibam criar modelos preditivos usando diferentes ferramentas.
2. Apresentação
• Pedro Perfeito, 33 anos, natural do Porto
• Consultor BI Novabase
• Licenciado em Informática Gestão pela UPT (Porto, 2001)
• Mestre em Sistemas Integrados Apoio à Decisão ISCTE (Lisboa’09)
• Co-fundador de comunidade BI Portugal www.BIResort.net
• Certificado mundial em Business Intelligence pela www.TDWI.org
• Professor convidado ISCTE-IUL (Mestrado BI) e UPT (Pós-Graduação)
• Microsoft Most Valuable Professional (MVP) em SQL Server (BI)
• A preparar doutoramento nesta área
• Mais detalhes em www.pedrocgd.blogspot.com
3. Agenda
• Objectivos
• Parte I - da teoria…
• Introdução ao Data Mining
• Metodologia CRISP-DM
• Parte II – à prática…
• Concepção de um modelo através do add-in do Excel
• Concepção de um modelo através do SQL 2008 R2
• Conclusão
4. Objectivos
No final da sessão deverão:
• Conhecer um pouco mais sobre o conceito de Data Mining, bem
como o seu impacto em aplicações no “mundo real”
• Compreender o processo de criação de um modelo preditivo de
Data Mining, através do Excel e do SQL 2008 R2
7. Será que vem Será um cliente
comprar algo cumpridor se
ou virá apenas conceder
passear? crédito?
Será que já é
Se já fez nosso
compras nesta cliente?
loja, terá ficado
satisfeito?
12. • Data mining é o processo de descoberta de novas correlações, padrões e
tendências em grandes quantidades de dados, usando tecnologias de
reconhecimento de padrões, bem como técnicas estatísticas e
matemáticas. [Gartner]
• Data Mining é também conhecido por ser um dos passos da descoberta
de conhecimento em base de dados [Fayyad et al ’96]
12
13. • Campanhas de marketing focadas (Direct mail marketing)
• Personalização de web-sites
• Análise do cesto de compras de um cliente (Ex: cervejas vs. fraldas)
• Detecção de fraudes em cartões de crédito
• Detecção de fraudes em bolsa
• Previsão de movimentos de acções
• Medicina (ex: prevenção de doenças)
• (…)
13
14. • Falta acreditar nos resultados dos seus modelos
• Não existem dados ou têm pouca/nenhuma qualidade
• Problemas éticos e legais começam a ser colocados com a
Invasão de privacidade (Ex: Facebook, Hi5…)
• Impacto na forma como os dados são utilizados e analisados
• Cada vez é mais difícil autorização no uso de dados pessoais
15. • Classificação: comprar/vender, baixo risco/alto risco, 1/0…
• Segmentação: encontrar grupos com mesmas características nos dados
• Associação: quando se compra A e B, existe probabilidade de compra de C
• Visualização: para facilitar a descoberta
• Previsão: valor das vendas no próximo mês
• (…)
15
17. • Data Warehousing
• Consultas SQL
• Consultas Ad Hoc
• Reporting
• Um agente de Software
• Uma ferramenta OLAP
17
18. • Fidelização de clientes
•
•
Gestão Stocks
Detecção de fraudes
Tarefas •
•
Redes Neuronais Artificiais
Árvores de Decisão
• Indução de regras
• Risco concessão de crédito • Clustering
• ... • Classificação • Nearest Neighbour
• Previsão • Series Temporais …
• Associação
• Segmentação
Aplicações • ...
Técnicas
18
19. • CRISP-DM (CRoss Industry Standard Process for Data Mining) é uma
metodologia de desenvolvimento de projectos de Data Mining
• É bastante compreensiva e fornece uma visão integrada e delimitada
sobre as 6 fases que um projecto de Data Mining deverá seguir
19
21. • Cenário
Instituição Financeira com concessão de
créditos a clientes
• Problema
Incumprimento no pagamento de
prestações de crédito pelos clientes
21
22. • Objectivo
Minimizar o risco de concessão de
créditos a clientes incumpridores
• Possível Solução
Criando um modelo preditivo
através de técnicas de Data
Mining
22
23. • Um modelo que a partir de informações do passado (inputs) faz previsões
sobre o futuro (outputs)
novos
Base dados pedidos
Clientes
Cliente
Idade alto risco
Sexo
Rendimento Modelo
Nr. Filhos Cliente
(…) baixo risco
30. Créditos
Concedidos
Hipotecas Base Dados Utilizadores
Multidimensional Negócio
(Creditos_OLAP)
Pagamentos
Recebidos
Dados
Clientes
(…) BD
(Creditos_FLAT)
Sistema
Operacional
32. Créditos
Concedidos
Hipotecas Data Base Dados Utilizadores
Warehouse Multidimensional Negócio
(Creditos_DW) (Creditos_OLAP)
Pagamentos
Recebidos
Dados
Clientes
(…) BD
(Creditos_FLAT)
Sistema
Operacional
34. Quem DimEmpregado
vendeu? empregado_dimkey
empregado_id
Quando foi outros atributos
realizada a venda? O que foi vendido?
DimData DimProduto
data_dimkey produto_dimkey
produto_dimkey
FactVendas
ano produto_id
mês data_dimkey
data_dimkey outros atributos
outros atributos empregado_dimkey
geografia_dimkey
produto_dimkey
cliente_dimkey chave factos
Chaves externas
fornecedor_dimkey
valor_venda (€)
unidades Métricas
Quem forneceu? .
.
DimFornecedor DimCliente
cliente_dimkey Quem
fornecedor_dimkey cliente_dimkey
fornecedor_id cliente_id comprou?
outros atributos cliente_nome
outros atributos
35. DimGeografia
AV
LIS DimProduto
PT
PT Produto A
1097 Unidade Produto B
Produto B
€28 k Vendas
“Mostra-me o valor das vendas (€) Produto C
e unidades vendidas do Produto
Produto D
B, no Porto (PT) no ano de 2004
Produto E
? 2001 2002 2003 2004
DimData
36. • Habilitações académicas
• Profissão
• Antiguidade do Cliente em meses
• Numero de Produtos que possui
• valor patrimonial no banco (3/6/9/12 meses)
• Valor total em divida
• Total de transacções realizadas
• saldo médio (3/6/9/12 meses)
• (…)
39. És tu o guru
do Business
Intelligence?
PROVA-O!
Faz o teste de escolha múltipla e
recebe livros BI
Comunidade de Business Intelligence
40. Soluções Microsoft para Business
Intelligence
6 de Maio de 2010 | 9h-17h
Auditório do Taguspark
Neste seminário de um dia, Rafal Lukawiecki vai falar
desde a criação à disponibilização de uma solução de
BI utilizando a plataforma de BI da Microsoft, dando
destaque ao Microsoft SQL Server 2008 R2 e o
sistema Microsoft Office de 2010, nomeadamente o
PowerPivot, SharePoint 2010 e os PerformancePoint Rafal Lukawiecki
Services
Inscrições em:
http://www.microsoft.com/portugal/business/eventos/rafal/default.msp
x
41. A sua opinião é importante!
Complete o questionário de
avaliação e devolva-o à
saida.