1. UNIVERSIDADE FEDERAL DA PARAÍBA
CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO
CAMPUS IV – LITORAL NORTE
DISCIPLINA: INTELIGÊNCIA ARTIFICIAL
PROFESSOR: ANDREI FORMIGA
KNOWLEDGE DISCOVERY DATABASE (KDD) E DATA
MINING (DM)
2. EQUIPE
• HERMANNY ALEXANDRE
– hermannyfilho@hotmail.com
• GEORGE LIMA
– george.lima@dce.ufpb.br
• THIAGO OLIVEIRA
– thiago.oliveira@dce.ufpb.br
– http://about.me/thiagooliveira
3. Agenda
• Introdução
• KDD
– Visão Geral
– Processo
– Tarefas
• Data Mining
– Objetivos
– Como implementar
– Aplicações
– Processos
• Exemplos de Aplicações
• Conclusões
5. KDD
Visão Geral
• Knowledge Discovery Database (Descoberta de Conhecimento em Base de Dados ) é o
processo de transformação de dados em conhecimento.
É empregado para descrever todo o processo de extração de conhecimentos dos
dados, e possui varias etapas interligadas como: seleção, pré-processamento,
transformação, Data-Mining e interpretação enquanto que data mining é
empregado somente para o estagio de descoberta do processo de KDD.
• O objetivo fundamental do KDD é descobrir conhecimento útil, válido, relevante
e novo sobre uma determinada atividade através de algoritmos, tendo em conta
as ordens de magnitude crescente nos dados .
6. KDD
Visão Geral
• A extração de conhecimento, além das informações empíricas, possui a capacidade de
detectar e colher informação mais profundas e “escondidas” entre os bancos de dados. Na
prática, se assemelha ao conceito do data-mining (mineração de dados).
8. 1. Compreensão do Domínio de
Aplicação
• Levantamento dos requisitos necessários;
• Geralmente trabalham o especialista do domínio e o
analista juntos.
9. 2. Seleção
• Seleção ou segmentação dos dados apropriados para
a análise de acordo com algum critério;
• Exemplos: Todas as pessoas que possuem carro.
10. 3. Pré-processamento
• Estágio de limpeza dos dados;
• Reconfiguração dos dados para assegurar
formatos consistentes;
• Ex: sexo = “F” ou “M”
sexo = “M” ou “H”
11. 4. Transformação
• Padronizar os dados para suprir limitações das
técnicas de Mineração de dados;
• Exemplos: atributos de data e hora.
• Disponibilizar os dados de maneira usável e
navegável;
12. 5. Mineração de Dados
• Aplica-se técnicas e algoritmos para descobrir
novos conhecimentos;
– Oriundas de diversas áreas: Aprendizado de
Máquina, Estatística, Redes Neurais, Banco de
Dados, etc.
13. 6. Interpretação e Avaliação do
Conhecimento
• Interpretar o conhecimento extraído através
de ferramentas estatísticas e de visualização;
• Caso seja irrelevante, refazer as etapas
anteriores.
14. KDD
Tarefas de KDD
• As tarefas são dependentes da aplicação e do interesse do
usuário. Assim cada tarefa de KDD extrai um tipo diferente de
conhecimento do BD e requer um algoritmo diferente para a
extração de conhecimento.
• O KDD é dividido em 3 tarefas:
• Regras de Associação
• Classificação
• Clustering.
15. Tarefas de KDD
Regras de Associaçao
• A transformação de uma tabela da base de dados para o formato binário é
realizada substituindo um atributo de cardinalidade K por K atributos binários.
• Uma regra de associação é um relacionamento da forma X => Y, onde X e Y são
conjuntos de itens e a interseção deles, X ∩ Y, é o conjunto vazio.
• Cada regra é associada a um fator suporte superior (Fsup), e a um fator de confidência
(Fconf).
• A definição desses fatores fornece uma medida capaz de distinguir associações
interessantes, dado que as regras geradas em forma binária aumentam
consideravelmente o espaço de busca de qualquer algoritmo minerador.
16. Tarefas de KDD
Classificação
• Na tarefa de classificação cada tupla ou registro pertence a uma classe dentre um
conjunto pré-definido de classes. As tuplas compõe-se de atributos preditivos e
um atributo objetivo, cujo valor definido pelo usuário indica a que classe essa tupla
pertence.
• O atributo objetivo pode ter valores discretos como SIM ou NÃO, um valor pertencente
a um intervalo de números inteiros, etc.
• O propósito da tarefa de classificação é descobrir algum tipo de relacionamento
entre os atributos preditivos e o atributo objetivo que permita encontrar um
conhecimento que possa ser utilizado para prever a classe de uma tupla ainda não
classificada.
17. Tarefas de KDD
Classificação
• A análise de pequenos conjuntos de dados normalmente é realizada
manualmente, mas para grandes conjuntos é mais eficiente realizar um processo
automático de clustering por meio da tecnologia de mineração de dados.
• Na clusterização, classes são criadas através da produção de partições do banco de dados
em conjuntos de tuplas com valores de atributos semelhantes. Após a criação das classes,
emprega-se um algoritmo de classificação para produzir regras para cada uma delas.
• A qualidade da clusterização depende da medida utilizada para aferir a
similaridade das tuplas. Um bom agrupamento possui similaridade intra-classe alta
e inter-classe baixa.
Mede-se também a qualidade do método pela sua habilidade para
descobrir algum ou todos os padrões escondidos.
18. Data Mining
“É o processo de busca por dados, por
PADRÕES anteriormente desconhecidos e uso
frequente desses padrões para predizer
CONSEQUÊNCIAS futuras.”
• Jeff Jonas e Jim Harper
19. Data Mining
“É a concepção de modelos computacionais
capazes de identificar e revelar padrões
desconhecidos mas existentes entre dados
pertencentes a uma ou mais bases de dados”
20. Objetivos da DM
• Descobrir PADRÕES
– Representar informações úteis para a empresa
– Caso da Cerveja e da Fralda
• Descrever
– Explicar resultados ou valores obtidos em
determinados dados ou negócios
• Prever
– Antecipar o comportamento ou valor futuro de algum
fenômeno com base em conhecimento prévio.
21. Como implementar Data Mining
• Algoritmos baseados em redes neurais
– Processamento de dados de maneira semelhante ao
cérebro humano
– Decisões baseadas na aprendizagem
• Algoritmos estatísticos
– Utilizados na análise de dados, a fim de encontrar padrões
e correlações entre eles
• Algoritmos de Aprendizado
– Extrair padrões a partir da interação com o ambiente
22. Aplicações de Data Mining
• Cross-Selling
– Identificar associação entre produtos
• Up-Selling
– Identificar potenciais clientes para determinados
produtos
• Fidelização
– Descobrir fatores associados a perda de clientes
23. Processo de DM
Entendimento Entendimento
do Negócio dos Dados
Preparação dos
Dados
Aplicação
Data
Modelagem
Avaliação
24. Exemplos
Áreas de aplicações potenciais
– Médica
• Comportamento de pacientes
• Identificar terapias de sucessos para diferentes
tratamentos
• Fraudes em planos de saúdes
• Comportamento de usuários de planos de saúde
25. Exemplo 1
• Fraldas e cervejas
– O que as cervejas tem a ver com as fraldas ?
– homens casados, entre 25 e 30 anos;
– compravam fraldas e/ou cervejas às sextas-feiras à
tarde no caminho do trabalho para casa;
– Wal-Mart otimizou às gôndolas nos pontos de
vendas, colocando as fraldas ao lado das cervejas;
– Resultado: o consumo cresceu 30% .
26. Exemplo 2
• Lojas Brasileiras (Info 03/98)
– Aplicou 1 milhão de dólares em técnicas de data
mining
– Reduziu de 51000 produtos para 14000 produtos
oferecidos em suas lojas.
– Exemplo de anomalias detectadas:
– Roupas de inverno e guarda chuvas encalhadas no
nordeste
– Batedeiras 110v a venda em SC onde a corrente
elétrica é 220v
27. Exemplo 3
Bank of America (Info 03/98)
– Selecionou entre seus 36 milhões de clientes
• Aqueles com menor risco de dar calotes
• Tinham filhos com idades entre 18 e 21 anos
• Resultado em três anos o banco lucrou 30 milhões de
dólares com a carteira de empréstimos.
28. Concluindo...
• Destaca-se Data Mining como parte de um
processo maior, denominado KDD, e que se
refere ao meio pelo qual padrões são extraídos e
enumerados a partir dos dados;
• O uso dessas técnicas proporciona meios para
encontrar informações que permitam detectar
tendências e características até então
desconhecidas, reagir rapidamente a um evento
que ainda pode estar por vir, entre outras coisas.
29. Referências
• Conceitos e Aplicações de Data Mining – Universidade Metodista de
Piracicaba – Heloisa & Angela;
• Fayyad et al. (1996). Advances in knowledge discovery and data mining,
AAAI Press/MIT Press;
• http://www.infolink.com.br/~mpolito/mining/mining.html;
• http://www.lci.ufrj.br/~labbd/semins/grupo1;
• Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio
Carlos.