KDD e Data Mining

UNIVERSIDADE FEDERAL DA PARAÍBA
CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO
CAMPUS IV – LITORAL NORTE

DISCIPLINA: INTELIGÊNCIA ARTIFICIAL
PROFESSOR: ANDREI FORMIGA

KNOWLEDGE DISCOVERY DATABASE (KDD) E DATA
MINING (DM)

EQUIPE
• HERMANNY ALEXANDRE
– hermannyfilho@hotmail.com
• GEORGE LIMA
– george.lima@dce.ufpb.br
• THIAGO OLIVEIRA
– thiago.oliveira@dce.ufpb.br
– http://about.me/thiagooliveira

Agenda
• Introdução
• KDD
– Visão Geral
– Processo
– Tarefas
• Data Mining
– Objetivos
– Como implementar
– Aplicações
– Processos
• Exemplos de Aplicações
• Conclusões

KDD
Visão Geral
• Knowledge Discovery Database (Descoberta de Conhecimento em Base de Dados ) é o
processo de transformação de dados em conhecimento.

 É empregado para descrever todo o processo de extração de conhecimentos dos
dados, e possui varias etapas interligadas como: seleção, pré-processamento,
transformação, Data-Mining e interpretação enquanto que data mining é
empregado somente para o estagio de descoberta do processo de KDD.

• O objetivo fundamental do KDD é descobrir conhecimento útil, válido, relevante
e novo sobre uma determinada atividade através de algoritmos, tendo em conta
as ordens de magnitude crescente nos dados .

KDD
Visão Geral
• A extração de conhecimento, além das informações empíricas, possui a capacidade de
detectar e colher informação mais profundas e “escondidas” entre os bancos de dados. Na
prática, se assemelha ao conceito do data-mining (mineração de dados).

1. Compreensão do Domínio de
Aplicação

• Levantamento dos requisitos necessários;

• Geralmente trabalham o especialista do domínio e o
analista juntos.

2. Seleção

• Seleção ou segmentação dos dados apropriados para
a análise de acordo com algum critério;

• Exemplos: Todas as pessoas que possuem carro.

3. Pré-processamento

• Estágio de limpeza dos dados;

• Reconfiguração dos dados para assegurar
formatos consistentes;
• Ex: sexo = “F” ou “M”
sexo = “M” ou “H”

4. Transformação

• Padronizar os dados para suprir limitações das
técnicas de Mineração de dados;
• Exemplos: atributos de data e hora.

• Disponibilizar os dados de maneira usável e
navegável;

5. Mineração de Dados

• Aplica-se técnicas e algoritmos para descobrir
novos conhecimentos;

– Oriundas de diversas áreas: Aprendizado de
Máquina, Estatística, Redes Neurais, Banco de
Dados, etc.

6. Interpretação e Avaliação do
Conhecimento

• Interpretar o conhecimento extraído através
de ferramentas estatísticas e de visualização;

• Caso seja irrelevante, refazer as etapas
anteriores.

KDD
Tarefas de KDD

• As tarefas são dependentes da aplicação e do interesse do
usuário. Assim cada tarefa de KDD extrai um tipo diferente de
conhecimento do BD e requer um algoritmo diferente para a
extração de conhecimento.

• O KDD é dividido em 3 tarefas:

• Regras de Associação
• Classificação
• Clustering.

Tarefas de KDD
Regras de Associaçao

• A transformação de uma tabela da base de dados para o formato binário é
realizada substituindo um atributo de cardinalidade K por K atributos binários.

• Uma regra de associação é um relacionamento da forma X => Y, onde X e Y são
conjuntos de itens e a interseção deles, X ∩ Y, é o conjunto vazio.

• Cada regra é associada a um fator suporte superior (Fsup), e a um fator de confidência
(Fconf).

• A definição desses fatores fornece uma medida capaz de distinguir associações
interessantes, dado que as regras geradas em forma binária aumentam
consideravelmente o espaço de busca de qualquer algoritmo minerador.

Tarefas de KDD
Classificação

• Na tarefa de classificação cada tupla ou registro pertence a uma classe dentre um
conjunto pré-definido de classes. As tuplas compõe-se de atributos preditivos e
um atributo objetivo, cujo valor definido pelo usuário indica a que classe essa tupla
pertence.

• O atributo objetivo pode ter valores discretos como SIM ou NÃO, um valor pertencente
a um intervalo de números inteiros, etc.

• O propósito da tarefa de classificação é descobrir algum tipo de relacionamento
entre os atributos preditivos e o atributo objetivo que permita encontrar um
conhecimento que possa ser utilizado para prever a classe de uma tupla ainda não
classificada.

Tarefas de KDD
Classificação

• A análise de pequenos conjuntos de dados normalmente é realizada
manualmente, mas para grandes conjuntos é mais eficiente realizar um processo
automático de clustering por meio da tecnologia de mineração de dados.

• Na clusterização, classes são criadas através da produção de partições do banco de dados
em conjuntos de tuplas com valores de atributos semelhantes. Após a criação das classes,
emprega-se um algoritmo de classificação para produzir regras para cada uma delas.

• A qualidade da clusterização depende da medida utilizada para aferir a
similaridade das tuplas. Um bom agrupamento possui similaridade intra-classe alta
e inter-classe baixa.

 Mede-se também a qualidade do método pela sua habilidade para
descobrir algum ou todos os padrões escondidos.

Data Mining

“É o processo de busca por dados, por
PADRÕES anteriormente desconhecidos e uso
frequente desses padrões para predizer
CONSEQUÊNCIAS futuras.”
• Jeff Jonas e Jim Harper

Data Mining

“É a concepção de modelos computacionais
capazes de identificar e revelar padrões
desconhecidos mas existentes entre dados
pertencentes a uma ou mais bases de dados”

Objetivos da DM
• Descobrir PADRÕES
– Representar informações úteis para a empresa
– Caso da Cerveja e da Fralda

• Descrever
– Explicar resultados ou valores obtidos em
determinados dados ou negócios

• Prever
– Antecipar o comportamento ou valor futuro de algum
fenômeno com base em conhecimento prévio.

Como implementar Data Mining
• Algoritmos baseados em redes neurais
– Processamento de dados de maneira semelhante ao
cérebro humano
– Decisões baseadas na aprendizagem

• Algoritmos estatísticos
– Utilizados na análise de dados, a fim de encontrar padrões
e correlações entre eles

• Algoritmos de Aprendizado
– Extrair padrões a partir da interação com o ambiente

Aplicações de Data Mining
• Cross-Selling
– Identificar associação entre produtos

• Up-Selling
– Identificar potenciais clientes para determinados
produtos

• Fidelização
– Descobrir fatores associados a perda de clientes

Processo de DM
Entendimento Entendimento
do Negócio dos Dados

Preparação dos
Dados
Aplicação

Data

Modelagem
Avaliação

Exemplos
 Áreas de aplicações potenciais
– Médica
• Comportamento de pacientes
• Identificar terapias de sucessos para diferentes
tratamentos
• Fraudes em planos de saúdes
• Comportamento de usuários de planos de saúde

Exemplo 1
• Fraldas e cervejas
– O que as cervejas tem a ver com as fraldas ?
– homens casados, entre 25 e 30 anos;
– compravam fraldas e/ou cervejas às sextas-feiras à
tarde no caminho do trabalho para casa;
– Wal-Mart otimizou às gôndolas nos pontos de
vendas, colocando as fraldas ao lado das cervejas;
– Resultado: o consumo cresceu 30% .

Exemplo 2
• Lojas Brasileiras (Info 03/98)
– Aplicou 1 milhão de dólares em técnicas de data
mining
– Reduziu de 51000 produtos para 14000 produtos
oferecidos em suas lojas.
– Exemplo de anomalias detectadas:
– Roupas de inverno e guarda chuvas encalhadas no
nordeste
– Batedeiras 110v a venda em SC onde a corrente
elétrica é 220v

Exemplo 3
 Bank of America (Info 03/98)
– Selecionou entre seus 36 milhões de clientes
• Aqueles com menor risco de dar calotes
• Tinham filhos com idades entre 18 e 21 anos
• Resultado em três anos o banco lucrou 30 milhões de
dólares com a carteira de empréstimos.

Concluindo...
• Destaca-se Data Mining como parte de um
processo maior, denominado KDD, e que se
refere ao meio pelo qual padrões são extraídos e
enumerados a partir dos dados;

• O uso dessas técnicas proporciona meios para
encontrar informações que permitam detectar
tendências e características até então
desconhecidas, reagir rapidamente a um evento
que ainda pode estar por vir, entre outras coisas.

Referências
• Conceitos e Aplicações de Data Mining – Universidade Metodista de
Piracicaba – Heloisa & Angela;

• Fayyad et al. (1996). Advances in knowledge discovery and data mining,
AAAI Press/MIT Press;

• http://www.infolink.com.br/~mpolito/mining/mining.html;

• http://www.lci.ufrj.br/~labbd/semins/grupo1;

• Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio
Carlos.

KDD e Data Mining

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a KDD e Data Mining

Similar a KDD e Data Mining (20)

Más de Thiago Oliveira

Más de Thiago Oliveira (8)

KDD e Data Mining