SlideShare una empresa de Scribd logo
1 de 30
UNIVERSIDADE FEDERAL DA PARAÍBA
 CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO
        CAMPUS IV – LITORAL NORTE

    DISCIPLINA: INTELIGÊNCIA ARTIFICIAL
       PROFESSOR: ANDREI FORMIGA


KNOWLEDGE DISCOVERY DATABASE (KDD) E DATA
              MINING (DM)
EQUIPE
• HERMANNY ALEXANDRE
  – hermannyfilho@hotmail.com
• GEORGE LIMA
  – george.lima@dce.ufpb.br
• THIAGO OLIVEIRA
  – thiago.oliveira@dce.ufpb.br
  – http://about.me/thiagooliveira
Agenda
• Introdução
• KDD
  – Visão Geral
  – Processo
  – Tarefas
• Data Mining
  –   Objetivos
  –   Como implementar
  –   Aplicações
  –   Processos
• Exemplos de Aplicações
• Conclusões
Introdução
KDD
                                   Visão Geral
•     Knowledge Discovery Database (Descoberta de Conhecimento em Base de Dados ) é o
      processo de transformação de dados em conhecimento.

       É empregado para descrever todo o processo de extração de conhecimentos dos
        dados, e possui varias etapas interligadas como: seleção, pré-processamento,
        transformação, Data-Mining e interpretação enquanto que data mining é
        empregado somente para o estagio de descoberta do processo de KDD.

    • O objetivo fundamental do KDD é descobrir conhecimento útil, válido, relevante
      e novo sobre uma determinada atividade através de algoritmos, tendo em conta
      as ordens de magnitude crescente nos dados .
KDD
                                   Visão Geral
•   A extração de conhecimento, além das informações empíricas, possui a capacidade de
    detectar e colher informação mais profundas e “escondidas” entre os bancos de dados. Na
    prática, se assemelha ao conceito do data-mining (mineração de dados).
Processo de KDD
1. Compreensão do Domínio de
               Aplicação


• Levantamento dos requisitos necessários;



• Geralmente trabalham o especialista do domínio e o
  analista juntos.
2. Seleção


• Seleção ou segmentação dos dados apropriados para
  a análise de acordo com algum critério;



• Exemplos: Todas as pessoas que possuem carro.
3. Pré-processamento

• Estágio de limpeza dos dados;

• Reconfiguração dos dados para assegurar
  formatos consistentes;
     • Ex: sexo = “F” ou “M”
           sexo = “M” ou “H”
4. Transformação

• Padronizar os dados para suprir limitações das
  técnicas de Mineração de dados;
     • Exemplos: atributos de data e hora.


• Disponibilizar os dados de maneira usável e
  navegável;
5. Mineração de Dados

• Aplica-se técnicas e algoritmos para descobrir
  novos conhecimentos;

  – Oriundas de diversas áreas: Aprendizado de
    Máquina, Estatística, Redes Neurais, Banco de
    Dados, etc.
6. Interpretação e Avaliação do
             Conhecimento

• Interpretar o conhecimento extraído através
  de ferramentas estatísticas e de visualização;

• Caso seja irrelevante, refazer as etapas
  anteriores.
KDD
                          Tarefas de KDD

• As tarefas são dependentes da aplicação e do interesse do
  usuário. Assim cada tarefa de KDD extrai um tipo diferente de
  conhecimento do BD e requer um algoritmo diferente para a
  extração de conhecimento.

• O KDD é dividido em 3 tarefas:


      • Regras de Associação
      • Classificação
      • Clustering.
Tarefas de KDD
                               Regras de Associaçao



• A transformação de uma tabela da base de dados para o formato binário é
  realizada substituindo um atributo de cardinalidade K por K atributos binários.


• Uma regra de associação é um relacionamento da forma X => Y, onde X e Y são
conjuntos de itens e a interseção deles, X ∩ Y, é o conjunto vazio.


• Cada regra é associada a um fator suporte superior (Fsup), e a um fator de confidência
  (Fconf).


• A definição desses fatores fornece uma medida capaz de distinguir associações
  interessantes, dado que as regras geradas em forma binária aumentam
  consideravelmente o espaço de busca de qualquer algoritmo minerador.
Tarefas de KDD
                               Classificação

• Na tarefa de classificação cada tupla ou registro pertence a uma classe dentre um
  conjunto pré-definido de classes. As tuplas compõe-se de atributos preditivos e
  um atributo objetivo, cujo valor definido pelo usuário indica a que classe essa tupla
  pertence.

• O atributo objetivo pode ter valores discretos como SIM ou NÃO, um valor pertencente
  a um intervalo de números inteiros, etc.


• O propósito da tarefa de classificação é descobrir algum tipo de relacionamento
  entre os atributos preditivos e o atributo objetivo que permita encontrar um
  conhecimento que possa ser utilizado para prever a classe de uma tupla ainda não
  classificada.
Tarefas de KDD
                                Classificação

• A análise de pequenos conjuntos de dados normalmente é realizada
  manualmente, mas para grandes conjuntos é mais eficiente realizar um processo
  automático de clustering por meio da tecnologia de mineração de dados.


• Na clusterização, classes são criadas através da produção de partições do banco de dados
em conjuntos de tuplas com valores de atributos semelhantes. Após a criação das classes,
emprega-se um algoritmo de classificação para produzir regras para cada uma delas.


• A qualidade da clusterização depende da medida utilizada para aferir a
  similaridade das tuplas. Um bom agrupamento possui similaridade intra-classe alta
  e inter-classe baixa.

      Mede-se também a qualidade do método pela sua habilidade para
       descobrir algum ou todos os padrões escondidos.
Data Mining


“É o processo de busca por dados, por
PADRÕES anteriormente desconhecidos e uso
frequente desses padrões para predizer
CONSEQUÊNCIAS futuras.”
                           • Jeff Jonas e Jim Harper
Data Mining


“É a concepção de modelos computacionais
capazes de identificar e revelar padrões
desconhecidos mas existentes entre dados
pertencentes a uma ou mais bases de dados”
Objetivos da DM
• Descobrir PADRÕES
  – Representar informações úteis para a empresa
  – Caso da Cerveja e da Fralda


• Descrever
  – Explicar resultados ou valores        obtidos   em
    determinados dados ou negócios


• Prever
  – Antecipar o comportamento ou valor futuro de algum
    fenômeno com base em conhecimento prévio.
Como implementar Data Mining
• Algoritmos baseados em redes neurais
   – Processamento de dados de maneira semelhante ao
     cérebro humano
   – Decisões baseadas na aprendizagem


• Algoritmos estatísticos
   – Utilizados na análise de dados, a fim de encontrar padrões
     e correlações entre eles


• Algoritmos de Aprendizado
   – Extrair padrões a partir da interação com o ambiente
Aplicações de Data Mining
• Cross-Selling
  – Identificar associação entre produtos


• Up-Selling
  – Identificar potenciais clientes para determinados
    produtos


• Fidelização
  – Descobrir fatores associados a perda de clientes
Processo de DM
     Entendimento                  Entendimento
      do Negócio                     dos Dados




                                                  Preparação dos
                                                      Dados
Aplicação

                            Data



                                              Modelagem
                Avaliação
Exemplos
 Áreas de aplicações potenciais
  – Médica
     • Comportamento de pacientes
     • Identificar terapias de sucessos para diferentes
       tratamentos
     • Fraudes em planos de saúdes
     • Comportamento de usuários de planos de saúde
Exemplo 1
• Fraldas e cervejas
  – O que as cervejas tem a ver com as fraldas ?
  – homens casados, entre 25 e 30 anos;
  – compravam fraldas e/ou cervejas às sextas-feiras à
    tarde no caminho do trabalho para casa;
  – Wal-Mart otimizou às gôndolas nos pontos de
    vendas, colocando as fraldas ao lado das cervejas;
  – Resultado: o consumo cresceu 30% .
Exemplo 2
• Lojas Brasileiras (Info 03/98)
  – Aplicou 1 milhão de dólares em técnicas de data
    mining
  – Reduziu de 51000 produtos para 14000 produtos
    oferecidos em suas lojas.
  – Exemplo de anomalias detectadas:
     – Roupas de inverno e guarda chuvas encalhadas no
       nordeste
     – Batedeiras 110v a venda em SC onde a corrente
       elétrica é 220v
Exemplo 3
 Bank of America (Info 03/98)
  – Selecionou entre seus 36 milhões de clientes
     • Aqueles com menor risco de dar calotes
     • Tinham filhos com idades entre 18 e 21 anos
     • Resultado em três anos o banco lucrou 30 milhões de
       dólares com a carteira de empréstimos.
Concluindo...
• Destaca-se Data Mining como parte de um
  processo maior, denominado KDD, e que se
  refere ao meio pelo qual padrões são extraídos e
  enumerados a partir dos dados;

• O uso dessas técnicas proporciona meios para
  encontrar informações que permitam detectar
  tendências e características até então
  desconhecidas, reagir rapidamente a um evento
  que ainda pode estar por vir, entre outras coisas.
Referências
• Conceitos e Aplicações de Data Mining – Universidade Metodista de
  Piracicaba – Heloisa & Angela;

• Fayyad et al. (1996). Advances in knowledge discovery and data mining,
  AAAI Press/MIT Press;

• http://www.infolink.com.br/~mpolito/mining/mining.html;

• http://www.lci.ufrj.br/~labbd/semins/grupo1;

• Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio
  Carlos.
KDD e Data Mining

Más contenido relacionado

La actualidad más candente

Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosEduardo de Lucena Falcão
 
Aula 3 - Diagnóstico organizacional: análise de ambientes e cenários
Aula 3 - Diagnóstico organizacional: análise de ambientes e cenáriosAula 3 - Diagnóstico organizacional: análise de ambientes e cenários
Aula 3 - Diagnóstico organizacional: análise de ambientes e cenáriosKesia Rozzett Oliveira
 
Sistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
Sistemas de Gestão de Bases de Dados e de Gestão de FicheirosSistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
Sistemas de Gestão de Bases de Dados e de Gestão de FicheirosMariana Hiyori
 
Treinamento PowerBI
Treinamento  PowerBITreinamento  PowerBI
Treinamento PowerBItiaquarius
 
Apresentação pdca
Apresentação pdcaApresentação pdca
Apresentação pdcaemc5714
 
Sistemas de informações para executivos sie
Sistemas de informações para executivos sieSistemas de informações para executivos sie
Sistemas de informações para executivos sieAna Faracini
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados ConceitosCleber Ramos
 
Definição da Pergunta de Pesquisa (Oficina)
Definição da Pergunta de Pesquisa (Oficina)Definição da Pergunta de Pesquisa (Oficina)
Definição da Pergunta de Pesquisa (Oficina)Felipe Pereira
 
AULA IV- ANÁLISE SWOT.pptx
AULA IV- ANÁLISE SWOT.pptxAULA IV- ANÁLISE SWOT.pptx
AULA IV- ANÁLISE SWOT.pptxLorena Carvalho
 
Lista de exercicios de sig (respondida) 1bimestre 2013
Lista de exercicios de sig (respondida) 1bimestre 2013Lista de exercicios de sig (respondida) 1bimestre 2013
Lista de exercicios de sig (respondida) 1bimestre 2013José Nascimento
 

La actualidad más candente (20)

Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
Sistemas de Informação - Aula05 - cap5 bd e business intelligenceSistemas de Informação - Aula05 - cap5 bd e business intelligence
Sistemas de Informação - Aula05 - cap5 bd e business intelligence
 
Aulas 1, 2, 3 e 4 - Engenharia de Métodos
Aulas 1, 2, 3 e 4 - Engenharia de MétodosAulas 1, 2, 3 e 4 - Engenharia de Métodos
Aulas 1, 2, 3 e 4 - Engenharia de Métodos
 
Data science
Data scienceData science
Data science
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Custos industriais
Custos industriaisCustos industriais
Custos industriais
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
 
Aula 3 - Diagnóstico organizacional: análise de ambientes e cenários
Aula 3 - Diagnóstico organizacional: análise de ambientes e cenáriosAula 3 - Diagnóstico organizacional: análise de ambientes e cenários
Aula 3 - Diagnóstico organizacional: análise de ambientes e cenários
 
Sistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
Sistemas de Gestão de Bases de Dados e de Gestão de FicheirosSistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
Sistemas de Gestão de Bases de Dados e de Gestão de Ficheiros
 
Treinamento PowerBI
Treinamento  PowerBITreinamento  PowerBI
Treinamento PowerBI
 
Apresentação pdca
Apresentação pdcaApresentação pdca
Apresentação pdca
 
Gestao empreendedora
Gestao empreendedoraGestao empreendedora
Gestao empreendedora
 
Sistemas de informações para executivos sie
Sistemas de informações para executivos sieSistemas de informações para executivos sie
Sistemas de informações para executivos sie
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados Conceitos
 
Definição da Pergunta de Pesquisa (Oficina)
Definição da Pergunta de Pesquisa (Oficina)Definição da Pergunta de Pesquisa (Oficina)
Definição da Pergunta de Pesquisa (Oficina)
 
Empreendedorismo E Inovação
Empreendedorismo E InovaçãoEmpreendedorismo E Inovação
Empreendedorismo E Inovação
 
AULA IV- ANÁLISE SWOT.pptx
AULA IV- ANÁLISE SWOT.pptxAULA IV- ANÁLISE SWOT.pptx
AULA IV- ANÁLISE SWOT.pptx
 
Lista de exercicios de sig (respondida) 1bimestre 2013
Lista de exercicios de sig (respondida) 1bimestre 2013Lista de exercicios de sig (respondida) 1bimestre 2013
Lista de exercicios de sig (respondida) 1bimestre 2013
 
Metadados: dados a respeito de dados
Metadados: dados a respeito de dadosMetadados: dados a respeito de dados
Metadados: dados a respeito de dados
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 

Destacado

Data mining and knowledge discovery
Data mining and knowledge discoveryData mining and knowledge discovery
Data mining and knowledge discoveryLuis Goldster
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
Seminário paty aula 9 04-05-2011
Seminário paty aula 9 04-05-2011Seminário paty aula 9 04-05-2011
Seminário paty aula 9 04-05-2011Patricia Neubert
 
Boas práticas para aplicativos android
Boas práticas para aplicativos androidBoas práticas para aplicativos android
Boas práticas para aplicativos androidJuliana Akemi
 
Software de supply chain management: Definições, aplicações e implementação p...
Software de supply chain management: Definições, aplicações e implementação p...Software de supply chain management: Definições, aplicações e implementação p...
Software de supply chain management: Definições, aplicações e implementação p...Roberty Pires Teixeira
 
Ferramentas para Mineração de Dados
Ferramentas para Mineração de DadosFerramentas para Mineração de Dados
Ferramentas para Mineração de DadosManoel Amaro
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data WarehouseJeorgeCarmona
 
Introdução ao BI
Introdução ao BIIntrodução ao BI
Introdução ao BIpichiliani
 
Introdução aos conceitos de Business Intelligence
Introdução aos conceitos de Business IntelligenceIntrodução aos conceitos de Business Intelligence
Introdução aos conceitos de Business IntelligenceEmerson Henrique
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendaçãosaspi2
 
Weka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosWeka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosRubem Ventura Alves
 
Kimball Vs Inmon
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmonguest2308b5
 

Destacado (20)

Data Mining
Data Mining Data Mining
Data Mining
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Data mining and knowledge discovery
Data mining and knowledge discoveryData mining and knowledge discovery
Data mining and knowledge discovery
 
Data Mining
Data MiningData Mining
Data Mining
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
E gov
E govE gov
E gov
 
Seminário paty aula 9 04-05-2011
Seminário paty aula 9 04-05-2011Seminário paty aula 9 04-05-2011
Seminário paty aula 9 04-05-2011
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Boas práticas para aplicativos android
Boas práticas para aplicativos androidBoas práticas para aplicativos android
Boas práticas para aplicativos android
 
Software de supply chain management: Definições, aplicações e implementação p...
Software de supply chain management: Definições, aplicações e implementação p...Software de supply chain management: Definições, aplicações e implementação p...
Software de supply chain management: Definições, aplicações e implementação p...
 
Ferramentas para Mineração de Dados
Ferramentas para Mineração de DadosFerramentas para Mineração de Dados
Ferramentas para Mineração de Dados
 
OLAP, BI, EIS
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EIS
 
Data Mining e Data Warehouse
Data Mining e Data WarehouseData Mining e Data Warehouse
Data Mining e Data Warehouse
 
Introdução ao BI
Introdução ao BIIntrodução ao BI
Introdução ao BI
 
Introdução aos conceitos de Business Intelligence
Introdução aos conceitos de Business IntelligenceIntrodução aos conceitos de Business Intelligence
Introdução aos conceitos de Business Intelligence
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de RecomendaçãoTécnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
Técnicas de Mineração de Dados Aplicadas a Sistemas de Recomendação
 
Weka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosWeka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de Dados
 
Kimball Vs Inmon
Kimball Vs InmonKimball Vs Inmon
Kimball Vs Inmon
 

Similar a KDD e Data Mining

Mineração de dados
Mineração de dadosMineração de dados
Mineração de dadosTalita Lima
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de DadosRenata Nunes
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosCássio Alan Garcia
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesRodolfo Mendes
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
introdução a mineração de dados (noções )
introdução a mineração de dados (noções )introdução a mineração de dados (noções )
introdução a mineração de dados (noções )HelderPestana5
 
Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaWosley Arruda
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 

Similar a KDD e Data Mining (20)

Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
Data mining
Data miningData mining
Data mining
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Mineração
MineraçãoMineração
Mineração
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Clustering
ClusteringClustering
Clustering
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
introdução a mineração de dados (noções )
introdução a mineração de dados (noções )introdução a mineração de dados (noções )
introdução a mineração de dados (noções )
 
Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolha
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 

Más de Thiago Oliveira

Más de Thiago Oliveira (8)

Apresentação tcc
Apresentação   tccApresentação   tcc
Apresentação tcc
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Android - Activities and services
Android - Activities and servicesAndroid - Activities and services
Android - Activities and services
 
MPS-BR Nível A
MPS-BR Nível AMPS-BR Nível A
MPS-BR Nível A
 
Cmmi 5
Cmmi 5Cmmi 5
Cmmi 5
 
Neo4 jv2 english
Neo4 jv2 englishNeo4 jv2 english
Neo4 jv2 english
 
E business
E businessE business
E business
 
Grids computacionais
Grids computacionaisGrids computacionais
Grids computacionais
 

KDD e Data Mining

  • 1. UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO CAMPUS IV – LITORAL NORTE DISCIPLINA: INTELIGÊNCIA ARTIFICIAL PROFESSOR: ANDREI FORMIGA KNOWLEDGE DISCOVERY DATABASE (KDD) E DATA MINING (DM)
  • 2. EQUIPE • HERMANNY ALEXANDRE – hermannyfilho@hotmail.com • GEORGE LIMA – george.lima@dce.ufpb.br • THIAGO OLIVEIRA – thiago.oliveira@dce.ufpb.br – http://about.me/thiagooliveira
  • 3. Agenda • Introdução • KDD – Visão Geral – Processo – Tarefas • Data Mining – Objetivos – Como implementar – Aplicações – Processos • Exemplos de Aplicações • Conclusões
  • 5. KDD Visão Geral • Knowledge Discovery Database (Descoberta de Conhecimento em Base de Dados ) é o processo de transformação de dados em conhecimento.  É empregado para descrever todo o processo de extração de conhecimentos dos dados, e possui varias etapas interligadas como: seleção, pré-processamento, transformação, Data-Mining e interpretação enquanto que data mining é empregado somente para o estagio de descoberta do processo de KDD. • O objetivo fundamental do KDD é descobrir conhecimento útil, válido, relevante e novo sobre uma determinada atividade através de algoritmos, tendo em conta as ordens de magnitude crescente nos dados .
  • 6. KDD Visão Geral • A extração de conhecimento, além das informações empíricas, possui a capacidade de detectar e colher informação mais profundas e “escondidas” entre os bancos de dados. Na prática, se assemelha ao conceito do data-mining (mineração de dados).
  • 8. 1. Compreensão do Domínio de Aplicação • Levantamento dos requisitos necessários; • Geralmente trabalham o especialista do domínio e o analista juntos.
  • 9. 2. Seleção • Seleção ou segmentação dos dados apropriados para a análise de acordo com algum critério; • Exemplos: Todas as pessoas que possuem carro.
  • 10. 3. Pré-processamento • Estágio de limpeza dos dados; • Reconfiguração dos dados para assegurar formatos consistentes; • Ex: sexo = “F” ou “M” sexo = “M” ou “H”
  • 11. 4. Transformação • Padronizar os dados para suprir limitações das técnicas de Mineração de dados; • Exemplos: atributos de data e hora. • Disponibilizar os dados de maneira usável e navegável;
  • 12. 5. Mineração de Dados • Aplica-se técnicas e algoritmos para descobrir novos conhecimentos; – Oriundas de diversas áreas: Aprendizado de Máquina, Estatística, Redes Neurais, Banco de Dados, etc.
  • 13. 6. Interpretação e Avaliação do Conhecimento • Interpretar o conhecimento extraído através de ferramentas estatísticas e de visualização; • Caso seja irrelevante, refazer as etapas anteriores.
  • 14. KDD Tarefas de KDD • As tarefas são dependentes da aplicação e do interesse do usuário. Assim cada tarefa de KDD extrai um tipo diferente de conhecimento do BD e requer um algoritmo diferente para a extração de conhecimento. • O KDD é dividido em 3 tarefas: • Regras de Associação • Classificação • Clustering.
  • 15. Tarefas de KDD Regras de Associaçao • A transformação de uma tabela da base de dados para o formato binário é realizada substituindo um atributo de cardinalidade K por K atributos binários. • Uma regra de associação é um relacionamento da forma X => Y, onde X e Y são conjuntos de itens e a interseção deles, X ∩ Y, é o conjunto vazio. • Cada regra é associada a um fator suporte superior (Fsup), e a um fator de confidência (Fconf). • A definição desses fatores fornece uma medida capaz de distinguir associações interessantes, dado que as regras geradas em forma binária aumentam consideravelmente o espaço de busca de qualquer algoritmo minerador.
  • 16. Tarefas de KDD Classificação • Na tarefa de classificação cada tupla ou registro pertence a uma classe dentre um conjunto pré-definido de classes. As tuplas compõe-se de atributos preditivos e um atributo objetivo, cujo valor definido pelo usuário indica a que classe essa tupla pertence. • O atributo objetivo pode ter valores discretos como SIM ou NÃO, um valor pertencente a um intervalo de números inteiros, etc. • O propósito da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos e o atributo objetivo que permita encontrar um conhecimento que possa ser utilizado para prever a classe de uma tupla ainda não classificada.
  • 17. Tarefas de KDD Classificação • A análise de pequenos conjuntos de dados normalmente é realizada manualmente, mas para grandes conjuntos é mais eficiente realizar um processo automático de clustering por meio da tecnologia de mineração de dados. • Na clusterização, classes são criadas através da produção de partições do banco de dados em conjuntos de tuplas com valores de atributos semelhantes. Após a criação das classes, emprega-se um algoritmo de classificação para produzir regras para cada uma delas. • A qualidade da clusterização depende da medida utilizada para aferir a similaridade das tuplas. Um bom agrupamento possui similaridade intra-classe alta e inter-classe baixa.  Mede-se também a qualidade do método pela sua habilidade para descobrir algum ou todos os padrões escondidos.
  • 18. Data Mining “É o processo de busca por dados, por PADRÕES anteriormente desconhecidos e uso frequente desses padrões para predizer CONSEQUÊNCIAS futuras.” • Jeff Jonas e Jim Harper
  • 19. Data Mining “É a concepção de modelos computacionais capazes de identificar e revelar padrões desconhecidos mas existentes entre dados pertencentes a uma ou mais bases de dados”
  • 20. Objetivos da DM • Descobrir PADRÕES – Representar informações úteis para a empresa – Caso da Cerveja e da Fralda • Descrever – Explicar resultados ou valores obtidos em determinados dados ou negócios • Prever – Antecipar o comportamento ou valor futuro de algum fenômeno com base em conhecimento prévio.
  • 21. Como implementar Data Mining • Algoritmos baseados em redes neurais – Processamento de dados de maneira semelhante ao cérebro humano – Decisões baseadas na aprendizagem • Algoritmos estatísticos – Utilizados na análise de dados, a fim de encontrar padrões e correlações entre eles • Algoritmos de Aprendizado – Extrair padrões a partir da interação com o ambiente
  • 22. Aplicações de Data Mining • Cross-Selling – Identificar associação entre produtos • Up-Selling – Identificar potenciais clientes para determinados produtos • Fidelização – Descobrir fatores associados a perda de clientes
  • 23. Processo de DM Entendimento Entendimento do Negócio dos Dados Preparação dos Dados Aplicação Data Modelagem Avaliação
  • 24. Exemplos  Áreas de aplicações potenciais – Médica • Comportamento de pacientes • Identificar terapias de sucessos para diferentes tratamentos • Fraudes em planos de saúdes • Comportamento de usuários de planos de saúde
  • 25. Exemplo 1 • Fraldas e cervejas – O que as cervejas tem a ver com as fraldas ? – homens casados, entre 25 e 30 anos; – compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; – Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; – Resultado: o consumo cresceu 30% .
  • 26. Exemplo 2 • Lojas Brasileiras (Info 03/98) – Aplicou 1 milhão de dólares em técnicas de data mining – Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. – Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente elétrica é 220v
  • 27. Exemplo 3  Bank of America (Info 03/98) – Selecionou entre seus 36 milhões de clientes • Aqueles com menor risco de dar calotes • Tinham filhos com idades entre 18 e 21 anos • Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.
  • 28. Concluindo... • Destaca-se Data Mining como parte de um processo maior, denominado KDD, e que se refere ao meio pelo qual padrões são extraídos e enumerados a partir dos dados; • O uso dessas técnicas proporciona meios para encontrar informações que permitam detectar tendências e características até então desconhecidas, reagir rapidamente a um evento que ainda pode estar por vir, entre outras coisas.
  • 29. Referências • Conceitos e Aplicações de Data Mining – Universidade Metodista de Piracicaba – Heloisa & Angela; • Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press; • http://www.infolink.com.br/~mpolito/mining/mining.html; • http://www.lci.ufrj.br/~labbd/semins/grupo1; • Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio Carlos.