SlideShare una empresa de Scribd logo
1 de 42
DATA MINING
                   Disciplina
             Banco de Dados 1998
                     Alunos
Fernando Silvera Goulart Júnior - fsgj@di.ufpe.br
Robson do Nascimento Fidalgo - rdnf@di.ufpe.br
                  Orientadores
     Ana Carolina Salgado - acs@di.ufpe.br
      Fernando Fonseca - fdfd@di.ufpe.br


                                                    1
Tópicos da Apresentação
  Introdução
  Background
  Funções
  Processo
  Uma arquitetura
  Técnicas
  Exemplos
  Referências

                          2
Introdução
• Motivações
  – Grande disponibilidade
    de dados armazenados
    eletronicamente
  – Existem informações
    úteis, invisíveis, nesses
    grandes volumes de
    dados
  – Aproveitar para prever
    um conhecimento
    futuro (ir além do
    armazenamento
    explícito de dados).
                                [01] Queens University - Belfast



                                              3
Introdução
• O que é Data mining:
  – “Data mining (mineração de dados), é o processo de
    extração de conhecimento de grandes bases de dados,
    convencionais ou não.
  – Utiliza técnicas de inteligência artificial que procuram
    relações de similaridade ou discordância entre dados.
  – Seu objetivo é encontrar, automaticamente, padrões,
    anomalias e regras com o propósito de transformar
    dados, aparentemente ocultos, em informações úteis para
    a tomada de decisão e/ou avaliação de resultados.
  Fernando S. Goulart Júnior & Robson do Nascimento Fidalgo (1998)




                                                                4
Introdução
• Exemplo:
Fabricante Estado Cidade Cor do Produto Lucro
   Smith     CA   Los Angeles   Azul     Alto
   Smith     AZ    Flagstaff   Verde    Baixo
   Adams     NY      NYC        Azul     Alto
   Adams     AZ    Flagstaff  Vermelho  Baixo
  Johnson    NY      NYC       Verde    Médio
  Johnson    CA   Los Angeles Vermelho  Médio




•Conclusões:
   •Produtos azuis são de alto lucro
              ou
   •Arizona é um lucro baixo
                                                5
Introdução
• Uma empresa utilizando                       data
  mining é capaz de:
  – Criar parâmetros para entender o
    comportamento do consumidor;
  – Identificar     afinidades         entre     as
    escolhas de produtos e serviços;
  – Prever hábitos de compras;
  – Analisar comportamentos habituais
    para detectar fraudes.


           [09] - Dissertação - UERJ (1997)

                                                      6
Introdução
• Data mining X Data warehouse:
   – Data mining ⇒ extração inteligente de dados;
   – Data warehouse ⇒ repositório centralizado de dados;
   – Data mining não é uma evolução do Data warehouse;
   – Data mining não depende do Data warehouse, mas
     obtém-se melhores resultados quando aplicados em
     conjunto;
   – Cada empresa deve saber escolher qual das técnicas é
     importante para o seu negócio. (Uma, outra ou as duas);
   – Data Warehouse aliado a ferramentas estatísticas
     desempenham papel semelhante ao data mining, mas
     não descobrem novos padrões de comportamento.
     (a não ser empiricamente).

                                             7
Introdução
•Evolução até o data mining
  Evolução           Perguntas           Tecnologia disponível         Características

 Coleção de         “Qual foi meu         Computadores, Fitas,         Retrospectiva,
   dados        rendimento total nos           discos                  Dados estáticos
   1960         últimos cinco anos ?”                                  como resposta

 Acessos aos        “Qual foi meu               RDBMS,               Restropectiva,
   dados       rendimento no Brasil no           SQL,              dados dinâmicos a
    1980          último janeiro ?”              ODBC               nível de registos
                                                                     como resposta

    Data             “Qual foi meu       Processamento analítico     Retrospectiva,
 warehousing   rendimento no Brasil no   on-line, banco de dados    dados dinâmicos
 & suporte a    último janeiro? Do sul   multidimencionais, data   em múltiplos níveis
   decisão           até o nordeste            warehousing           como resposta
    1990

 Data Mining   “Porque alguns produtos   Algoritmos avançados,          Prospectivo,
 Atualmente     são mais vendidos na         computadores               Informações
                    região sul ?”        multiprocessados, B.D.        (perspectivas)
                                          grandes e poderosos          como resposta.

                                                                   8
O Background para data mining
• Como fazer Data Mining ?
• Aprendizagem computacional (Machine-learning)
     • Automação do processo de aprendizagem, através da
       construção de regras baseadas em observações dos
       estados e transações do ambiente.
     • Examina os exemplos e seus resultados e aprende
       como reproduzi-los e como fazer generalizações sobre
       novos casos




                                             9
O Background para data mining
• Aprendizagem indutiva:
  – Faz análise nos dados para encontrar padrões
  – Agrupa objetos similares em classes
  – Formula regras

  – Aprendizagem supervisionada (A.S.)
     – Aprende baseando-se em exemplos (“professor” ajuda a
       construir um modelo def. classes e fornecendo exemplos de
       cada classe ⇒ formular a descrição e a forma da classe)
         – Ex. Classificação de madeiras

  – Aprendizagem não supervisionada (A.Ñ.S.)
     – Aprende baseando-se em observações e descobertas (não se
       def. classes, deve-se observar os exemplos e reconhecer os
       padrões por si só ⇒ uma descrição de classes para cada
       ambiente).
         – Ex. Classificação de madeiras        10
O Background para data mining
• Modelo de verificação (Aprendizagem supervisionada)
  – Aprende baseando-se em exemplos pré-classificados (+/-)
  – Objetivo: formular descrições consistentes e gerais de
    classes em função de seus atributos.
     • Ex.: Cartões de credito




   OK              Inadimplente
                                              HIPOTESES
    +                    -



                                             11
O Background para data mining
• Modelo de descoberta (Aprendizagem ñ supervisionada)
  – Aprende baseando-se em observações e descobertas;
  – Descoberta automática de informações ocultas;
  – Procura ocorrências de padrões, tendências e generalizações
    sobre os dados sem a intervenção do usuário;
  – Agrupar elementos similares,
  – Como agrupar os alunos da disciplina ?




                                                12
Funções do data mining
• Modelo de classificação :
   – Atributos + significativos def. um classe
   – O usuário define as atributos para cada classe (A.S.)
   – Aplica regras para criar modelos de ações futuras
           – Ex: Clientes com bom crédito ñ podem dever mais 10%


• Associação:
   – Procura registos que tenham similaridades associativas
   – Podem ser expressados por regras
      •   Ex: 62% dos compradores de guaraná compram pipoca
      •   62% fator de confiança
                                    L     62%         R
      •
      •
          LHS (left hand side)
          RHS (right hand side)
                                    H  ... ...        H
                                  S     G+P           S
                                Guaraná
                                                 13 Pipoca
Funções do data mining
• Padrões temporais/seqüenciais :
  – Analisa registros num período de tempo, procurando
    encontrar padrões (eventos/compras) de comportamento.
  – Identificar o perfil do cliente
  – Identificar padrões que precedem outros padrões
     • Ex: Mala direta personalizada, Campanhas promocionais ..


• Segmentação/agrupamento:
  – Segmenta a base de dados em grupos por suas
    similaridade e diferenças
  – O sistema tem que descobrir por si próprio as similaridade e
    diferenças ( A.Ñ.S.)
     • Ex: Clientes de bom crédito e clientes de mau crédito


                                                  14
O Processo Data Mining
• Fases / Etapas.
   – Seleção.
   – Pré-processamento.
   – Transformação.
   – Data mining.
   – Interpretação e Avaliação.




                                  15
O Processo Data Mining
• Seleção
  – Selecionar ou segmentar dados de acordo com
    critérios definidos:
        – Ex.: Todas as pessoas que são proprietárias de
          carros é um subconjunto de dados determinado.


• Pré-processamento
  – Estágio de limpeza dos dados, onde informações
    julgadas desnecessárias são removidas.
        – Ex. :O sexo de um paciente gestante
  – Reconfiguração dos dados para assegurar formatos
    consistentes (identificação)
        – Ex. : sexo = “F” ou “M”
                sexo = “M” ou “H”
                                                16
O Processo Data Mining
• Transformação
    – Transforma-se os dados em formatos utilizáveis. Esta
   depende da técnica data mining usada.
       – Ex: rede neural ⇒ converter valor literal em valor numérico
   – Disponibilizar os dados de maneira usável e navegável.

• Data mining
   – É a verdadeira extração dos padrões de comportamento
   dos dados
   – Utilizando a definição de fatos, medidas de padrões,
   estados e o relacionamento entre eles.




                                                     17
O Processo Data Mining
• Interpretação e Avaliação
   – Identificado os padrões pelo sistema, estes são
   interpretados em conhecimentos, os quais darão suporte a
   tomada de decisões humanas
         –Ex.: Tarefas de previsões e classificações
                                                                 Interpretação e
                                                                    avaliação
• Graficamente temos:                              Data mining
                                 Transformação
             Pré-processamento
   Seleção

                                                                               Conhecimento

                                                                 Padrões

                                                     Dados
                                      Dados      transformados
 Dados           1os. dados      pré-processados
                                                                      18
Uma arquitetura data mining
   1º ⇒Data warehouse com dados pertinentes ao
   negócio;
   2º ⇒Servidor OLAP permitindo ao usuário analisar os dados
   do D.W. de forma mais produtiva ;
   3º ⇒ Integrar o D.W. e o OLAP com o D.M. (permitir decisões oper.)
   4º ⇒ Modelos de metadados definidos pelo data mining

                   3o. passo                       Resultados
                                      4o. passo




1o. passo



                                       2o. passo

                                                      19
Tópicos da Apresentação
  Introdução
  Background
  Tarefas
  Processo
  Uma arquitetura
  Técnicas
  Exemplos
  Referências

                          20
Técnicas
• Revisão geral de Aprendizagem:

                              Aprendizagem




               Simbólica                     Não Simbólica      Estatística




    Indutiva            CBR          Alg.Genéticos    Rede Neural




 Lógica           ID3



                                                       21
Técnicas
• Indução
  – Regras indutivas (rule induction)
     • Regra indutiva é o processo de olhar uma série de dados e, a
       partir dela, gerar padrões.
     • Pode-se trabalhar com dados numéricos ou não
     • Pelo fato de explorar uma série de dados, o sistema indutivo
       cria hipóteses que conduzem a padrões
         – Ex.: Analisada as idades de profissionais foi gerada a
            seguinte regra:
              • Se profissão = atleta
                ENTÃO idade < 30


      Regras cobertas ⇒ comportamentos estáveis
      Regras inexatas ⇒ margem de precisão “fixada” (%)
                                                  22
Técnicas
• Indução:
  – Regras indutivas (graficamente temos)




                                            23
Técnicas
• Árvores de decisão: (ID3) - 1o Exemplo
   –   Representações simples do conhecimento
   –   Utilização de regras condicionais
   –   A partir de um conjunto de valores decide SIM ou NÃO
   –   Mais rápida e mais compreensível que redes neurais
   –   Exemplo: Sair ou não de acordo com o tempo

                          Tempo
                                              Predicado objetivo:
                                                Sair ou Não Sair
           Nublado      Ensolarado     Chuvoso


          Umidade           Sair      Muito vento
        Alta      Normal             Sim         Não

       Ñ Sair      Sair              Ñ Sair      Sair
                                                 24
Técnicas
  • Árvores de decisão: (ID3) - 2o Exemplo

      Classificação de um indivíduo com risco de ter ou não crédito
                  Renda > R$ 4.000,00
                     SIM                     NÃO   Predicado objetivo:
                                                     Crédito ou Não

     Dívida < 10% da renda ?                 Dívida = 0%


          SIM               NÃO       NÃO                  SIM


Risco de ter crédito Risco de não ter crédito   Risco de ter crédito

     Nesta árvore de decisões, regras são induzidas nos padrões dos
       dados e cria-se uma hierarquia de indicações “se-então”.
                                                     25
Técnicas
• Redes Neurais:
  – É    uma     abordagem      computacional   que    envolve
    desenvolvimento de estruturas matemáticas com a habilidade
    de aprender. (modelo do sistema nervoso para aprender)
  – Estruturalmente, uma rede neural consiste em um número de
    elementos interconectados (chamados neurônios/nós), que
    possuem entrada, saída e processamento.
  – São organizados em camadas que aprendem pela
    modificação da conexão.
  – Arquitetura:




                                              26
Técnicas
• Redes Neurais:
     • Para construir um modelo neural, nós primeiramente
       "adestramos" a rede em um dataset de treinamento e
       então usamos a rede já treinada para fazer predições.
     • Problemas:
        – Não retorna informação a priori
        – Não pode ser treinada em uma grande base de dados
        – Entrada não pode ser dados alfa-numéricos (mapear para
          numérico)
        – Nenhuma explanação dos dados é fornecida (caixa preta)




                                               27
Técnicas
• Redes Neurais:
  – Exemplo prático: risco de câncer




                Data mining - Clementine User Guide   28
Técnicas
 • Redes Neurais: - 2o Exemplo

RENDA               DÉBITO             IDADE              REG. DE        Nível
                                                        PAGAMENTO         de
                                                                        entrada




                                                                         Nível
                                                                        oculto


                    Risco               Risco de
                    de ter               não ter                         Nível
                   crédito              crédito                           de
                                                                         saída
          As redes neurais usam seus dados de entrada.
    Atribui pesos nas conecções entre os atributos (neurônios).
E obtém um resultado (risco de ter ou não crédito) no nível 29 saída.
                                                            de
Exemplos
• Áreas de aplicações potenciais:
   – Vendas e Marketing
      • Identificar padrões de comportamento de consumidores
      • Associar       comportamentos     à      características
        demográficas de consumidores
      • Campanhas de marketing direto (mailing campaigns)
      • Identificar consumidores “leais”




                                                 30
Exemplos
• Áreas de aplicações potenciais:
   – Bancos
      • Identificar padrões de fraudes (cartões de crédito)
      • Identificar características de correntistas
      • Mercado Financeiro ($$$)




                                           31
Exemplos
• Áreas de aplicações potenciais (continuação):
   – Médica
      • Comportamento de pacientes
      • Identificar terapias de sucessos para diferentes
        tratamentos
      • Fraudes em planos de saúdes
      • Comportamento de usuários de planos de saúde




                                           32
Introdução
• Exemplo (1) - Fraldas e cervejas
   – O que as cervejas tem a ver com as fraldas ?
   – homens casados, entre 25 e 30 anos;
   – compravam fraldas e/ou cervejas às sextas-feiras à
     tarde no caminho do trabalho para casa;
   – Wal-Mart otimizou às gôndolas nos pontos de vendas,
     colocando as fraldas ao lado das cervejas;
   – Resultado: o consumo cresceu 30% .




                                             33
Exemplos
• Exemplo (2) - Lojas Brasileiras (Info 03/98)
   – Aplicou 1 milhão de dólares em técnicas de data mining
   – Reduziu de 51000 produtos para 14000 produtos oferecidos
     em suas lojas.
   – Exemplo de anomalias detectadas:
      – Roupas de inverno e guarda chuvas encalhadas no
        nordeste
      – Batedeiras 110v a venda em SC onde a corrente é 220v




                                              34
Exemplos
• Exemplo (3) - Bank of America (Info 03/98)
   – Selecionou entre seus 36 milhões de clientes
      • Aqueles com menor risco de dar calotes
      • Tinham filhos com idades entre 18 e 21 anos
      • Resultado em três anos o banco lucrou 30 milhões de
        dólares com a carteira de empréstimos.




                                             35
Exemplos
• Empresas de software para Data mining:

  – SAS                     http://www.sas.com
  – Information Havesting   http://www.convex.com
  – Red Brick               http://www.redbrick.com
  – Oracle                  http://www.oracle.com
  – Sybase                  http://www.sybase.com
  – Informix                http://www.informix.com
  – IBM                     http://www.ibm.com




                                                 36
Conclusões
• Data mininig é um processo que               permite
  compreender o comportamento dos dados
• Data mining X Data warehouse
• Tem um suporte muito forte em I. A.
• Pode ser bem aplicado em diversas          áreas de
  negócios
• Só será eficiente se o valor das informações
  extraídas exceder o custo do processamento dos
  dados brutos.
• Ainda não há um consenso entre os autores.

                                        37
Conclusões

      Perguntas ?




                38
Conclusões
  Muita informação = Nenhuma informação ?

                                      ?




                       Muita
                    Informação

                                 39
Referências


• Livros:




              40
Referências
• Artigos e endereços na Internet:

      •   [01] http://www-pcc.qub.ac.uk/tec/courses/datamining
      •   [02] http://www.rio.com.br/~extended
      •   [03] http://www.datamining.com
      •   [04] http://www.santafe.edu/~kurt
      •   [05] http://www.datamation.com
      •   [06] http://www-dse.doc.ic.ac.uk/~kd
      •   [07] http://www.cs.bham.ac.uk/~anp
      •   [08] http://www.dbms.com/ (Vários artigos)
      •   [09] http://www.infolink.com.br/~mpolito/mining/mining.html
      •   [10] http://www.lci.ufrj.br/~labbd/semins/grupo1




                                                        41
42

Más contenido relacionado

La actualidad más candente

Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoAntonioEE256
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...Leandro de Castro
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dadosTalita Lima
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoLuis Borges Gouveia
 
2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e Aplicações2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e AplicaçõesLeandro de Castro
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapKlaytonAlves
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 
Introdução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisIntrodução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisSérgio Dias
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 

La actualidad más candente (20)

Data mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisãoData mining: Auxiliando as empresas na tomada de decisão
Data mining: Auxiliando as empresas na tomada de decisão
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
 
Mineração
MineraçãoMineração
Mineração
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Data science
Data scienceData science
Data science
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceito
 
2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e Aplicações2011: Mineração de Dados - Conceitos Básicos e Aplicações
2011: Mineração de Dados - Conceitos Básicos e Aplicações
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Curadoria de dados de pesquisa
Curadoria de dados de pesquisaCuradoria de dados de pesquisa
Curadoria de dados de pesquisa
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 
Exploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olapExploracao datawarehouse mineracao_de_dados_ou_olap
Exploracao datawarehouse mineracao_de_dados_ou_olap
 
Gestão de dados de pesquisa
Gestão de dados de pesquisaGestão de dados de pesquisa
Gestão de dados de pesquisa
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
Introdução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionaisIntrodução a ciência de dados com aplicações em dados educacionais
Introdução a ciência de dados com aplicações em dados educacionais
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 

Similar a Data mining

introdução a mineração de dados (noções )
introdução a mineração de dados (noções )introdução a mineração de dados (noções )
introdução a mineração de dados (noções )HelderPestana5
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)Jéssica Góis Scala
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de DadosRenata Nunes
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de DadosJoão Pedro Albino
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Leandro Escobar
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesRodolfo Mendes
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 

Similar a Data mining (20)

Mineração Livre de Dados
Mineração Livre de DadosMineração Livre de Dados
Mineração Livre de Dados
 
introdução a mineração de dados (noções )
introdução a mineração de dados (noções )introdução a mineração de dados (noções )
introdução a mineração de dados (noções )
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
 
Dataminig
DataminigDataminig
Dataminig
 
Dataminig
DataminigDataminig
Dataminig
 
Aula Data Mining
Aula Data MiningAula Data Mining
Aula Data Mining
 
Mineração de Dados
Mineração de DadosMineração de Dados
Mineração de Dados
 
GICAula3.ppt
GICAula3.pptGICAula3.ppt
GICAula3.ppt
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Data mining
Data miningData mining
Data mining
 
Mineração de dados_escobar2.0
Mineração de dados_escobar2.0Mineração de dados_escobar2.0
Mineração de dados_escobar2.0
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
TechDays 2010 DAT202
TechDays 2010 DAT202TechDays 2010 DAT202
TechDays 2010 DAT202
 
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de DecisõesDescobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
Descobrindo Conhecimento em Dados para Auxiliar a Tomada de Decisões
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 

Data mining

  • 1. DATA MINING Disciplina Banco de Dados 1998 Alunos Fernando Silvera Goulart Júnior - fsgj@di.ufpe.br Robson do Nascimento Fidalgo - rdnf@di.ufpe.br Orientadores Ana Carolina Salgado - acs@di.ufpe.br Fernando Fonseca - fdfd@di.ufpe.br 1
  • 2. Tópicos da Apresentação Introdução Background Funções Processo Uma arquitetura Técnicas Exemplos Referências 2
  • 3. Introdução • Motivações – Grande disponibilidade de dados armazenados eletronicamente – Existem informações úteis, invisíveis, nesses grandes volumes de dados – Aproveitar para prever um conhecimento futuro (ir além do armazenamento explícito de dados). [01] Queens University - Belfast 3
  • 4. Introdução • O que é Data mining: – “Data mining (mineração de dados), é o processo de extração de conhecimento de grandes bases de dados, convencionais ou não. – Utiliza técnicas de inteligência artificial que procuram relações de similaridade ou discordância entre dados. – Seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, aparentemente ocultos, em informações úteis para a tomada de decisão e/ou avaliação de resultados. Fernando S. Goulart Júnior & Robson do Nascimento Fidalgo (1998) 4
  • 5. Introdução • Exemplo: Fabricante Estado Cidade Cor do Produto Lucro Smith CA Los Angeles Azul Alto Smith AZ Flagstaff Verde Baixo Adams NY NYC Azul Alto Adams AZ Flagstaff Vermelho Baixo Johnson NY NYC Verde Médio Johnson CA Los Angeles Vermelho Médio •Conclusões: •Produtos azuis são de alto lucro ou •Arizona é um lucro baixo 5
  • 6. Introdução • Uma empresa utilizando data mining é capaz de: – Criar parâmetros para entender o comportamento do consumidor; – Identificar afinidades entre as escolhas de produtos e serviços; – Prever hábitos de compras; – Analisar comportamentos habituais para detectar fraudes. [09] - Dissertação - UERJ (1997) 6
  • 7. Introdução • Data mining X Data warehouse: – Data mining ⇒ extração inteligente de dados; – Data warehouse ⇒ repositório centralizado de dados; – Data mining não é uma evolução do Data warehouse; – Data mining não depende do Data warehouse, mas obtém-se melhores resultados quando aplicados em conjunto; – Cada empresa deve saber escolher qual das técnicas é importante para o seu negócio. (Uma, outra ou as duas); – Data Warehouse aliado a ferramentas estatísticas desempenham papel semelhante ao data mining, mas não descobrem novos padrões de comportamento. (a não ser empiricamente). 7
  • 8. Introdução •Evolução até o data mining Evolução Perguntas Tecnologia disponível Características Coleção de “Qual foi meu Computadores, Fitas, Retrospectiva, dados rendimento total nos discos Dados estáticos 1960 últimos cinco anos ?” como resposta Acessos aos “Qual foi meu RDBMS, Restropectiva, dados rendimento no Brasil no SQL, dados dinâmicos a 1980 último janeiro ?” ODBC nível de registos como resposta Data “Qual foi meu Processamento analítico Retrospectiva, warehousing rendimento no Brasil no on-line, banco de dados dados dinâmicos & suporte a último janeiro? Do sul multidimencionais, data em múltiplos níveis decisão até o nordeste warehousing como resposta 1990 Data Mining “Porque alguns produtos Algoritmos avançados, Prospectivo, Atualmente são mais vendidos na computadores Informações região sul ?” multiprocessados, B.D. (perspectivas) grandes e poderosos como resposta. 8
  • 9. O Background para data mining • Como fazer Data Mining ? • Aprendizagem computacional (Machine-learning) • Automação do processo de aprendizagem, através da construção de regras baseadas em observações dos estados e transações do ambiente. • Examina os exemplos e seus resultados e aprende como reproduzi-los e como fazer generalizações sobre novos casos 9
  • 10. O Background para data mining • Aprendizagem indutiva: – Faz análise nos dados para encontrar padrões – Agrupa objetos similares em classes – Formula regras – Aprendizagem supervisionada (A.S.) – Aprende baseando-se em exemplos (“professor” ajuda a construir um modelo def. classes e fornecendo exemplos de cada classe ⇒ formular a descrição e a forma da classe) – Ex. Classificação de madeiras – Aprendizagem não supervisionada (A.Ñ.S.) – Aprende baseando-se em observações e descobertas (não se def. classes, deve-se observar os exemplos e reconhecer os padrões por si só ⇒ uma descrição de classes para cada ambiente). – Ex. Classificação de madeiras 10
  • 11. O Background para data mining • Modelo de verificação (Aprendizagem supervisionada) – Aprende baseando-se em exemplos pré-classificados (+/-) – Objetivo: formular descrições consistentes e gerais de classes em função de seus atributos. • Ex.: Cartões de credito OK Inadimplente HIPOTESES + - 11
  • 12. O Background para data mining • Modelo de descoberta (Aprendizagem ñ supervisionada) – Aprende baseando-se em observações e descobertas; – Descoberta automática de informações ocultas; – Procura ocorrências de padrões, tendências e generalizações sobre os dados sem a intervenção do usuário; – Agrupar elementos similares, – Como agrupar os alunos da disciplina ? 12
  • 13. Funções do data mining • Modelo de classificação : – Atributos + significativos def. um classe – O usuário define as atributos para cada classe (A.S.) – Aplica regras para criar modelos de ações futuras – Ex: Clientes com bom crédito ñ podem dever mais 10% • Associação: – Procura registos que tenham similaridades associativas – Podem ser expressados por regras • Ex: 62% dos compradores de guaraná compram pipoca • 62% fator de confiança L 62% R • • LHS (left hand side) RHS (right hand side) H ... ... H S G+P S Guaraná 13 Pipoca
  • 14. Funções do data mining • Padrões temporais/seqüenciais : – Analisa registros num período de tempo, procurando encontrar padrões (eventos/compras) de comportamento. – Identificar o perfil do cliente – Identificar padrões que precedem outros padrões • Ex: Mala direta personalizada, Campanhas promocionais .. • Segmentação/agrupamento: – Segmenta a base de dados em grupos por suas similaridade e diferenças – O sistema tem que descobrir por si próprio as similaridade e diferenças ( A.Ñ.S.) • Ex: Clientes de bom crédito e clientes de mau crédito 14
  • 15. O Processo Data Mining • Fases / Etapas. – Seleção. – Pré-processamento. – Transformação. – Data mining. – Interpretação e Avaliação. 15
  • 16. O Processo Data Mining • Seleção – Selecionar ou segmentar dados de acordo com critérios definidos: – Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. • Pré-processamento – Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. – Ex. :O sexo de um paciente gestante – Reconfiguração dos dados para assegurar formatos consistentes (identificação) – Ex. : sexo = “F” ou “M” sexo = “M” ou “H” 16
  • 17. O Processo Data Mining • Transformação – Transforma-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. – Ex: rede neural ⇒ converter valor literal em valor numérico – Disponibilizar os dados de maneira usável e navegável. • Data mining – É a verdadeira extração dos padrões de comportamento dos dados – Utilizando a definição de fatos, medidas de padrões, estados e o relacionamento entre eles. 17
  • 18. O Processo Data Mining • Interpretação e Avaliação – Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas –Ex.: Tarefas de previsões e classificações Interpretação e avaliação • Graficamente temos: Data mining Transformação Pré-processamento Seleção Conhecimento Padrões Dados Dados transformados Dados 1os. dados pré-processados 18
  • 19. Uma arquitetura data mining 1º ⇒Data warehouse com dados pertinentes ao negócio; 2º ⇒Servidor OLAP permitindo ao usuário analisar os dados do D.W. de forma mais produtiva ; 3º ⇒ Integrar o D.W. e o OLAP com o D.M. (permitir decisões oper.) 4º ⇒ Modelos de metadados definidos pelo data mining 3o. passo Resultados 4o. passo 1o. passo 2o. passo 19
  • 20. Tópicos da Apresentação Introdução Background Tarefas Processo Uma arquitetura Técnicas Exemplos Referências 20
  • 21. Técnicas • Revisão geral de Aprendizagem: Aprendizagem Simbólica Não Simbólica Estatística Indutiva CBR Alg.Genéticos Rede Neural Lógica ID3 21
  • 22. Técnicas • Indução – Regras indutivas (rule induction) • Regra indutiva é o processo de olhar uma série de dados e, a partir dela, gerar padrões. • Pode-se trabalhar com dados numéricos ou não • Pelo fato de explorar uma série de dados, o sistema indutivo cria hipóteses que conduzem a padrões – Ex.: Analisada as idades de profissionais foi gerada a seguinte regra: • Se profissão = atleta ENTÃO idade < 30 Regras cobertas ⇒ comportamentos estáveis Regras inexatas ⇒ margem de precisão “fixada” (%) 22
  • 23. Técnicas • Indução: – Regras indutivas (graficamente temos) 23
  • 24. Técnicas • Árvores de decisão: (ID3) - 1o Exemplo – Representações simples do conhecimento – Utilização de regras condicionais – A partir de um conjunto de valores decide SIM ou NÃO – Mais rápida e mais compreensível que redes neurais – Exemplo: Sair ou não de acordo com o tempo Tempo Predicado objetivo: Sair ou Não Sair Nublado Ensolarado Chuvoso Umidade Sair Muito vento Alta Normal Sim Não Ñ Sair Sair Ñ Sair Sair 24
  • 25. Técnicas • Árvores de decisão: (ID3) - 2o Exemplo Classificação de um indivíduo com risco de ter ou não crédito Renda > R$ 4.000,00 SIM NÃO Predicado objetivo: Crédito ou Não Dívida < 10% da renda ? Dívida = 0% SIM NÃO NÃO SIM Risco de ter crédito Risco de não ter crédito Risco de ter crédito Nesta árvore de decisões, regras são induzidas nos padrões dos dados e cria-se uma hierarquia de indicações “se-então”. 25
  • 26. Técnicas • Redes Neurais: – É uma abordagem computacional que envolve desenvolvimento de estruturas matemáticas com a habilidade de aprender. (modelo do sistema nervoso para aprender) – Estruturalmente, uma rede neural consiste em um número de elementos interconectados (chamados neurônios/nós), que possuem entrada, saída e processamento. – São organizados em camadas que aprendem pela modificação da conexão. – Arquitetura: 26
  • 27. Técnicas • Redes Neurais: • Para construir um modelo neural, nós primeiramente "adestramos" a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições. • Problemas: – Não retorna informação a priori – Não pode ser treinada em uma grande base de dados – Entrada não pode ser dados alfa-numéricos (mapear para numérico) – Nenhuma explanação dos dados é fornecida (caixa preta) 27
  • 28. Técnicas • Redes Neurais: – Exemplo prático: risco de câncer Data mining - Clementine User Guide 28
  • 29. Técnicas • Redes Neurais: - 2o Exemplo RENDA DÉBITO IDADE REG. DE Nível PAGAMENTO de entrada Nível oculto Risco Risco de de ter não ter Nível crédito crédito de saída As redes neurais usam seus dados de entrada. Atribui pesos nas conecções entre os atributos (neurônios). E obtém um resultado (risco de ter ou não crédito) no nível 29 saída. de
  • 30. Exemplos • Áreas de aplicações potenciais: – Vendas e Marketing • Identificar padrões de comportamento de consumidores • Associar comportamentos à características demográficas de consumidores • Campanhas de marketing direto (mailing campaigns) • Identificar consumidores “leais” 30
  • 31. Exemplos • Áreas de aplicações potenciais: – Bancos • Identificar padrões de fraudes (cartões de crédito) • Identificar características de correntistas • Mercado Financeiro ($$$) 31
  • 32. Exemplos • Áreas de aplicações potenciais (continuação): – Médica • Comportamento de pacientes • Identificar terapias de sucessos para diferentes tratamentos • Fraudes em planos de saúdes • Comportamento de usuários de planos de saúde 32
  • 33. Introdução • Exemplo (1) - Fraldas e cervejas – O que as cervejas tem a ver com as fraldas ? – homens casados, entre 25 e 30 anos; – compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; – Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; – Resultado: o consumo cresceu 30% . 33
  • 34. Exemplos • Exemplo (2) - Lojas Brasileiras (Info 03/98) – Aplicou 1 milhão de dólares em técnicas de data mining – Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. – Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente é 220v 34
  • 35. Exemplos • Exemplo (3) - Bank of America (Info 03/98) – Selecionou entre seus 36 milhões de clientes • Aqueles com menor risco de dar calotes • Tinham filhos com idades entre 18 e 21 anos • Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. 35
  • 36. Exemplos • Empresas de software para Data mining: – SAS http://www.sas.com – Information Havesting http://www.convex.com – Red Brick http://www.redbrick.com – Oracle http://www.oracle.com – Sybase http://www.sybase.com – Informix http://www.informix.com – IBM http://www.ibm.com 36
  • 37. Conclusões • Data mininig é um processo que permite compreender o comportamento dos dados • Data mining X Data warehouse • Tem um suporte muito forte em I. A. • Pode ser bem aplicado em diversas áreas de negócios • Só será eficiente se o valor das informações extraídas exceder o custo do processamento dos dados brutos. • Ainda não há um consenso entre os autores. 37
  • 38. Conclusões Perguntas ? 38
  • 39. Conclusões Muita informação = Nenhuma informação ? ? Muita Informação 39
  • 41. Referências • Artigos e endereços na Internet: • [01] http://www-pcc.qub.ac.uk/tec/courses/datamining • [02] http://www.rio.com.br/~extended • [03] http://www.datamining.com • [04] http://www.santafe.edu/~kurt • [05] http://www.datamation.com • [06] http://www-dse.doc.ic.ac.uk/~kd • [07] http://www.cs.bham.ac.uk/~anp • [08] http://www.dbms.com/ (Vários artigos) • [09] http://www.infolink.com.br/~mpolito/mining/mining.html • [10] http://www.lci.ufrj.br/~labbd/semins/grupo1 41
  • 42. 42