SlideShare una empresa de Scribd logo
1 de 98
Descargar para leer sin conexión
Tarefas, Técnicas e Ferramentas
    Contexto e Motivação
    Data Mining – Definições
    KDD – Definição e Etapas
    Áreas de Aplicação
    Cases de Sucesso
    Abordagens e Metodologias
    Tarefas de Data Mining
    Técnicas de Data Mining
    Visualização de Dados em Data Mining
09/11/2010    ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   2
    Quantidades gigantescas de dados são
     coletados e armazenados em empresas,
     corporações, etc...

      Dados de comércio eletrônico;
      Dados de navegação na internet;
      Dados de compras de clientes em grandes lojas de
       departamentos, supermercados;
      Dados de transações bancárias, ou de cartão de
       crédito;
09/11/2010      ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   3
    Computadores mais baratos e mais potentes;

    Pressão da competição;




09/11/2010    ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   4
    Dados coletados e armazenados a
     velocidades enormes (GB/hora)

      Sensores remotos em satélites;
      Telescópios;
      Microarrays gerando dados de expressões de
       genes;
      Simulações científicas gerando terabytes de
       dados;
09/11/2010      ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   5
    Técnicas tradicionais não apropriadas para
     analisar tais dados

      Ruídos e grande dimensionalidade;




09/11/2010      ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   6
    Lei de Moore: Capacidade de processamento
     dobra a cada 18 meses (CPU, memória, cache)

    Capacidade de armazenamento dobra a cada 10
     meses

    O que estas duas “leis” combinadas produzem?

      Um gap crescente entre nossa habilidade de gerar
             dados e nossa habilidade de fazer uso dele

09/11/2010             ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   7
    Frequentemente existe informação “escondida”
     nos dados que não é evidente de ser encontrada
     utilizando linguagens de consultas tradicionais.

    Analistas humanos podem levar semanas para
     correlacionar e descobrir alguma informação útil
     dentro de uma grande massa de dados.

    Boa parte dos dados nunca é analisado:
     “cemitério” de dados.

09/11/2010      ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   8
    Técnicas de Mineração podem ajudar analistas:

      Entender e prever as necessidades dos clientes
      Descobrir fraudes
      Descobrir perfis de comportamento de clientes

    Técnicas de Mineração podem ajudar cientistas:

      Classificar e segmentar dados
      Formular hipóteses

09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   9
    Mineração de dados é a busca de informações valiosas em grandes
     bancos de dados. É um esforço de cooperação entre homens e
     computadores. Os homens projetam bancos de dados, descrevem
     problemas e definem seus objetivos. Os computadores verificam dados e
     procuram padrões que casem com as metas estabelecidas pelos homens
     [WI99].

    Mineração de dados é o processo de proposição de várias consultas e
     extração de informações úteis, padrões e tendências, frequentemente
     desconhecidos, a partir de grande quantidade de dados armazenada em
     bancos de dados [BT99].

    Mineração de dados, de forma simples, é o processo de extração ou
     mineração de conhecimento em grandes quantidades de dados [HK01].

09/11/2010          ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   10
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   11
    Limpeza dos dados: etapa onde são eliminados ruídos
     e dados inconsistentes.

    Integração dos dados: etapa onde diferentes fontes
     de dados podem ser combinadas produzindo um
     único repositório de dados.

    Seleção: etapa onde são selecionados os atributos
     que interessam ao usuário. Por exemplo, o usuário
     pode decidir que informações como endereço e
     telefone não são de relevantes para decidir se um
     cliente é um bom comprador ou não.
09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   12
    Transformação dos dados: etapa onde os
     dados são transformados num formato
     apropriado para aplicação de algoritmos de
     mineração (por exemplo, através de
     operações de agregação).

    Mineração: etapa essencial do processo
     consistindo na aplicação de técnicas
     inteligentes a fim de se extrair os padrões de
     interesse.
09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   13
     Avaliação ou Pós-processamento: etapa
     onde são identificados os padrões
     interessantes de acordo com algum critério
     do usuário.

    Visualização dos Resultados: etapa onde são
     utilizadas técnicas de representação de
     conhecimento a m de apresentar ao usuário o
     conhecimento minerado.
09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   14
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   15
    Atributos com representação inadequada para tarefa e algoritmo.
    Atributos cujos valores não tenham informações adequadas.
    Excesso de atributos (podem ser redundantes ou desnecessários).
    Atributos insuficientes.
    Excesso de instancias (afetam tempo de processamento).
    Instâncias insuficientes.
    Instâncias incompletas (sem valores para alguns atributos).
    Assim como a mineração de dados em si, requer conhecimento
     sobre os dados e algoritmo que será usado!

09/11/2010          ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   16
    Problemas:

      Redes Neurais Back-propagation só operam com valores
       numéricos.
      Alguns algoritmos de busca de associações só operam
       com valores simbólicos/discretos.

    Soluções:

      Conversão de tipos de atributos (quando aplicável!)
      Remoção dos atributos inadequados.
      Separação em subtarefas usando os valores discretos dos
             atributos.
09/11/2010                ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   17
    Problemas:

      Atributos com baixíssima variabilidade nos valores.
      Atributos redundantes ou altamente correlacionados
             com outros.

    Soluções:

      Remoção dos atributos inadequados.
      Unificação de atributos ou derivação de novos
             atributos.

09/11/2010                ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   18
    Problemas:

      Muitos atributos → complexidade de processamento.
      Correlações irrelevantes podem complicar o processo de
             mineração (a não ser que seja necessário descobri-las!)

    Soluções:

      Remoção dos atributos irrelevantes (possivelmente depois
       de alguma analise).
      Mudança de representação ou projeção (usando, por
       exemplo, PCA ou Mapas de Kohonen).
09/11/2010              ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   19
    Problemas:

      Poucos atributos podem não possibilitar mineração
             adequada (para identificar classes, por exemplo).

    Soluções:

      Enriquecimento com dados complementares (se puderem
       ser obtidos!)
      Enriquecimento com combinações não lineares.
      Data Farming. (Criação de grandes volumes de dados
       através de simulação com alta performance usando
       modelos generativos de dados.)

09/11/2010              ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   20
    Problemas:

      Muitas instâncias podem tornar o processamento inviável:
       alguns algoritmos requerem varias iterações com os
       dados.
      Problema relacionado: desbalanceamento de instâncias
       para classificação.

    Soluções:

      Redução por amostragem.
      Redução por prototipagem.
      Particionamento do conjunto de dados.

09/11/2010        ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   21
    Problemas:

      Poucas instâncias podem comprometer o resultado
       (que será pouco genérico ou confiável).
      Casos raros podem não ser representados.

    Soluções:

      Coleta de mais instâncias.
      Data Farming.

09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   22
    Problemas:

      Dados coletados podem ter valores de atributos faltando.
      Por que estão faltando? Rever modelagem do processo e coleta!

    Soluções:

      Eliminação de dados/atributos com muitos valores faltando.
      Completar através de proximidade/similaridade com dados
       completos.
      Separar em conjuntos para processamento independente ou
       associado.



09/11/2010         ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   23
    Mineração de dados é o passo do processo de
     KDD que produz um conjunto de padrões sob
     um custo computacional aceitável;

    KDD utiliza algoritmos de data mining para
     extrair padrões classificados como
     “conhecimento”. Incorpora também tarefas
     como escolha do algoritmo adequado,
     processamento e amostragem de dados e
     interpretação de resultados;
09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   24
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   25
   Vendas e Marketing
     Identificar padrões de comportamento de
      consumidores
     Associar comportamentos à características
      demográficas de consumidores
     Campanhas de marketing direto (mailing
      campaigns)
     Identificar consumidores “leais”


    09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   26
   Bancos
     Identificar padrões de fraudes (cartões de crédito)
     Identificar características de correntistas
     Mercado Financeiro ($$$)




09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   27
    Médica
      Comportamento de pacientes
      Identificar terapias de sucessos para diferentes
       tratamentos
      Fraudes em planos de saúdes
      Comportamento de usuários de planos de saúde




    09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   28
   Exemplo (1) - Fraldas e cervejas
     O que as cervejas tem a ver com as fraldas ?
     homens casados, entre 25 e 30 anos;
     compravam fraldas e/ou cervejas às sextas-feiras
      à tarde no caminho do trabalho para casa;
     Wal-Mart otimizou às gôndolas nos pontos de
      vendas, colocando as fraldas ao lado das cervejas;
     Resultado: o consumo cresceu 30% .

09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   29
   Exemplo (2) - Lojas Brasileiras (Info 03/98)
     Aplicou 1 milhão de dólares em técnicas de data
      mining
     Reduziu de 51000 produtos para 14000 produtos
      oferecidos em suas lojas.
     Exemplo de anomalias detectadas:
        – Roupas de inverno e guarda chuvas encalhadas no nordeste
        – Batedeiras 110v a venda em SC onde a corrente é 220v



09/11/2010          ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   30
   Exemplo (3) - Bank of America (Info 03/98)
     Selecionou entre seus 36 milhões de clientes
      ▪ Aqueles com menor risco de dar calotes
      ▪ Tinham filhos com idades entre 18 e 21 anos
      ▪ Resultado em três anos o banco lucrou 30 milhões de
        dólares com a carteira de empréstimos.




09/11/2010        ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   31
    Quanto ao tipo de bancos de dados:
     relacional, transacional, orientado-objeto,
     relacional-estendido, data warehouse;

    Quanto ao tipo de conhecimento minerado:
     regras de associação, classificação, clustering,
     outliers, análise de sequências;


09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   32
    Quanto ao tipo de técnicas utilizadas: técnicas
     de aprendizado de máquina (Machine Learning),
     estatística, redes neurais, algoritmos genéticos,
     etc; tipos de interação com o usuário;
    Quanto ao tipo de aplicações a que são
     dirigidos: telecomunicações, análise financeira,
     bioinformática, mercado de ações, comércio
     eletrônico;
    Diferentes aplicações requerem a integração de
     métodos específicos.
09/11/2010      ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   33
    Na busca de conhecimento direta ou
     supervisionada sua meta é orientada.
    Existe um valor para ser prognosticado, uma
     classe a ser atribuída aos registros ou um
     determinado relacionamento para ser
     explorado.
    Existe apenas uma vaga idéia do que se estar
     procurando.

09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   34
    Identificar as fontes dos dados selecionados
     para mineração;
    Prepara os dados para análise;
    Construir e trinar o modelo computacional;
    Avaliar o modelo computacional.




09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   35
    Na busca de conhecimento indireta ou não-
     supervisionada não existe uma meta bem
     definida.

    As ferramentas são mais livres na sua
     aplicação sobre os dados e espera-se que será
     descoberto alguma estrutura significante nos
     dados.

09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   36
    Identificar as fontes dos dados;
    Prepara os dados para análise;
    Construir e trinar o modelo computacional;
    Avaliar o modelo computacional;
    Aplicar o modelo computacional no novo
     conjunto de dados;
    Identificar potenciais objetivos para busca de
     conhecimento direta;
    Gerar novas hipóteses para teste.
09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   37
    Na abordagem top-down, também chamada de
     teste de hipótese, o usuário parte do princípio
     que existe uma hipótese, uma idéia pré-
     concebida e que mesmo deseja confirmá-la ou
     refutá-la.
    Na abordagem bottom-up, também chamada
     de busca de conhecimento, o usuário inicia o
     processo de exploração dos dados na tentativa
     de descobrir alguma coisa que ainda não é de
     conhecimento

09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   38
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   39
    Tarefas: Consistem na especificação do que
     estamos querendo buscar nos dados, que
     tipo de regularidades ou categoria de padrões
     temos interesse em encontrar, ou que tipo de
     padrões poderiam nos surpreender (por
     exemplo, um gasto exagerado de um cliente
     de cartão de crédito, fora dos padrões usuais
     de seus gastos).

09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   40
    Técnicas: Consiste na especificação de
     métodos que nos garantam como descobrir
     os padrões que nos interessam.

    Dentre as principais técnicas utilizadas em
     mineração de dados, temos técnicas
     estatísticas, técnicas de aprendizado de
     máquina e técnicas baseadas em
     crescimento-poda-validação.
09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   41
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   42
    Uma regra de associação é um padrão da
     forma X -> Y , onde X e Y são conjuntos de
     valores (artigos comprados por um cliente,
     sintomas apresentados por um paciente, etc).




09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   43
    Exemplo:

      “Clientes que compram pão também compram leite”
             representa uma regra de associação que reflete um
             padrão de comportamento dos clientes do
             supermercado.

      Descobrir regras de associação entre produtos
             comprados por clientes numa mesma compra pode
             ser útil para melhorar a organização das prateleiras,
             facilitar (ou dificultar) as compras do usuário ou
             induzi-lo a comprar mais.

09/11/2010             ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   44
    Um padrão sequencial é uma expressão da
     forma < I1,..., In >, onde cada Ii é um conjunto
     de itens. A ordem em que estão alinhados
     estes conjuntos reflete a ordem cronológica
     em que aconteceram os fatos representados
     por estes conjuntos.



09/11/2010      ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   45
    Exemplo:

      A sequência < {carro}, {pneu, toca-fitas} >
             representa o padrão Clientes que compram carro,
             tempos depois compram pneu e toca-fitas de
             carro.

      Descobrir tais padrões sequenciais em dados
             temporais pode ser útil em campanhas de
             marketing, por exemplo.

09/11/2010            ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   46
    Classificação é o processo de encontrar um
     conjunto de modelos (funções) que
     descrevem e distinguem classes ou conceitos,
     com o propósito de utilizar o modelo para
     predizer a classe de objetos que ainda não
     foram classificados.



09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   47
    O modelo construído baseia-se na análise
     prévia de um conjunto de dados de
     amostragem ou dados de treinamento,
     contendo objetos corretamente classificados.




09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   48
    Exemplo:

      Suponha que o gerente do supermercado está
             interessado em descobrir que tipo de
             características de seus clientes os classificam em
             bom comprador ou mau comprador.

      Um modelo de classificação poderia incluir a
             seguinte regra: Clientes da faixa econômica B,
             com idade entre 50 e 60 são maus compradores.

09/11/2010             ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   49
    Em algumas aplicações, o usuário está mais
     interessado em predizer alguns valores
     ausentes em seus dados, em vez de descobrir
     classes de objetos. Isto ocorre sobretudo
     quando os valores que faltam são numéricos.

    Neste caso, a tarefa de mineração é
     denominada Predição.

09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   50
    Diferentemente da classificação e predição onde
     os dados de treinamento estão devidamente
     classificados e as etiquetas das classes são
     conhecidas, a análise de clusters trabalha sobre
     dados onde as etiquetas das classes não estão
     definidas.

    A tarefa consiste em identificar agrupamentos
     de objetos, agrupamentos estes que identificam
     uma classe.

09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   51
    Exemplo:

      Poderíamos aplicar análise de clusters sobre o banco
             de dados de um supermercado a fim de identificar
             grupos homogêneos de clientes;

      Por exemplo, clientes aglutinados em determinados
             pontos da cidade costumam vir ao supermercado aos
             domingos, enquanto clientes aglutinados em outros
             pontos da cidade costumam fazer suas compras às
             segundas-feira;

09/11/2010             ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   52
    Um banco de dados pode conter dados que não
     apresentam o comportamento geral da maioria.
     Estes dados são denominados
     outliers(exceções).
    Muitos métodos de mineração descartam estes
     outliers como sendo ruído indesejado.
    Entretanto, em algumas aplicações, tais como
     detecção de fraudes, estes eventos raros podem
     ser mais interessantes do que eventos que
     ocorrem regularmente.
09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   53
    Exemplo:

      Podemos detectar o uso fraudulento de cartões
             de crédito ao descobrir que certos clientes
             efetuaram compras de valor extremamente alto,
             fora de seu padrão habitual de gastos.




09/11/2010            ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   54
    O que significa um padrão ser interessante ?

            Fácil de ser entendido
            Inesperado
            Potencialmente util
            Confirma uma hipotese feita pelo usuario

    Tipos de medidas:

      Objetivas : suporte, confiança
      Subjetivas : esperadas, inesperadas

09/11/2010              ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   55
Associação




09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   56
   Métricas:

     Significância em uma associação: ela pode existir mas ser
        muito rara em uma base de dados (ex. cerveja → fraldas).
         ▪ Suporte X → Y: numero de casos que contem X e Y dividido pelo
           número total de registros.

     Confiança em uma associação: o antecedente pode ocorrer
        varias vezes na base de dados mas nem sempre com o
        mesmo consequente associado.

         ▪ Confiança X → Y: numero de registros que contem X e Y dividido
           pelo numero de registros que contem X.

    09/11/2010         ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   57
    Algoritmo Apriori




09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   58
Sequências




09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   59
    Algoritmos AprioriALL
    Algoritmo Apriori-Some
    Algoritmo GSP
    Algoritmo SPADE
    Algoritmo PrefixSpan

    Sequências com Restrições
      Algoritmo SPIRIT


09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   60
Classificação




09/11/2010          ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   61
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   62
    Métodos de classificação supervisionada:

      Baseados em distancias e diferenças, usando protótipos ou
      assinaturas: mínima distancia euclidiana e variantes.
      Baseados em separabilidade (entropia): hiperparalelepípedo
       regular, arvores de decisão e variantes.
      Baseados em particionamento: redes neurais (back-
       propagation),
      SVM (support vector machines).
      Baseados diretamente nos dados: vizinhos mais próximos e
       similares.

    Existe superposição nesta taxonomia...

09/11/2010         ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   63
   Árvores de decisão: (ID3) - 1o Exemplo
       Representações simples do conhecimento
       Utilização de regras condicionais
       A partir de um conjunto de valores decide SIM ou NÃO
       Mais rápida e mais compreensível que redes neurais
       Exemplo: Sair ou não de acordo com o tempo
                                    Tempo
                                                                            Predicado objetivo:
                                                                              Sair ou Não Sair
                Nublado           Ensolarado                    Chuvoso

               Umidade                  Sair                   Muito vento
             Alta      Normal                              Sim                       Não

        Ñ Sair         Sair                              Ñ Sair                  Sair
09/11/2010            ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA                64
   Árvores de decisão: (ID3) - 2o Exemplo
      Classificação de um indivíduo com risco de ter ou não crédito

                        Renda > R$ 4.000,00

                           SIM                                      NÃO          Predicado objetivo:
                                                                                    Crédito ou Não

         Dívida < 10% da renda ?                                  Dívida = 0%


              SIM                      NÃO               NÃO                            SIM


Risco de ter crédito Risco de não ter crédito Risco de ter crédito

               Nesta árvore de decisões, regras são induzidas nos padrões dos
                 dados e cria-se uma hierarquia de indicações “se-então”.
 09/11/2010              ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA              65
   Redes Neurais:
         ▪ Para construir um modelo neural, nós primeiramente
           "adestramos" a rede em um dataset de treinamento e então
           usamos a rede já treinada para fazer predições.
         ▪ Problemas:
             ▪ Não retorna informação a priori
             ▪ Não pode ser treinada em uma grande base de dados
             ▪ Entrada não pode ser dados alfanuméricos (mapear para numérico)
             ▪ Nenhuma explanação dos dados é fornecida (caixa preta)




09/11/2010              ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   66
   Redes Neurais:
        Exemplo prático: risco de câncer




09/11/2010        ©2010 Data mining - Clementine User Guide DW-UFBA
                        | Mauricio Cesar Santos da Purificação | Grupo   67
   Redes Neurais: - 2o Exemplo
                                                                                   Nível
    RENDA               DÉBITO              IDADE            REG. DE                de
                                                           PAGAMENTO              entrada




                                                                                   Nível
                                                                                  oculto

                         Risco               Risco de
                         de ter               não ter
                        crédito              crédito                               Nível
                                                                                    de
               As redes neurais usam seus dados de entrada.                        saída
         Atribui pesos nas conecções entre os atributos (neurônios).
  E obtém um resultado (risco de ter ouda Purificação | Grupono nível de saída.
09/11/2010              ©2010 | Mauricio Cesar Santos não crédito) DW-UFBA             68
Agrupamento (Clusterização)




09/11/2010         ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   69
    Algoritmos para criação de grupos de instâncias
      Similares entre si,
      Diferentes de instancias em outros grupos.
      Não-supervisionado (?)

    Também conhecidos como algoritmos de
     aprendizado auto organizado.
    Diferença entre instancias e (protótipos de)
     grupos e dada por um valor: medidas de
     distancia ou similaridade/dissimilaridade.

09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   70
   Duas abordagens gerais:

     Particionais:

       ▪ Criam grupos de forma iterativa.
       ▪ Reparticiona/reorganiza ate atingir um limiar (tempo, erro quadrático, etc).
       ▪ Ao terminar fornece pertinência final de instancias a grupos.

     Hierárquicos:

       ▪ Bottom-up: cria pequenos grupos juntando as instancias, repetindo ate atingir um critério.
       ▪ Top-down: considera todas as instancias como pertencentes a um grande grupo,
         subdivide recursivamente este grupo.

     Podem criar dendogramas: agrupamentos hierárquicos com números
       alternativos de grupos.

    09/11/2010              ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA       71
    K-Médias (Particional)
    Isodata
    Lógica Nebulosa (Fuzzy Logic)
    Fuzzy C-Médias
    Self-Organizing Maps (SOMs)
    Hierárquicos Aglomerativos
      (BIRCH, CURE, CHAMELEON, ROCK...)
    Hierárquicos Divisórios
      (DIANA)
    Baseados em Densidade
      (DBSCAN,OPTICS, DENCLUE)
09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   72
Outliers




09/11/2010     ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   73
Outras Técnicas




09/11/2010            ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   74
    Muitas outras técnicas podem ser usadas:

      Pesquisa Operacional, Inteligência Artificial e
       outras.
      Outros modelos de redes neurais, Rough Sets,
       Support Vector Machines, etc.
      Técnicas de algoritmos genéticos, Particle Swarm
       Optimization, etc.
      Técnicas baseadas em sistemas imunes artificiais,
       biologia/vida artificial, etc.
09/11/2010       ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   75
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   76
    Pode ser usada no inicio do processo de mineração...

      Para ter uma ideia da distribuição dos dados ou de relações entre os
       dados para formulação de hipóteses;
      Para selecionar atributos ou regiões de dados;
      Para ter uma ideia de que tipos de algoritmos podem trazer resultados
       para estes dados;

    Pode ser usada no final do processo de mineração...

      Para ver as informações/regras/grupos/etc. obtidos: sumarização do
       conhecimento;
      Para ver distribuições contextualizadas (isto e, com conhecimento
       adicional adquirido integrado);
      Analise Explorativa/ Analise Confirmativa/Apresentação;


09/11/2010           ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   77
    Desafios:

            Métodos e técnicas específicos.
            Limitações de hardware (humano e maquina!)
            Numero de dimensões (atributos) dos dados.
            Numero de instancias para visualização.
            “Empilhamento” e ordenação.

    Vantagens:

      Inerentemente exploratório.
      Padrões detectados mesmo que não sejam explicáveis!

09/11/2010             ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   78
    Ideia básica: transformações e projeções
     usando arranjos em um numero menor de
     dimensões.

      Scatterplot Matrices: K atributos em grade KxK.
      Prosection Views: Scatterplot Matrices com
       mecanismos de seleção (drill-down).
      Parallel Coordinates: muito bom para dados
       mistos, requer exploração e rearranjos.
      Visualização com Mapas de Kohonen (SOMs).
09/11/2010      ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   79
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   80
Exemplo de R. Spence.



09/11/2010           ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   81
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   82
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   83
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   84
Origem do vinho a partir de conteúdo físico-químico (13 atributos)
http://archive.ics.uci.edu/ml/datasets/Wine (nomes de atributos originais)




  09/11/2010             ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   85
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   86
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   87
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   88
    Ideia básica: usamos duas dimensões para
     mostrar ícones que representam outras
     dimensões adicionais.

      Interpretação deve ser feita com legendas!
      Chernoff faces: atributos das faces (geometria,
       olhos, excentricidade, curvaturas, etc.)
       representam outras dimensões.
      Stick figures: dimensões adicionais mapeadas para
       ângulos e comprimentos de segmentos de retas.
09/11/2010      ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   89
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   90
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   91
Uso de duas dimensões mais textura



09/11/2010    ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   92
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   93
    Idéia básica: particionamento das dimensões em
     subdimensiones.

      Dimensional Stacking: Particionamento de N dimensões
             em conjuntos de 2 dimensões.
            Worlds-within-Worlds: Particionamento de N dimensões
             em conjuntos de 3 dimensões.
            Treemap: Preenche área de visualização alternando eixos X
             e Y.
            Cone Trees: Visualizacao interativa de dados hierárquicos.
            InfoCube: Visualização hierárquica com 3D e transparência.

09/11/2010              ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   94
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   95
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   96
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   97
09/11/2010   ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA   98

Más contenido relacionado

La actualidad más candente

Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Carlos Barbieri
 
Aula 04 arquitetura de computadores
Aula 04   arquitetura de computadoresAula 04   arquitetura de computadores
Aula 04 arquitetura de computadoresDaniel Moura
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)Marco Garcia
 
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)Marcus Araújo
 
Sistema de automação de escritório
Sistema de automação de escritórioSistema de automação de escritório
Sistema de automação de escritórioDenilson Sousa
 
1.Introdução Banco de Dados
1.Introdução Banco de Dados1.Introdução Banco de Dados
1.Introdução Banco de Dadosvini_campos
 
Aula 06 barramentos e recursos onboard
Aula 06 barramentos e recursos onboardAula 06 barramentos e recursos onboard
Aula 06 barramentos e recursos onboardAlexandrino Sitoe
 
Data Warehouse Design and Best Practices
Data Warehouse Design and Best PracticesData Warehouse Design and Best Practices
Data Warehouse Design and Best PracticesIvo Andreev
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
Sistemas Operacionais - Aula 03 (Conceitos de hardware e software)
Sistemas Operacionais - Aula 03 (Conceitos de hardware e software)Sistemas Operacionais - Aula 03 (Conceitos de hardware e software)
Sistemas Operacionais - Aula 03 (Conceitos de hardware e software)Leinylson Fontinele
 
Roteiro de aula montagem e manutenção 2012
Roteiro de aula montagem e manutenção 2012Roteiro de aula montagem e manutenção 2012
Roteiro de aula montagem e manutenção 2012Carlos Melo
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAlberto Simões
 
Sistemas de Informações - Aula 16: BI, BA e Big Data
Sistemas de Informações - Aula 16: BI, BA e Big DataSistemas de Informações - Aula 16: BI, BA e Big Data
Sistemas de Informações - Aula 16: BI, BA e Big DataMarcus Araújo
 
Escritório de Governança de Dados - Conceitos e dicas para implantação
Escritório de Governança de Dados - Conceitos e dicas para implantaçãoEscritório de Governança de Dados - Conceitos e dicas para implantação
Escritório de Governança de Dados - Conceitos e dicas para implantaçãoBergson Lopes Rêgo, PMP
 
Aula metadados 2012
Aula metadados 2012Aula metadados 2012
Aula metadados 2012rachelvesu
 
Sistema de processamento de transações
Sistema de processamento de transações  Sistema de processamento de transações
Sistema de processamento de transações Denilson Sousa
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 

La actualidad más candente (20)

Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Aula 04 arquitetura de computadores
Aula 04   arquitetura de computadoresAula 04   arquitetura de computadores
Aula 04 arquitetura de computadores
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)
 
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
Sistemas de Informações - Aula 10: Sistemas de Apoio à Decisão (SAD e SAD-G)
 
Sistema de automação de escritório
Sistema de automação de escritórioSistema de automação de escritório
Sistema de automação de escritório
 
1.Introdução Banco de Dados
1.Introdução Banco de Dados1.Introdução Banco de Dados
1.Introdução Banco de Dados
 
Aula 06 barramentos e recursos onboard
Aula 06 barramentos e recursos onboardAula 06 barramentos e recursos onboard
Aula 06 barramentos e recursos onboard
 
Data Warehouse Design and Best Practices
Data Warehouse Design and Best PracticesData Warehouse Design and Best Practices
Data Warehouse Design and Best Practices
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
Sistemas Operacionais - Aula 03 (Conceitos de hardware e software)
Sistemas Operacionais - Aula 03 (Conceitos de hardware e software)Sistemas Operacionais - Aula 03 (Conceitos de hardware e software)
Sistemas Operacionais - Aula 03 (Conceitos de hardware e software)
 
Roteiro de aula montagem e manutenção 2012
Roteiro de aula montagem e manutenção 2012Roteiro de aula montagem e manutenção 2012
Roteiro de aula montagem e manutenção 2012
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
 
Sistemas de Informações - Aula 16: BI, BA e Big Data
Sistemas de Informações - Aula 16: BI, BA e Big DataSistemas de Informações - Aula 16: BI, BA e Big Data
Sistemas de Informações - Aula 16: BI, BA e Big Data
 
Escritório de Governança de Dados - Conceitos e dicas para implantação
Escritório de Governança de Dados - Conceitos e dicas para implantaçãoEscritório de Governança de Dados - Conceitos e dicas para implantação
Escritório de Governança de Dados - Conceitos e dicas para implantação
 
Microsoft Power BI
Microsoft Power BIMicrosoft Power BI
Microsoft Power BI
 
Aula metadados 2012
Aula metadados 2012Aula metadados 2012
Aula metadados 2012
 
Sistema de processamento de transações
Sistema de processamento de transações  Sistema de processamento de transações
Sistema de processamento de transações
 
Unidades de informação
Unidades de informaçãoUnidades de informação
Unidades de informação
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 

Similar a Aula Data Mining

Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Wosley Arruda
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dadosTalita Lima
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de DadosJoão Pedro Albino
 
Data Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudançaData Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudançaDenodo
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data miningCassius Busemeyer
 

Similar a Aula Data Mining (20)

Data Warehouse e Data Mining
Data Warehouse e Data MiningData Warehouse e Data Mining
Data Warehouse e Data Mining
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Mineração Livre de Dados
Mineração Livre de DadosMineração Livre de Dados
Mineração Livre de Dados
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Data mining
Data miningData mining
Data mining
 
Data mesh-pt
Data mesh-ptData mesh-pt
Data mesh-pt
 
Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6
 
Data mining
Data miningData mining
Data mining
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Data Mining
Data Mining Data Mining
Data Mining
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Introducão à Ciência de Dados
Introducão à Ciência de DadosIntroducão à Ciência de Dados
Introducão à Ciência de Dados
 
Data mining
Data miningData mining
Data mining
 
Data Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudançaData Management: 5 tendências para alcançar a mudança
Data Management: 5 tendências para alcançar a mudança
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...
 
Data warehouse & Data mining
Data warehouse & Data miningData warehouse & Data mining
Data warehouse & Data mining
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
jjjjjjjjjjjjjjj
jjjjjjjjjjjjjjjjjjjjjjjjjjjjjj
jjjjjjjjjjjjjjj
 

Más de Mauricio Cesar Santos da Purificação

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Mauricio Cesar Santos da Purificação
 
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroIntelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroMauricio Cesar Santos da Purificação
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Mauricio Cesar Santos da Purificação
 

Más de Mauricio Cesar Santos da Purificação (20)

Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
Intelligence, Discovery, Analytics e Data Science: Evolução, Desafios e Oport...
 
R para Iniciantes
R para IniciantesR para Iniciantes
R para Iniciantes
 
Aprendendo R
Aprendendo RAprendendo R
Aprendendo R
 
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em OuroIntelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
Intelligence, Discovery, Science e Analytics: Transformando Dados em Ouro
 
Pitch AcheSeuEstúdio - Campus Party
Pitch AcheSeuEstúdio - Campus PartyPitch AcheSeuEstúdio - Campus Party
Pitch AcheSeuEstúdio - Campus Party
 
Pitch BestPoint - Campus Party
Pitch BestPoint - Campus PartyPitch BestPoint - Campus Party
Pitch BestPoint - Campus Party
 
Big Data Analytics
Big Data AnalyticsBig Data Analytics
Big Data Analytics
 
Flyer BestPoint
Flyer BestPointFlyer BestPoint
Flyer BestPoint
 
Pitch BestPoint
Pitch BestPointPitch BestPoint
Pitch BestPoint
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
OxenTI - Desenvolvimento de Soluções Inovadoras em TI
OxenTI - Desenvolvimento de Soluções Inovadoras em TIOxenTI - Desenvolvimento de Soluções Inovadoras em TI
OxenTI - Desenvolvimento de Soluções Inovadoras em TI
 
Pitch BestPoint - DemoDay StartupSummer 2015
Pitch BestPoint - DemoDay StartupSummer 2015Pitch BestPoint - DemoDay StartupSummer 2015
Pitch BestPoint - DemoDay StartupSummer 2015
 
BestPoint
BestPointBestPoint
BestPoint
 
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
Big Data Analytics e Social Mining - Inteligência Em Uma Montanha de Dados?
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…QlikView In Action - Do BI ao Business Discovery!…
QlikView In Action - Do BI ao Business Discovery!…
 
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
Dê Adeus ao BI e Seja Bem Vindo à Era do Analytics...
 
Adeus BI, Seja Bem Vindo a Era do Analytics?
Adeus BI, Seja Bem Vindo a Era do Analytics?Adeus BI, Seja Bem Vindo a Era do Analytics?
Adeus BI, Seja Bem Vindo a Era do Analytics?
 
Derivação de Modelos ER
Derivação de Modelos ERDerivação de Modelos ER
Derivação de Modelos ER
 
Business Intelligence - Prática e Experiências
Business Intelligence - Prática e ExperiênciasBusiness Intelligence - Prática e Experiências
Business Intelligence - Prática e Experiências
 

Aula Data Mining

  • 1. Tarefas, Técnicas e Ferramentas
  • 2. Contexto e Motivação  Data Mining – Definições  KDD – Definição e Etapas  Áreas de Aplicação  Cases de Sucesso  Abordagens e Metodologias  Tarefas de Data Mining  Técnicas de Data Mining  Visualização de Dados em Data Mining 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 2
  • 3. Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc...  Dados de comércio eletrônico;  Dados de navegação na internet;  Dados de compras de clientes em grandes lojas de departamentos, supermercados;  Dados de transações bancárias, ou de cartão de crédito; 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 3
  • 4. Computadores mais baratos e mais potentes;  Pressão da competição; 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 4
  • 5. Dados coletados e armazenados a velocidades enormes (GB/hora)  Sensores remotos em satélites;  Telescópios;  Microarrays gerando dados de expressões de genes;  Simulações científicas gerando terabytes de dados; 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 5
  • 6. Técnicas tradicionais não apropriadas para analisar tais dados  Ruídos e grande dimensionalidade; 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 6
  • 7. Lei de Moore: Capacidade de processamento dobra a cada 18 meses (CPU, memória, cache)  Capacidade de armazenamento dobra a cada 10 meses  O que estas duas “leis” combinadas produzem?  Um gap crescente entre nossa habilidade de gerar dados e nossa habilidade de fazer uso dele 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 7
  • 8. Frequentemente existe informação “escondida” nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais.  Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados.  Boa parte dos dados nunca é analisado: “cemitério” de dados. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 8
  • 9. Técnicas de Mineração podem ajudar analistas:  Entender e prever as necessidades dos clientes  Descobrir fraudes  Descobrir perfis de comportamento de clientes  Técnicas de Mineração podem ajudar cientistas:  Classificar e segmentar dados  Formular hipóteses 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 9
  • 10. Mineração de dados é a busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens [WI99].  Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99].  Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01]. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 10
  • 11. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 11
  • 12. Limpeza dos dados: etapa onde são eliminados ruídos e dados inconsistentes.  Integração dos dados: etapa onde diferentes fontes de dados podem ser combinadas produzindo um único repositório de dados.  Seleção: etapa onde são selecionados os atributos que interessam ao usuário. Por exemplo, o usuário pode decidir que informações como endereço e telefone não são de relevantes para decidir se um cliente é um bom comprador ou não. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 12
  • 13. Transformação dos dados: etapa onde os dados são transformados num formato apropriado para aplicação de algoritmos de mineração (por exemplo, através de operações de agregação).  Mineração: etapa essencial do processo consistindo na aplicação de técnicas inteligentes a fim de se extrair os padrões de interesse. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 13
  • 14. Avaliação ou Pós-processamento: etapa onde são identificados os padrões interessantes de acordo com algum critério do usuário.  Visualização dos Resultados: etapa onde são utilizadas técnicas de representação de conhecimento a m de apresentar ao usuário o conhecimento minerado. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 14
  • 15. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 15
  • 16. Atributos com representação inadequada para tarefa e algoritmo.  Atributos cujos valores não tenham informações adequadas.  Excesso de atributos (podem ser redundantes ou desnecessários).  Atributos insuficientes.  Excesso de instancias (afetam tempo de processamento).  Instâncias insuficientes.  Instâncias incompletas (sem valores para alguns atributos).  Assim como a mineração de dados em si, requer conhecimento sobre os dados e algoritmo que será usado! 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 16
  • 17. Problemas:  Redes Neurais Back-propagation só operam com valores numéricos.  Alguns algoritmos de busca de associações só operam com valores simbólicos/discretos.  Soluções:  Conversão de tipos de atributos (quando aplicável!)  Remoção dos atributos inadequados.  Separação em subtarefas usando os valores discretos dos atributos. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 17
  • 18. Problemas:  Atributos com baixíssima variabilidade nos valores.  Atributos redundantes ou altamente correlacionados com outros.  Soluções:  Remoção dos atributos inadequados.  Unificação de atributos ou derivação de novos atributos. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 18
  • 19. Problemas:  Muitos atributos → complexidade de processamento.  Correlações irrelevantes podem complicar o processo de mineração (a não ser que seja necessário descobri-las!)  Soluções:  Remoção dos atributos irrelevantes (possivelmente depois de alguma analise).  Mudança de representação ou projeção (usando, por exemplo, PCA ou Mapas de Kohonen). 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 19
  • 20. Problemas:  Poucos atributos podem não possibilitar mineração adequada (para identificar classes, por exemplo).  Soluções:  Enriquecimento com dados complementares (se puderem ser obtidos!)  Enriquecimento com combinações não lineares.  Data Farming. (Criação de grandes volumes de dados através de simulação com alta performance usando modelos generativos de dados.) 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 20
  • 21. Problemas:  Muitas instâncias podem tornar o processamento inviável: alguns algoritmos requerem varias iterações com os dados.  Problema relacionado: desbalanceamento de instâncias para classificação.  Soluções:  Redução por amostragem.  Redução por prototipagem.  Particionamento do conjunto de dados. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 21
  • 22. Problemas:  Poucas instâncias podem comprometer o resultado (que será pouco genérico ou confiável).  Casos raros podem não ser representados.  Soluções:  Coleta de mais instâncias.  Data Farming. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 22
  • 23. Problemas:  Dados coletados podem ter valores de atributos faltando.  Por que estão faltando? Rever modelagem do processo e coleta!  Soluções:  Eliminação de dados/atributos com muitos valores faltando.  Completar através de proximidade/similaridade com dados completos.  Separar em conjuntos para processamento independente ou associado. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 23
  • 24. Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável;  KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 24
  • 25. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 25
  • 26. Vendas e Marketing  Identificar padrões de comportamento de consumidores  Associar comportamentos à características demográficas de consumidores  Campanhas de marketing direto (mailing campaigns)  Identificar consumidores “leais” 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 26
  • 27. Bancos  Identificar padrões de fraudes (cartões de crédito)  Identificar características de correntistas  Mercado Financeiro ($$$) 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 27
  • 28. Médica  Comportamento de pacientes  Identificar terapias de sucessos para diferentes tratamentos  Fraudes em planos de saúdes  Comportamento de usuários de planos de saúde 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 28
  • 29. Exemplo (1) - Fraldas e cervejas  O que as cervejas tem a ver com as fraldas ?  homens casados, entre 25 e 30 anos;  compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa;  Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas;  Resultado: o consumo cresceu 30% . 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 29
  • 30. Exemplo (2) - Lojas Brasileiras (Info 03/98)  Aplicou 1 milhão de dólares em técnicas de data mining  Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas.  Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente é 220v 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 30
  • 31. Exemplo (3) - Bank of America (Info 03/98)  Selecionou entre seus 36 milhões de clientes ▪ Aqueles com menor risco de dar calotes ▪ Tinham filhos com idades entre 18 e 21 anos ▪ Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 31
  • 32. Quanto ao tipo de bancos de dados: relacional, transacional, orientado-objeto, relacional-estendido, data warehouse;  Quanto ao tipo de conhecimento minerado: regras de associação, classificação, clustering, outliers, análise de sequências; 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 32
  • 33. Quanto ao tipo de técnicas utilizadas: técnicas de aprendizado de máquina (Machine Learning), estatística, redes neurais, algoritmos genéticos, etc; tipos de interação com o usuário;  Quanto ao tipo de aplicações a que são dirigidos: telecomunicações, análise financeira, bioinformática, mercado de ações, comércio eletrônico;  Diferentes aplicações requerem a integração de métodos específicos. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 33
  • 34. Na busca de conhecimento direta ou supervisionada sua meta é orientada.  Existe um valor para ser prognosticado, uma classe a ser atribuída aos registros ou um determinado relacionamento para ser explorado.  Existe apenas uma vaga idéia do que se estar procurando. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 34
  • 35. Identificar as fontes dos dados selecionados para mineração;  Prepara os dados para análise;  Construir e trinar o modelo computacional;  Avaliar o modelo computacional. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 35
  • 36. Na busca de conhecimento indireta ou não- supervisionada não existe uma meta bem definida.  As ferramentas são mais livres na sua aplicação sobre os dados e espera-se que será descoberto alguma estrutura significante nos dados. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 36
  • 37. Identificar as fontes dos dados;  Prepara os dados para análise;  Construir e trinar o modelo computacional;  Avaliar o modelo computacional;  Aplicar o modelo computacional no novo conjunto de dados;  Identificar potenciais objetivos para busca de conhecimento direta;  Gerar novas hipóteses para teste. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 37
  • 38. Na abordagem top-down, também chamada de teste de hipótese, o usuário parte do princípio que existe uma hipótese, uma idéia pré- concebida e que mesmo deseja confirmá-la ou refutá-la.  Na abordagem bottom-up, também chamada de busca de conhecimento, o usuário inicia o processo de exploração dos dados na tentativa de descobrir alguma coisa que ainda não é de conhecimento 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 38
  • 39. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 39
  • 40. Tarefas: Consistem na especificação do que estamos querendo buscar nos dados, que tipo de regularidades ou categoria de padrões temos interesse em encontrar, ou que tipo de padrões poderiam nos surpreender (por exemplo, um gasto exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus gastos). 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 40
  • 41. Técnicas: Consiste na especificação de métodos que nos garantam como descobrir os padrões que nos interessam.  Dentre as principais técnicas utilizadas em mineração de dados, temos técnicas estatísticas, técnicas de aprendizado de máquina e técnicas baseadas em crescimento-poda-validação. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 41
  • 42. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 42
  • 43. Uma regra de associação é um padrão da forma X -> Y , onde X e Y são conjuntos de valores (artigos comprados por um cliente, sintomas apresentados por um paciente, etc). 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 43
  • 44. Exemplo:  “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado.  Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 44
  • 45. Um padrão sequencial é uma expressão da forma < I1,..., In >, onde cada Ii é um conjunto de itens. A ordem em que estão alinhados estes conjuntos reflete a ordem cronológica em que aconteceram os fatos representados por estes conjuntos. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 45
  • 46. Exemplo:  A sequência < {carro}, {pneu, toca-fitas} > representa o padrão Clientes que compram carro, tempos depois compram pneu e toca-fitas de carro.  Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 46
  • 47. Classificação é o processo de encontrar um conjunto de modelos (funções) que descrevem e distinguem classes ou conceitos, com o propósito de utilizar o modelo para predizer a classe de objetos que ainda não foram classificados. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 47
  • 48. O modelo construído baseia-se na análise prévia de um conjunto de dados de amostragem ou dados de treinamento, contendo objetos corretamente classificados. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 48
  • 49. Exemplo:  Suponha que o gerente do supermercado está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador.  Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 49
  • 50. Em algumas aplicações, o usuário está mais interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos.  Neste caso, a tarefa de mineração é denominada Predição. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 50
  • 51. Diferentemente da classificação e predição onde os dados de treinamento estão devidamente classificados e as etiquetas das classes são conhecidas, a análise de clusters trabalha sobre dados onde as etiquetas das classes não estão definidas.  A tarefa consiste em identificar agrupamentos de objetos, agrupamentos estes que identificam uma classe. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 51
  • 52. Exemplo:  Poderíamos aplicar análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes;  Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira; 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 52
  • 53. Um banco de dados pode conter dados que não apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções).  Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado.  Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 53
  • 54. Exemplo:  Podemos detectar o uso fraudulento de cartões de crédito ao descobrir que certos clientes efetuaram compras de valor extremamente alto, fora de seu padrão habitual de gastos. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 54
  • 55. O que significa um padrão ser interessante ?  Fácil de ser entendido  Inesperado  Potencialmente util  Confirma uma hipotese feita pelo usuario  Tipos de medidas:  Objetivas : suporte, confiança  Subjetivas : esperadas, inesperadas 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 55
  • 56. Associação 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 56
  • 57. Métricas:  Significância em uma associação: ela pode existir mas ser muito rara em uma base de dados (ex. cerveja → fraldas). ▪ Suporte X → Y: numero de casos que contem X e Y dividido pelo número total de registros.  Confiança em uma associação: o antecedente pode ocorrer varias vezes na base de dados mas nem sempre com o mesmo consequente associado. ▪ Confiança X → Y: numero de registros que contem X e Y dividido pelo numero de registros que contem X. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 57
  • 58. Algoritmo Apriori 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 58
  • 59. Sequências 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 59
  • 60. Algoritmos AprioriALL  Algoritmo Apriori-Some  Algoritmo GSP  Algoritmo SPADE  Algoritmo PrefixSpan  Sequências com Restrições  Algoritmo SPIRIT 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 60
  • 61. Classificação 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 61
  • 62. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 62
  • 63. Métodos de classificação supervisionada:  Baseados em distancias e diferenças, usando protótipos ou  assinaturas: mínima distancia euclidiana e variantes.  Baseados em separabilidade (entropia): hiperparalelepípedo regular, arvores de decisão e variantes.  Baseados em particionamento: redes neurais (back- propagation),  SVM (support vector machines).  Baseados diretamente nos dados: vizinhos mais próximos e similares.  Existe superposição nesta taxonomia... 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 63
  • 64. Árvores de decisão: (ID3) - 1o Exemplo  Representações simples do conhecimento  Utilização de regras condicionais  A partir de um conjunto de valores decide SIM ou NÃO  Mais rápida e mais compreensível que redes neurais  Exemplo: Sair ou não de acordo com o tempo Tempo Predicado objetivo: Sair ou Não Sair Nublado Ensolarado Chuvoso Umidade Sair Muito vento Alta Normal Sim Não Ñ Sair Sair Ñ Sair Sair 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 64
  • 65. Árvores de decisão: (ID3) - 2o Exemplo Classificação de um indivíduo com risco de ter ou não crédito Renda > R$ 4.000,00 SIM NÃO Predicado objetivo: Crédito ou Não Dívida < 10% da renda ? Dívida = 0% SIM NÃO NÃO SIM Risco de ter crédito Risco de não ter crédito Risco de ter crédito Nesta árvore de decisões, regras são induzidas nos padrões dos dados e cria-se uma hierarquia de indicações “se-então”. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 65
  • 66. Redes Neurais: ▪ Para construir um modelo neural, nós primeiramente "adestramos" a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições. ▪ Problemas: ▪ Não retorna informação a priori ▪ Não pode ser treinada em uma grande base de dados ▪ Entrada não pode ser dados alfanuméricos (mapear para numérico) ▪ Nenhuma explanação dos dados é fornecida (caixa preta) 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 66
  • 67. Redes Neurais:  Exemplo prático: risco de câncer 09/11/2010 ©2010 Data mining - Clementine User Guide DW-UFBA | Mauricio Cesar Santos da Purificação | Grupo 67
  • 68. Redes Neurais: - 2o Exemplo Nível RENDA DÉBITO IDADE REG. DE de PAGAMENTO entrada Nível oculto Risco Risco de de ter não ter crédito crédito Nível de As redes neurais usam seus dados de entrada. saída Atribui pesos nas conecções entre os atributos (neurônios). E obtém um resultado (risco de ter ouda Purificação | Grupono nível de saída. 09/11/2010 ©2010 | Mauricio Cesar Santos não crédito) DW-UFBA 68
  • 69. Agrupamento (Clusterização) 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 69
  • 70. Algoritmos para criação de grupos de instâncias  Similares entre si,  Diferentes de instancias em outros grupos.  Não-supervisionado (?)  Também conhecidos como algoritmos de aprendizado auto organizado.  Diferença entre instancias e (protótipos de) grupos e dada por um valor: medidas de distancia ou similaridade/dissimilaridade. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 70
  • 71. Duas abordagens gerais:  Particionais: ▪ Criam grupos de forma iterativa. ▪ Reparticiona/reorganiza ate atingir um limiar (tempo, erro quadrático, etc). ▪ Ao terminar fornece pertinência final de instancias a grupos.  Hierárquicos: ▪ Bottom-up: cria pequenos grupos juntando as instancias, repetindo ate atingir um critério. ▪ Top-down: considera todas as instancias como pertencentes a um grande grupo, subdivide recursivamente este grupo.  Podem criar dendogramas: agrupamentos hierárquicos com números alternativos de grupos. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 71
  • 72. K-Médias (Particional)  Isodata  Lógica Nebulosa (Fuzzy Logic)  Fuzzy C-Médias  Self-Organizing Maps (SOMs)  Hierárquicos Aglomerativos  (BIRCH, CURE, CHAMELEON, ROCK...)  Hierárquicos Divisórios  (DIANA)  Baseados em Densidade  (DBSCAN,OPTICS, DENCLUE) 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 72
  • 73. Outliers 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 73
  • 74. Outras Técnicas 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 74
  • 75. Muitas outras técnicas podem ser usadas:  Pesquisa Operacional, Inteligência Artificial e outras.  Outros modelos de redes neurais, Rough Sets, Support Vector Machines, etc.  Técnicas de algoritmos genéticos, Particle Swarm Optimization, etc.  Técnicas baseadas em sistemas imunes artificiais, biologia/vida artificial, etc. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 75
  • 76. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 76
  • 77. Pode ser usada no inicio do processo de mineração...  Para ter uma ideia da distribuição dos dados ou de relações entre os dados para formulação de hipóteses;  Para selecionar atributos ou regiões de dados;  Para ter uma ideia de que tipos de algoritmos podem trazer resultados para estes dados;  Pode ser usada no final do processo de mineração...  Para ver as informações/regras/grupos/etc. obtidos: sumarização do conhecimento;  Para ver distribuições contextualizadas (isto e, com conhecimento adicional adquirido integrado);  Analise Explorativa/ Analise Confirmativa/Apresentação; 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 77
  • 78. Desafios:  Métodos e técnicas específicos.  Limitações de hardware (humano e maquina!)  Numero de dimensões (atributos) dos dados.  Numero de instancias para visualização.  “Empilhamento” e ordenação.  Vantagens:  Inerentemente exploratório.  Padrões detectados mesmo que não sejam explicáveis! 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 78
  • 79. Ideia básica: transformações e projeções usando arranjos em um numero menor de dimensões.  Scatterplot Matrices: K atributos em grade KxK.  Prosection Views: Scatterplot Matrices com mecanismos de seleção (drill-down).  Parallel Coordinates: muito bom para dados mistos, requer exploração e rearranjos.  Visualização com Mapas de Kohonen (SOMs). 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 79
  • 80. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 80
  • 81. Exemplo de R. Spence. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 81
  • 82. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 82
  • 83. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 83
  • 84. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 84
  • 85. Origem do vinho a partir de conteúdo físico-químico (13 atributos) http://archive.ics.uci.edu/ml/datasets/Wine (nomes de atributos originais) 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 85
  • 86. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 86
  • 87. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 87
  • 88. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 88
  • 89. Ideia básica: usamos duas dimensões para mostrar ícones que representam outras dimensões adicionais.  Interpretação deve ser feita com legendas!  Chernoff faces: atributos das faces (geometria, olhos, excentricidade, curvaturas, etc.) representam outras dimensões.  Stick figures: dimensões adicionais mapeadas para ângulos e comprimentos de segmentos de retas. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 89
  • 90. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 90
  • 91. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 91
  • 92. Uso de duas dimensões mais textura 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 92
  • 93. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 93
  • 94. Idéia básica: particionamento das dimensões em subdimensiones.  Dimensional Stacking: Particionamento de N dimensões em conjuntos de 2 dimensões.  Worlds-within-Worlds: Particionamento de N dimensões em conjuntos de 3 dimensões.  Treemap: Preenche área de visualização alternando eixos X e Y.  Cone Trees: Visualizacao interativa de dados hierárquicos.  InfoCube: Visualização hierárquica com 3D e transparência. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 94
  • 95. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 95
  • 96. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 96
  • 97. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 97
  • 98. 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 98