SlideShare una empresa de Scribd logo
1 de 52
Descargar para leer sin conexión
Classificadores

  Cleiane Gonçalves Oliveira
Mestrado em Ciência da Computação
 Universidade Federal de Uberlândia
Agenda
 A tarefa de classificação
 Um classificador lazy: KNN
 Um classificador eager: Redes bayesianas
 A ferramenta WEKA
A tarefa de Classificação
 Seguradora de automóveis

    Sexo         Idade      Acidente
     F             45         Não
     M             25         Sim
     F             18         Não
     F             32         Não
     M             37         Não
      M           18          Sim
A tarefa de Classificação
 Seguradora de automóveis

    Sexo         Idade      Acidente
     F             45         Não
     F             18         Não
     F             32         Não
     M             37         Não
     M             18         Sim
      M           25          Sim
Classificadores
 O que é um classificador?

    Classificação é uma técnica que
  consiste na aplicação de um conjunto
    de exemplos pré-classificados para
     desenvolver um modelo capaz de
    classificar uma população maior de
                  registros.
Etapas do Processo

 Amostras
 Classificadas                                 Banco de
                             REGRAS            Testes




             Classificador
                                  REGRAS CONFIÁVEIS
Etapas do Processo

 Amostras
 Classificadas
Amostras classificadas
 Nome     Idade     Renda       Profissão    Classe
 Daniel   ≤ 30       Média      Estudante     Sim

 João     31..50   Média-Alta   Professor     Sim

 Carlos   31..50   Média-Alta   Engenheiro    Sim

 Maria    31..50     Baixa      Vendedora     Não

 Paulo    ≤ 30       Baixa       Porteiro     Não

 Otavio   > 60     Média-Alta   Aposentado    Não
Etapas do Processo

 Amostras
 Classificadas
                             REGRAS




             Classificador
Regras
 Se
   idade = 41..50 e
   Renda = Media-Alta
então ClasseProdEletr = Sim.

 Se
   Renda = Baixa
então ClasseProdEletr = Nao.
Etapas do Processo

 Amostras
 Classificadas                        Banco de
                             REGRAS   Testes




             Classificador
Banco de testes
Nome            Idade           Renda            Profissão         Classe

 Pedro          41 .. 50       Média-Alta        Ecologista           Não
  José          41 .. 50       Média-Alta         Professor           Não
 Luiza          41 .. 50       Média-Alta     Assistente Social       Não
 Carla            ≤ 30           Baixa           Vendedora            Não
Wanda             ≤ 30           Baixa            Faxineira           Não
 Felipe          > 60          Média-Alta        Aposentado           Não

Se                                          Se
    idade = 41..50 e                            Renda = Baixa
    Renda = Media-Alta                      então ClasseProdEletr = Nao.
então ClasseProdEletr = Sim.

                                                 Acurácia: 50%
Etapas do Processo

 Amostras
 Classificadas                                 Banco de
                             REGRAS            Testes




             Classificador
                                  REGRAS CONFIÁVEIS
Classificadores

 Classificadores lazy
  Método kNN (k-nearest-neighbor)
  Case-Based Reasoning (CBR)
Classificadores

 Classificadores eager
  Arvores de Decisão
  Redes Neuronais
  Redes Bayseanas
  Máquinas de Suporte Vetorial
KNN
Método
         Dados: Banco de
          Dados de m tuplas
          classificadas
          (a1,...,an,C)
Método
         Uma tupla X = (x1,...,xn)
          não classificada


          Calcula-se a distância
          de X a cada uma das
           tuplas do banco de
                 dados.
Método
          Pega-se as k tuplas do
           banco de dados mais
              próximas de X.

            A classe de X é a
           classe que aparece
          com mais frequência
          entre as k tuplas mais
    K=3       próximas de X.
Diferentes valores de K




  K=1         K=2         K=3
Banco de Dados com tuplas
         classificadas
Qualidade de lenço de papel
     X1 =         X2 = força   Classificação
  durabilidade    (kg/metro
  (segundos)      quadrado)
       7              7           Ruim
       7              4           Ruim
       3              4           Bom
       1              4           Bom
Tupla não classificada
Qualidade de lenço de papel
     X1 =         X2 = força   Classificação
  durabilidade    (kg/metro
  (segundos)      quadrado)
       7              7           Ruim
       7              4           Ruim
       3              4           Bom
       1              4           Bom
       3              7            ?
Calcular a distância
 Distância Euclidiana
 Distância de Mahalanobis.
 Distância de Minkowsky.
 Hamming Distance.
Calcular a distância
 Distância Euclidiana
 As coordenadas das tuplas (px,py)
 As coordenadas da tupla a ser classificada
 (qx,qy)

                      n
     d ( p, q ) =    ∑( p − q )
                     i =1
                            i     i
                                      2
Calcular a distância
X1 X2 Cálculo             Resultado Classe   Ranking

7   7   (7-3)2 + (7-7)2      16      Ruim      3
7   4   (7-3)2 + (4-7)2      25      Ruim      4
3   4   (3-3)2 + (4-7)2       9      Bom       1
1   4   (1-3)2 + (4-7)2      13      Bom       2


        K=3                         BOM!!!
Questões diversas
 Como calcular a distância quando existem
 atributos cujos valores não são numéricos,
 por exemplo o atributo Cor ?
O que fazer quando a tupla a ser
classificada é incompleta, isto é, alguns
campos estão faltando ?
Como determinar o melhor valor de k?
Considerações
 Técnica simples e facilmente
 implementada
 Dispendiosa computacionalmente
 Necessidade de determinar o valor de K
 O tipo de cálculo de distância escolhido
 pode gerar melhores resultados.
Aplicações
 Reconhecimento de voz
 Classificação de animais
 Mapas, definição de fronteiras
 Classificação automática de textos e
 imagens
Redes Bayesianas
Rede Bayesiana
                       Valores de X = { 1, 3}
                       Valores de Y = {2,4}
   X       Y           Valores de Z = {5,6}

                     X=1     X=1       X=3      X=3
                     Y=2     Y=4       Y=2      Y=4
               Z=5    0.5      0.3        0.2   0.1
       Z       Z=6    0.5      0.7        0.8   0.9



                            P[Z |{X,Y}]
Como classificar usando uma Rede
Bayesiana de Crença
 Input:
   um banco de tuplas classificadas
   uma rede bayseana de crença
   Um atributo da rede selecionado como sendo
   o atributo classe
   Uma tupla X a ser classificada.

 Output: P[C1|X], P[C2|X], ..., P[Cn|X]
Exemplo   Histórico
          Familiar
                      Fumante




          Câncer      Efisema
          Pulmão




             Raio     Dispnéia
              X+
CPT(CP)

    Exemplo                                      HF= 1 HF= 1 HF= 0 HF= 0
                                                 F=1 F=0 F=1 F=0
                                       1         0.8         0.5   0.7     0.1
       HF               F
                                       0         0.2         0.5   0.3     0.9

                                       CPT(E)                      CPT(RX+)

       CP               E                      F=1 F= 0                  CP=1 CP=0
                                       1 0.03          0.2          1    0.9      0.02
                                       0 0.97          0.8          0    0.1      0.98


       RX+                                 CPT(D)
                        D
                                                  CP=1 CP=1 CP=0               CP=0
                                                  E=1  E=0  E=1                 E=0
HF =história familiar E = Efisema          1      0.99       0.3   0.2     0.01
F = fumante           D = Dispnéia
CP = câncer de pulmão RX+ = raio X +       0      0.01       0.7   0.8     0.99



             X = (HF=1, F=1, E = 0, RX+ = 1, D=0)
Cálculo das probabilidades
                 P[C|X]
    Teorema de Bayes
                 P[C|X] = P[X|C] * P[C]
                                 P[X]


P[x1|pais(x1)] * P[x2|pais(x2)] * ...* P[xn|pais(xn)]* P[Ci|pais(Ci)]
Cálculos                               HF    F




X = (HF=1, F=1, E = 0, RX+ = 1, D=0)   CP    E


P[X|CP=0] * P[CP=0] =
P[HF=1] *                              RX+   D
P[F=1] *
P[E=0 | F=1] *
P[RX=1 |CP=0]*
P[D=0 |CP=0, E=0] *
P[CP=0 | HF = 1, F=1).
CPT(CP)

    Exemplo                                      HF= 1 HF= 1 HF= 0 HF= 0
                                                 F=1 F=0 F=1 F=0
                                       1         0.8         0.5   0.7     0.1
       HF               F
                                       0         0.2         0.5   0.3     0.9

                                       CPT(E)                      CPT(RX+)

       CP               E                      F=1 F= 0                  CP=1 CP=0
                                       1 0.03          0.2          1    0.9      0.02
                                       0 0.97          0.8          0    0.1      0.98


       RX+                                 CPT(D)
                        D
                                                  CP=1 CP=1 CP=0               CP=0
                                                  E=1  E=0  E=1                 E=0
HF =história familiar E = Efisema          1      0.99       0.3   0.2     0.01
F = fumante           D = Dispnéia
CP = câncer de pulmão RX+ = raio X +       0      0.01       0.7   0.8     0.99



             X = (HF=1, F=1, E = 0, RX+ = 1, D=0)
Cálculos                               HF    F




X = (HF=1, F=1, E = 0, RX+ = 1, D=0)   CP    E


P[X|CP=0] * P[CP=0] =
1*                                     RX+   D

1*
0,97 *          = 0,00384
0,02 *
0,99 *
0,2
Cálculos                               HF    F




X = (HF=1, F=1, E = 0, RX+ = 1, D=0)   CP    E


P[X|CP=1] * P[CP=1] =
P[HF=1] *                              RX+   D
P[F=1] *
P[E=0 | F=1] *
P[RX=1 |CP=1]*
P[D=0 |CP=1, E=0] *
P[CP=1 | HF = 1, F=1).
CPT(CP)

    Exemplo                                      HF= 1 HF= 1 HF= 0 HF= 0
                                                 F=1 F=0 F=1 F=0
                                       1         0.8         0.5   0.7     0.1
       HF               F
                                       0         0.2         0.5   0.3     0.9

                                       CPT(E)                      CPT(RX+)

       CP               E                      F=1 F= 0                  CP=1 CP=0
                                       1 0.03          0.2          1    0.9      0.02
                                       0 0.97          0.8          0    0.1      0.98


       RX+                                 CPT(D)
                        D
                                                  CP=1 CP=1 CP=0               CP=0
                                                  E=1  E=0  E=1                 E=0
HF =história familiar E = Efisema          1      0.99       0.3   0.2     0.01
F = fumante           D = Dispnéia
CP = câncer de pulmão RX+ = raio X +       0      0.01       0.7   0.8     0.99



             X = (HF=1, F=1, E = 0, RX+ = 1, D=0)
Cálculos                               HF    F




X = (HF=1, F=1, E = 0, RX+ = 1, D=0)   CP    E


P[X|CP=1] * P[CP=1] =
1*                                     RX+   D

1*
0,97 *          = 0,48 > 0,00384
0,9 *
0,7 *                 X = CP = 1
0,8
Aplicações
 Diagnóstico médico
 Aprendizado de mapas
 Sistema de exploração e aquisição de
 conhecimento espacial
 Interpretação de linguagem
 Visão
Projetos
 ABS-Bayes: Sistema Especialista Probabilístico para
 Apoio ao Diagnóstico de Absenteísmo
 Agente Bayesiano de Apoio à Vigilância de Infecção
 Hospitalar - SAVIH
 Sistema especialista probabilístico para apoio ao
 diagnóstico de potencial econômico – SEPE
 Sistema de Avaliação da Evasão Escolar: E-Bayes
 Sistema Especialista de Apoio à Nutrição Enteral
 Pediátrica - SANEP
 Sistema de Avaliação do Crescimento Infantil - SACI
WEKA

Waikato Environment for
Knowledge Analysis
Arquivo .ARFF
@relation jogar_golfe
    @attribute ceu {sol, nublado, chuva}
    @attribute temperatura {alta,baixa,suave}
    @attribute umidade {alta, normal}
    @attribute vento {sim, nao}
    @attribute classe {sim, nao}

     @data
     sol,alta,alta,nao,nao
     sol,alta,alta,sim,nao
     nublado,alta,alta,nao,sim
     chuva,alta,alta,nao,sim
     chuva,baixa,normal,nao,sim
     chuva,baixa,normal,sim,nao
     nublado,baixa,normal,sim,sim
Interface
 Weka
 Carregando arquivos
 Classificadores
Executando um classificador Knn
  Algoritmo Ibk
  Correctly Classified Instances
  Matriz de discussão
Executando um classificador bayesiano
  Algoritmo BayesNet
  Correctly Classified Instances
  Matriz de discussão
  Gráfico da rede bayesiana
  Utilização de algoritmos de busca para a
  confecção da rede e CPT
Obrigada!

Más contenido relacionado

Destacado

Context senstitive ranking_seminario_final
Context senstitive ranking_seminario_finalContext senstitive ranking_seminario_final
Context senstitive ranking_seminario_finalCleiane Oliveira
 
Algebra boole
Algebra booleAlgebra boole
Algebra booleWILL75
 
Aula de matrizes
Aula de matrizesAula de matrizes
Aula de matrizesBrumado
 
Progressões
ProgressõesProgressões
Progressõesjonassp2
 
Inequações do 2°grau
Inequações do 2°grauInequações do 2°grau
Inequações do 2°grauLSKY
 
Lógica matemática cursão.PPT
Lógica matemática cursão.PPTLógica matemática cursão.PPT
Lógica matemática cursão.PPTJeferson S. J.
 
Determinantes sistemas lineares [modo de compatibilidade]
Determinantes sistemas lineares [modo de compatibilidade]Determinantes sistemas lineares [modo de compatibilidade]
Determinantes sistemas lineares [modo de compatibilidade]AUTONOMO
 
Função, equação e inequação logarítmica
Função, equação e inequação logarítmicaFunção, equação e inequação logarítmica
Função, equação e inequação logarítmicaDavisonsm
 
Matematica função.ppt [salvo automaticamente]
Matematica   função.ppt [salvo automaticamente]Matematica   função.ppt [salvo automaticamente]
Matematica função.ppt [salvo automaticamente]pso2510
 
www.AulasDeMatematicaApoio.com - Matemática - Função Afim
www.AulasDeMatematicaApoio.com  - Matemática - Função Afimwww.AulasDeMatematicaApoio.com  - Matemática - Função Afim
www.AulasDeMatematicaApoio.com - Matemática - Função AfimAulas De Matemática Apoio
 
Livro iniciação à lógica matemática - alencar edgar filho
Livro   iniciação à lógica matemática - alencar edgar filhoLivro   iniciação à lógica matemática - alencar edgar filho
Livro iniciação à lógica matemática - alencar edgar filhoRenan Muzi
 

Destacado (20)

Context senstitive ranking_seminario_final
Context senstitive ranking_seminario_finalContext senstitive ranking_seminario_final
Context senstitive ranking_seminario_final
 
Algebra boole
Algebra booleAlgebra boole
Algebra boole
 
Aula de matrizes
Aula de matrizesAula de matrizes
Aula de matrizes
 
Progressões
ProgressõesProgressões
Progressões
 
Inequações do 2°grau
Inequações do 2°grauInequações do 2°grau
Inequações do 2°grau
 
Aula 01
Aula 01Aula 01
Aula 01
 
Inequacoes1
Inequacoes1Inequacoes1
Inequacoes1
 
Aula 03
Aula 03Aula 03
Aula 03
 
Lógica matemática cursão.PPT
Lógica matemática cursão.PPTLógica matemática cursão.PPT
Lógica matemática cursão.PPT
 
Aula 05
Aula 05Aula 05
Aula 05
 
Matrizes
MatrizesMatrizes
Matrizes
 
Determinantes sistemas lineares [modo de compatibilidade]
Determinantes sistemas lineares [modo de compatibilidade]Determinantes sistemas lineares [modo de compatibilidade]
Determinantes sistemas lineares [modo de compatibilidade]
 
Inequações
InequaçõesInequações
Inequações
 
Inequações
InequaçõesInequações
Inequações
 
Probabilidade
ProbabilidadeProbabilidade
Probabilidade
 
Função, equação e inequação logarítmica
Função, equação e inequação logarítmicaFunção, equação e inequação logarítmica
Função, equação e inequação logarítmica
 
Matematica função.ppt [salvo automaticamente]
Matematica   função.ppt [salvo automaticamente]Matematica   função.ppt [salvo automaticamente]
Matematica função.ppt [salvo automaticamente]
 
Hidrostatica resumo
Hidrostatica   resumoHidrostatica   resumo
Hidrostatica resumo
 
www.AulasDeMatematicaApoio.com - Matemática - Função Afim
www.AulasDeMatematicaApoio.com  - Matemática - Função Afimwww.AulasDeMatematicaApoio.com  - Matemática - Função Afim
www.AulasDeMatematicaApoio.com - Matemática - Função Afim
 
Livro iniciação à lógica matemática - alencar edgar filho
Livro   iniciação à lógica matemática - alencar edgar filhoLivro   iniciação à lógica matemática - alencar edgar filho
Livro iniciação à lógica matemática - alencar edgar filho
 

Similar a Classificadores: lazy e eager

Resumo de Raciocínio Lógico para TCM-RJ 2016
Resumo de Raciocínio Lógico para TCM-RJ 2016Resumo de Raciocínio Lógico para TCM-RJ 2016
Resumo de Raciocínio Lógico para TCM-RJ 2016Estratégia Concursos
 
Gabriel estatistica - aula 2
Gabriel   estatistica - aula 2Gabriel   estatistica - aula 2
Gabriel estatistica - aula 2bioinformatica
 
Caderno - Estatítica Descritiva
Caderno - Estatítica DescritivaCaderno - Estatítica Descritiva
Caderno - Estatítica DescritivaCadernos PPT
 
Aleph - Sistema de Monitoramento Visual de Pessoas
Aleph - Sistema de Monitoramento Visual de PessoasAleph - Sistema de Monitoramento Visual de Pessoas
Aleph - Sistema de Monitoramento Visual de PessoasRafael Barbolo
 
Classificação e Ponderação
Classificação e PonderaçãoClassificação e Ponderação
Classificação e PonderaçãoAlexandre Duarte
 
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)Ben Hur Bahia do Nascimento
 
Classes de complexidades de problemas
Classes de complexidades de problemasClasses de complexidades de problemas
Classes de complexidades de problemasDavid Achahui Perez
 
Equações Algébricas e Transcendentes - Isolamento de Raízes - @professorenan
Equações Algébricas e Transcendentes - Isolamento de Raízes - @professorenanEquações Algébricas e Transcendentes - Isolamento de Raízes - @professorenan
Equações Algébricas e Transcendentes - Isolamento de Raízes - @professorenanRenan Gustavo
 
O algoritmo PageRank do Google
O algoritmo PageRank do GoogleO algoritmo PageRank do Google
O algoritmo PageRank do GoogleAlexandre Grossi
 

Similar a Classificadores: lazy e eager (14)

Resumo de Raciocínio Lógico para TCM-RJ 2016
Resumo de Raciocínio Lógico para TCM-RJ 2016Resumo de Raciocínio Lógico para TCM-RJ 2016
Resumo de Raciocínio Lógico para TCM-RJ 2016
 
Resumo Matemática 3º Ciclo
Resumo Matemática 3º CicloResumo Matemática 3º Ciclo
Resumo Matemática 3º Ciclo
 
Gabriel estatistica - aula 2
Gabriel   estatistica - aula 2Gabriel   estatistica - aula 2
Gabriel estatistica - aula 2
 
Caderno - Estatítica Descritiva
Caderno - Estatítica DescritivaCaderno - Estatítica Descritiva
Caderno - Estatítica Descritiva
 
Validacao cruzada
Validacao cruzadaValidacao cruzada
Validacao cruzada
 
Aleph - Sistema de Monitoramento Visual de Pessoas
Aleph - Sistema de Monitoramento Visual de PessoasAleph - Sistema de Monitoramento Visual de Pessoas
Aleph - Sistema de Monitoramento Visual de Pessoas
 
Estatística - Aula 2
Estatística - Aula 2Estatística - Aula 2
Estatística - Aula 2
 
Classificação e Ponderação
Classificação e PonderaçãoClassificação e Ponderação
Classificação e Ponderação
 
estatisticaaaaa.pptx
estatisticaaaaa.pptxestatisticaaaaa.pptx
estatisticaaaaa.pptx
 
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
Classificação: Dimensão VC e Máquinas de Vetores Suporte (SVMs)
 
Classes de complexidades de problemas
Classes de complexidades de problemasClasses de complexidades de problemas
Classes de complexidades de problemas
 
Equações Algébricas e Transcendentes - Isolamento de Raízes - @professorenan
Equações Algébricas e Transcendentes - Isolamento de Raízes - @professorenanEquações Algébricas e Transcendentes - Isolamento de Raízes - @professorenan
Equações Algébricas e Transcendentes - Isolamento de Raízes - @professorenan
 
Teste Friedman
Teste FriedmanTeste Friedman
Teste Friedman
 
O algoritmo PageRank do Google
O algoritmo PageRank do GoogleO algoritmo PageRank do Google
O algoritmo PageRank do Google
 

Classificadores: lazy e eager

  • 1. Classificadores Cleiane Gonçalves Oliveira Mestrado em Ciência da Computação Universidade Federal de Uberlândia
  • 2. Agenda A tarefa de classificação Um classificador lazy: KNN Um classificador eager: Redes bayesianas A ferramenta WEKA
  • 3. A tarefa de Classificação Seguradora de automóveis Sexo Idade Acidente F 45 Não M 25 Sim F 18 Não F 32 Não M 37 Não M 18 Sim
  • 4. A tarefa de Classificação Seguradora de automóveis Sexo Idade Acidente F 45 Não F 18 Não F 32 Não M 37 Não M 18 Sim M 25 Sim
  • 5. Classificadores O que é um classificador? Classificação é uma técnica que consiste na aplicação de um conjunto de exemplos pré-classificados para desenvolver um modelo capaz de classificar uma população maior de registros.
  • 6. Etapas do Processo Amostras Classificadas Banco de REGRAS Testes Classificador REGRAS CONFIÁVEIS
  • 7. Etapas do Processo Amostras Classificadas
  • 8. Amostras classificadas Nome Idade Renda Profissão Classe Daniel ≤ 30 Média Estudante Sim João 31..50 Média-Alta Professor Sim Carlos 31..50 Média-Alta Engenheiro Sim Maria 31..50 Baixa Vendedora Não Paulo ≤ 30 Baixa Porteiro Não Otavio > 60 Média-Alta Aposentado Não
  • 9. Etapas do Processo Amostras Classificadas REGRAS Classificador
  • 10. Regras Se idade = 41..50 e Renda = Media-Alta então ClasseProdEletr = Sim. Se Renda = Baixa então ClasseProdEletr = Nao.
  • 11. Etapas do Processo Amostras Classificadas Banco de REGRAS Testes Classificador
  • 12. Banco de testes Nome Idade Renda Profissão Classe Pedro 41 .. 50 Média-Alta Ecologista Não José 41 .. 50 Média-Alta Professor Não Luiza 41 .. 50 Média-Alta Assistente Social Não Carla ≤ 30 Baixa Vendedora Não Wanda ≤ 30 Baixa Faxineira Não Felipe > 60 Média-Alta Aposentado Não Se Se idade = 41..50 e Renda = Baixa Renda = Media-Alta então ClasseProdEletr = Nao. então ClasseProdEletr = Sim. Acurácia: 50%
  • 13. Etapas do Processo Amostras Classificadas Banco de REGRAS Testes Classificador REGRAS CONFIÁVEIS
  • 14. Classificadores Classificadores lazy Método kNN (k-nearest-neighbor) Case-Based Reasoning (CBR)
  • 15. Classificadores Classificadores eager Arvores de Decisão Redes Neuronais Redes Bayseanas Máquinas de Suporte Vetorial
  • 16. KNN
  • 17. Método Dados: Banco de Dados de m tuplas classificadas (a1,...,an,C)
  • 18. Método Uma tupla X = (x1,...,xn) não classificada Calcula-se a distância de X a cada uma das tuplas do banco de dados.
  • 19. Método Pega-se as k tuplas do banco de dados mais próximas de X. A classe de X é a classe que aparece com mais frequência entre as k tuplas mais K=3 próximas de X.
  • 20. Diferentes valores de K K=1 K=2 K=3
  • 21. Banco de Dados com tuplas classificadas Qualidade de lenço de papel X1 = X2 = força Classificação durabilidade (kg/metro (segundos) quadrado) 7 7 Ruim 7 4 Ruim 3 4 Bom 1 4 Bom
  • 22. Tupla não classificada Qualidade de lenço de papel X1 = X2 = força Classificação durabilidade (kg/metro (segundos) quadrado) 7 7 Ruim 7 4 Ruim 3 4 Bom 1 4 Bom 3 7 ?
  • 23. Calcular a distância Distância Euclidiana Distância de Mahalanobis. Distância de Minkowsky. Hamming Distance.
  • 24. Calcular a distância Distância Euclidiana As coordenadas das tuplas (px,py) As coordenadas da tupla a ser classificada (qx,qy) n d ( p, q ) = ∑( p − q ) i =1 i i 2
  • 25. Calcular a distância X1 X2 Cálculo Resultado Classe Ranking 7 7 (7-3)2 + (7-7)2 16 Ruim 3 7 4 (7-3)2 + (4-7)2 25 Ruim 4 3 4 (3-3)2 + (4-7)2 9 Bom 1 1 4 (1-3)2 + (4-7)2 13 Bom 2 K=3 BOM!!!
  • 26. Questões diversas Como calcular a distância quando existem atributos cujos valores não são numéricos, por exemplo o atributo Cor ? O que fazer quando a tupla a ser classificada é incompleta, isto é, alguns campos estão faltando ? Como determinar o melhor valor de k?
  • 27. Considerações Técnica simples e facilmente implementada Dispendiosa computacionalmente Necessidade de determinar o valor de K O tipo de cálculo de distância escolhido pode gerar melhores resultados.
  • 28. Aplicações Reconhecimento de voz Classificação de animais Mapas, definição de fronteiras Classificação automática de textos e imagens
  • 29.
  • 30.
  • 32. Rede Bayesiana Valores de X = { 1, 3} Valores de Y = {2,4} X Y Valores de Z = {5,6} X=1 X=1 X=3 X=3 Y=2 Y=4 Y=2 Y=4 Z=5 0.5 0.3 0.2 0.1 Z Z=6 0.5 0.7 0.8 0.9 P[Z |{X,Y}]
  • 33. Como classificar usando uma Rede Bayesiana de Crença Input: um banco de tuplas classificadas uma rede bayseana de crença Um atributo da rede selecionado como sendo o atributo classe Uma tupla X a ser classificada. Output: P[C1|X], P[C2|X], ..., P[Cn|X]
  • 34. Exemplo Histórico Familiar Fumante Câncer Efisema Pulmão Raio Dispnéia X+
  • 35. CPT(CP) Exemplo HF= 1 HF= 1 HF= 0 HF= 0 F=1 F=0 F=1 F=0 1 0.8 0.5 0.7 0.1 HF F 0 0.2 0.5 0.3 0.9 CPT(E) CPT(RX+) CP E F=1 F= 0 CP=1 CP=0 1 0.03 0.2 1 0.9 0.02 0 0.97 0.8 0 0.1 0.98 RX+ CPT(D) D CP=1 CP=1 CP=0 CP=0 E=1 E=0 E=1 E=0 HF =história familiar E = Efisema 1 0.99 0.3 0.2 0.01 F = fumante D = Dispnéia CP = câncer de pulmão RX+ = raio X + 0 0.01 0.7 0.8 0.99 X = (HF=1, F=1, E = 0, RX+ = 1, D=0)
  • 36. Cálculo das probabilidades P[C|X] Teorema de Bayes P[C|X] = P[X|C] * P[C] P[X] P[x1|pais(x1)] * P[x2|pais(x2)] * ...* P[xn|pais(xn)]* P[Ci|pais(Ci)]
  • 37. Cálculos HF F X = (HF=1, F=1, E = 0, RX+ = 1, D=0) CP E P[X|CP=0] * P[CP=0] = P[HF=1] * RX+ D P[F=1] * P[E=0 | F=1] * P[RX=1 |CP=0]* P[D=0 |CP=0, E=0] * P[CP=0 | HF = 1, F=1).
  • 38. CPT(CP) Exemplo HF= 1 HF= 1 HF= 0 HF= 0 F=1 F=0 F=1 F=0 1 0.8 0.5 0.7 0.1 HF F 0 0.2 0.5 0.3 0.9 CPT(E) CPT(RX+) CP E F=1 F= 0 CP=1 CP=0 1 0.03 0.2 1 0.9 0.02 0 0.97 0.8 0 0.1 0.98 RX+ CPT(D) D CP=1 CP=1 CP=0 CP=0 E=1 E=0 E=1 E=0 HF =história familiar E = Efisema 1 0.99 0.3 0.2 0.01 F = fumante D = Dispnéia CP = câncer de pulmão RX+ = raio X + 0 0.01 0.7 0.8 0.99 X = (HF=1, F=1, E = 0, RX+ = 1, D=0)
  • 39. Cálculos HF F X = (HF=1, F=1, E = 0, RX+ = 1, D=0) CP E P[X|CP=0] * P[CP=0] = 1* RX+ D 1* 0,97 * = 0,00384 0,02 * 0,99 * 0,2
  • 40. Cálculos HF F X = (HF=1, F=1, E = 0, RX+ = 1, D=0) CP E P[X|CP=1] * P[CP=1] = P[HF=1] * RX+ D P[F=1] * P[E=0 | F=1] * P[RX=1 |CP=1]* P[D=0 |CP=1, E=0] * P[CP=1 | HF = 1, F=1).
  • 41. CPT(CP) Exemplo HF= 1 HF= 1 HF= 0 HF= 0 F=1 F=0 F=1 F=0 1 0.8 0.5 0.7 0.1 HF F 0 0.2 0.5 0.3 0.9 CPT(E) CPT(RX+) CP E F=1 F= 0 CP=1 CP=0 1 0.03 0.2 1 0.9 0.02 0 0.97 0.8 0 0.1 0.98 RX+ CPT(D) D CP=1 CP=1 CP=0 CP=0 E=1 E=0 E=1 E=0 HF =história familiar E = Efisema 1 0.99 0.3 0.2 0.01 F = fumante D = Dispnéia CP = câncer de pulmão RX+ = raio X + 0 0.01 0.7 0.8 0.99 X = (HF=1, F=1, E = 0, RX+ = 1, D=0)
  • 42. Cálculos HF F X = (HF=1, F=1, E = 0, RX+ = 1, D=0) CP E P[X|CP=1] * P[CP=1] = 1* RX+ D 1* 0,97 * = 0,48 > 0,00384 0,9 * 0,7 * X = CP = 1 0,8
  • 43. Aplicações Diagnóstico médico Aprendizado de mapas Sistema de exploração e aquisição de conhecimento espacial Interpretação de linguagem Visão
  • 44.
  • 45.
  • 46. Projetos ABS-Bayes: Sistema Especialista Probabilístico para Apoio ao Diagnóstico de Absenteísmo Agente Bayesiano de Apoio à Vigilância de Infecção Hospitalar - SAVIH Sistema especialista probabilístico para apoio ao diagnóstico de potencial econômico – SEPE Sistema de Avaliação da Evasão Escolar: E-Bayes Sistema Especialista de Apoio à Nutrição Enteral Pediátrica - SANEP Sistema de Avaliação do Crescimento Infantil - SACI
  • 48. Arquivo .ARFF @relation jogar_golfe @attribute ceu {sol, nublado, chuva} @attribute temperatura {alta,baixa,suave} @attribute umidade {alta, normal} @attribute vento {sim, nao} @attribute classe {sim, nao} @data sol,alta,alta,nao,nao sol,alta,alta,sim,nao nublado,alta,alta,nao,sim chuva,alta,alta,nao,sim chuva,baixa,normal,nao,sim chuva,baixa,normal,sim,nao nublado,baixa,normal,sim,sim
  • 49. Interface Weka Carregando arquivos Classificadores
  • 50. Executando um classificador Knn Algoritmo Ibk Correctly Classified Instances Matriz de discussão
  • 51. Executando um classificador bayesiano Algoritmo BayesNet Correctly Classified Instances Matriz de discussão Gráfico da rede bayesiana Utilização de algoritmos de busca para a confecção da rede e CPT