SlideShare una empresa de Scribd logo
1 de 12
Descargar para leer sin conexión
Seleção de Features para Ranking
           Cristiano Nascimento <crist@dcc.ufmg.br>


                           15 de dezembro de 2009




Cristiano Nascimento   <crist@dcc.ufmg.br>   Seleção de Features para Ranking
Contexto


      Ranking em máquinas de busca
             Recuperar documentos relevantes para uma consulta
             Colocar documentos relevantes no topo do ranking
      Abordagens Clássicas utilizam poucas evidências para fazer
      ranking
      Tendência atual de pesquisa
             Utilização de várias evidências
             Aprendizagem de máquina




      Cristiano Nascimento   <crist@dcc.ufmg.br>   Seleção de Features para Ranking
Aprendizagem de Máquina para Ranking

      Por quê?
             Disponibilidade de várias evidências
             Difícil construir funções manualmente ou por meios
             determinísticos
             Espaço de busca muito grande para métodos exaustivos
      Exemplo:
             conjunto de evidências (funções): f, g, h, l
             operações: +,-,/,*
             possíveis combinações: (f+g)*(h+l), (h*g*l)/f, ...




      Cristiano Nascimento   <crist@dcc.ufmg.br>   Seleção de Features para Ranking
O problema

  Aprendizagem de Máquina:
      utilização de um conjunto de treinamento
      geração do conjunto de evidências para cada documento
  Como reduzir o esforço e os custos computacionais?
      Neste trabalho abordaremos a redução do número de features
      utilizadas
             As métricas utilizadas em classicação de texto também
             podem ser aplicadas à tarefa de ranking?
             É possível utilizar métricas que considerem informações do
             problema de ranking?




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Base de Dados: LETOR 3.0


      Benchmark para Learning to Rank:
            Possuí diversas coleções (em Gov e OHSUMED)
            Utilizada em diversos trabalhos
            Resultados de baselines disponíveis na Web
            Métricas de avaliação utilizadas amplamente
      Disponível em:
            http://research.microsoft.com/en-
            us/um/beijing/projects/letor




     Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Algumas Features da LETOR 3.0




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Exemplo de entradas da LETOR 3.0




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Seleção de Features

       Métricas utilizadas em classicação:
             InfoGain
             Chi-Square
       Métricas de avaliação de ranking:
             Mean Average Precision (MAP)
             NDCG
       Funcionamento:
             Faça um ranking de acordo com o valor da métrica
             Escolha as top-k features




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
MAP x # de Features




     Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
NDCG x # de Features




     Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Comentários e Conclusões

   No presente trabalho:
       Exploramos a seleção de features para ranking
       Métricas de classicação = poucas evidências
       Métrica baseada em NDCG obteve a melhor ecácia
       É possível reduzir o esforço sem perder a qualidade
   Trabalhos Futuros:
       Implementar seleção aleatória de evidências
       Utilizar outras técnicas de seleção de evidências
       Utilizar outras bases de dados
       Utilizar outros algoritmos de L2R



       Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Obrigado! =)




Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking

Más contenido relacionado

Similar a Seleção de Features para Ranking

Benchmarking para sistemas de alto desempenho
Benchmarking para sistemas de alto desempenhoBenchmarking para sistemas de alto desempenho
Benchmarking para sistemas de alto desempenhoIntel Software Brasil
 
Cmg falando de testes de desempenho
Cmg falando de testes de desempenhoCmg falando de testes de desempenho
Cmg falando de testes de desempenhoEvandro Grezeli
 
Falando de Testes de Desempenho - por Evandro Grezeli
Falando de Testes de Desempenho - por Evandro GrezeliFalando de Testes de Desempenho - por Evandro Grezeli
Falando de Testes de Desempenho - por Evandro GrezeliJoao Galdino Mello de Souza
 
O que eu deveria saber antes de testar performance?
O que eu deveria saber antes de testar performance?O que eu deveria saber antes de testar performance?
O que eu deveria saber antes de testar performance?Ariane Izac
 
Case Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonCase Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonArthur Fortes
 
Entrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine LearningEntrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine LearningThoughtWorks Brasil
 
CI&T Tech Summit 2017 - Machine Learning para Sistemas de Recomendação
CI&T Tech Summit 2017 - Machine Learning para Sistemas de RecomendaçãoCI&T Tech Summit 2017 - Machine Learning para Sistemas de Recomendação
CI&T Tech Summit 2017 - Machine Learning para Sistemas de RecomendaçãoGabriel Moreira
 
Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura...
Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura...Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura...
Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura...Joao Galdino Mello de Souza
 
Strategies to Increase Customer Value in Agile Software Development - WBMA'18
Strategies to Increase Customer Value in Agile Software Development - WBMA'18 Strategies to Increase Customer Value in Agile Software Development - WBMA'18
Strategies to Increase Customer Value in Agile Software Development - WBMA'18 Fernando Sambinelli, MSc
 
Gestão de Projectos de SW OO Métricas Estimações e Planificações
Gestão de Projectos de SW OO Métricas Estimações e PlanificaçõesGestão de Projectos de SW OO Métricas Estimações e Planificações
Gestão de Projectos de SW OO Métricas Estimações e PlanificaçõesRogerio P C do Nascimento
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comFabrício Barth
 
Machine Learning e Artificial Intelligence para desenvolvedores .NET
Machine Learning e Artificial Intelligence para desenvolvedores .NETMachine Learning e Artificial Intelligence para desenvolvedores .NET
Machine Learning e Artificial Intelligence para desenvolvedores .NETRenato Haddad
 
Indicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paraleloIndicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paraleloRoberto de Pinho
 
Tecnicas de projeto design especificacao modelagem de casos de testes
Tecnicas de projeto design especificacao modelagem de casos de testesTecnicas de projeto design especificacao modelagem de casos de testes
Tecnicas de projeto design especificacao modelagem de casos de testesCristiano Caetano
 
Engenharia de Software: A ponte para um código sustentável
Engenharia de Software: A ponte para um código sustentávelEngenharia de Software: A ponte para um código sustentável
Engenharia de Software: A ponte para um código sustentávelFernando Pontes
 
Curso de Google anaytics Avancado
Curso de Google anaytics AvancadoCurso de Google anaytics Avancado
Curso de Google anaytics Avancadoaluni_ead
 
Business Analytics com Tableau Qmeeting 2018
Business Analytics com Tableau Qmeeting 2018Business Analytics com Tableau Qmeeting 2018
Business Analytics com Tableau Qmeeting 2018Roberto Oliveira
 

Similar a Seleção de Features para Ranking (20)

Benchmarking para sistemas de alto desempenho
Benchmarking para sistemas de alto desempenhoBenchmarking para sistemas de alto desempenho
Benchmarking para sistemas de alto desempenho
 
ILM com PostgreSQL
ILM com PostgreSQLILM com PostgreSQL
ILM com PostgreSQL
 
Cmg falando de testes de desempenho
Cmg falando de testes de desempenhoCmg falando de testes de desempenho
Cmg falando de testes de desempenho
 
Falando de Testes de Desempenho - por Evandro Grezeli
Falando de Testes de Desempenho - por Evandro GrezeliFalando de Testes de Desempenho - por Evandro Grezeli
Falando de Testes de Desempenho - por Evandro Grezeli
 
O que eu deveria saber antes de testar performance?
O que eu deveria saber antes de testar performance?O que eu deveria saber antes de testar performance?
O que eu deveria saber antes de testar performance?
 
Case Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em PythonCase Recommender: Fazendo recomendação em Python
Case Recommender: Fazendo recomendação em Python
 
Metodologias Ageis
Metodologias AgeisMetodologias Ageis
Metodologias Ageis
 
Entrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine LearningEntrega Contínua aplicada a Machine Learning
Entrega Contínua aplicada a Machine Learning
 
CI&T Tech Summit 2017 - Machine Learning para Sistemas de Recomendação
CI&T Tech Summit 2017 - Machine Learning para Sistemas de RecomendaçãoCI&T Tech Summit 2017 - Machine Learning para Sistemas de Recomendação
CI&T Tech Summit 2017 - Machine Learning para Sistemas de Recomendação
 
Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura...
Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura...Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura...
Análise da causa raiz de comportamento anômalo em ambientes de infraestrutura...
 
Strategies to Increase Customer Value in Agile Software Development - WBMA'18
Strategies to Increase Customer Value in Agile Software Development - WBMA'18 Strategies to Increase Customer Value in Agile Software Development - WBMA'18
Strategies to Increase Customer Value in Agile Software Development - WBMA'18
 
Gestão de Projectos de SW OO Métricas Estimações e Planificações
Gestão de Projectos de SW OO Métricas Estimações e PlanificaçõesGestão de Projectos de SW OO Métricas Estimações e Planificações
Gestão de Projectos de SW OO Métricas Estimações e Planificações
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
 
Machine Learning e Artificial Intelligence para desenvolvedores .NET
Machine Learning e Artificial Intelligence para desenvolvedores .NETMachine Learning e Artificial Intelligence para desenvolvedores .NET
Machine Learning e Artificial Intelligence para desenvolvedores .NET
 
Indicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paraleloIndicadores de políticas públicas e métricas de software: uma visão em paralelo
Indicadores de políticas públicas e métricas de software: uma visão em paralelo
 
Tecnicas de projeto design especificacao modelagem de casos de testes
Tecnicas de projeto design especificacao modelagem de casos de testesTecnicas de projeto design especificacao modelagem de casos de testes
Tecnicas de projeto design especificacao modelagem de casos de testes
 
Engenharia de Software: A ponte para um código sustentável
Engenharia de Software: A ponte para um código sustentávelEngenharia de Software: A ponte para um código sustentável
Engenharia de Software: A ponte para um código sustentável
 
Geek night-2015
Geek night-2015Geek night-2015
Geek night-2015
 
Curso de Google anaytics Avancado
Curso de Google anaytics AvancadoCurso de Google anaytics Avancado
Curso de Google anaytics Avancado
 
Business Analytics com Tableau Qmeeting 2018
Business Analytics com Tableau Qmeeting 2018Business Analytics com Tableau Qmeeting 2018
Business Analytics com Tableau Qmeeting 2018
 

Seleção de Features para Ranking

  • 1. Seleção de Features para Ranking Cristiano Nascimento <crist@dcc.ufmg.br> 15 de dezembro de 2009 Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 2. Contexto Ranking em máquinas de busca Recuperar documentos relevantes para uma consulta Colocar documentos relevantes no topo do ranking Abordagens Clássicas utilizam poucas evidências para fazer ranking Tendência atual de pesquisa Utilização de várias evidências Aprendizagem de máquina Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 3. Aprendizagem de Máquina para Ranking Por quê? Disponibilidade de várias evidências Difícil construir funções manualmente ou por meios determinísticos Espaço de busca muito grande para métodos exaustivos Exemplo: conjunto de evidências (funções): f, g, h, l operações: +,-,/,* possíveis combinações: (f+g)*(h+l), (h*g*l)/f, ... Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 4. O problema Aprendizagem de Máquina: utilização de um conjunto de treinamento geração do conjunto de evidências para cada documento Como reduzir o esforço e os custos computacionais? Neste trabalho abordaremos a redução do número de features utilizadas As métricas utilizadas em classicação de texto também podem ser aplicadas à tarefa de ranking? É possível utilizar métricas que considerem informações do problema de ranking? Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 5. Base de Dados: LETOR 3.0 Benchmark para Learning to Rank: Possuí diversas coleções (em Gov e OHSUMED) Utilizada em diversos trabalhos Resultados de baselines disponíveis na Web Métricas de avaliação utilizadas amplamente Disponível em: http://research.microsoft.com/en- us/um/beijing/projects/letor Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 6. Algumas Features da LETOR 3.0 Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 7. Exemplo de entradas da LETOR 3.0 Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 8. Seleção de Features Métricas utilizadas em classicação: InfoGain Chi-Square Métricas de avaliação de ranking: Mean Average Precision (MAP) NDCG Funcionamento: Faça um ranking de acordo com o valor da métrica Escolha as top-k features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 9. MAP x # de Features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 10. NDCG x # de Features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 11. Comentários e Conclusões No presente trabalho: Exploramos a seleção de features para ranking Métricas de classicação = poucas evidências Métrica baseada em NDCG obteve a melhor ecácia É possível reduzir o esforço sem perder a qualidade Trabalhos Futuros: Implementar seleção aleatória de evidências Utilizar outras técnicas de seleção de evidências Utilizar outras bases de dados Utilizar outros algoritmos de L2R Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 12. Obrigado! =) Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking