1. Seleção de Features para Ranking
Cristiano Nascimento <crist@dcc.ufmg.br>
15 de dezembro de 2009
Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
2. Contexto
Ranking em máquinas de busca
Recuperar documentos relevantes para uma consulta
Colocar documentos relevantes no topo do ranking
Abordagens Clássicas utilizam poucas evidências para fazer
ranking
Tendência atual de pesquisa
Utilização de várias evidências
Aprendizagem de máquina
Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
3. Aprendizagem de Máquina para Ranking
Por quê?
Disponibilidade de várias evidências
Difícil construir funções manualmente ou por meios
determinísticos
Espaço de busca muito grande para métodos exaustivos
Exemplo:
conjunto de evidências (funções): f, g, h, l
operações: +,-,/,*
possíveis combinações: (f+g)*(h+l), (h*g*l)/f, ...
Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
4. O problema
Aprendizagem de Máquina:
utilização de um conjunto de treinamento
geração do conjunto de evidências para cada documento
Como reduzir o esforço e os custos computacionais?
Neste trabalho abordaremos a redução do número de features
utilizadas
As métricas utilizadas em classicação de texto também
podem ser aplicadas à tarefa de ranking?
É possível utilizar métricas que considerem informações do
problema de ranking?
Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
5. Base de Dados: LETOR 3.0
Benchmark para Learning to Rank:
Possuí diversas coleções (em Gov e OHSUMED)
Utilizada em diversos trabalhos
Resultados de baselines disponíveis na Web
Métricas de avaliação utilizadas amplamente
Disponível em:
http://research.microsoft.com/en-
us/um/beijing/projects/letor
Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
6. Algumas Features da LETOR 3.0
Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
7. Exemplo de entradas da LETOR 3.0
Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
8. Seleção de Features
Métricas utilizadas em classicação:
InfoGain
Chi-Square
Métricas de avaliação de ranking:
Mean Average Precision (MAP)
NDCG
Funcionamento:
Faça um ranking de acordo com o valor da métrica
Escolha as top-k features
Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
9. MAP x # de Features
Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
10. NDCG x # de Features
Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
11. Comentários e Conclusões
No presente trabalho:
Exploramos a seleção de features para ranking
Métricas de classicação = poucas evidências
Métrica baseada em NDCG obteve a melhor ecácia
É possível reduzir o esforço sem perder a qualidade
Trabalhos Futuros:
Implementar seleção aleatória de evidências
Utilizar outras técnicas de seleção de evidências
Utilizar outras bases de dados
Utilizar outros algoritmos de L2R
Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking