Seleção de Features para Ranking

Seleção de Features para Ranking
Cristiano Nascimento <crist@dcc.ufmg.br>

15 de dezembro de 2009

Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking

Contexto

Ranking em máquinas de busca
Recuperar documentos relevantes para uma consulta
Colocar documentos relevantes no topo do ranking
Abordagens Clássicas utilizam poucas evidências para fazer
ranking
Tendência atual de pesquisa
Utilização de várias evidências
Aprendizagem de máquina


Aprendizagem de Máquina para Ranking

Por quê?
Disponibilidade de várias evidências
Difícil construir funções manualmente ou por meios
determinísticos
Espaço de busca muito grande para métodos exaustivos
Exemplo:
conjunto de evidências (funções): f, g, h, l
operações: +,-,/,*
possíveis combinações: (f+g)*(h+l), (h*g*l)/f, ...


O problema

Aprendizagem de Máquina:
utilização de um conjunto de treinamento
geração do conjunto de evidências para cada documento
Como reduzir o esforço e os custos computacionais?
Neste trabalho abordaremos a redução do número de features
utilizadas
As métricas utilizadas em classicação de texto também
podem ser aplicadas à tarefa de ranking?
É possível utilizar métricas que considerem informações do
problema de ranking?

Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking

Base de Dados: LETOR 3.0

Benchmark para Learning to Rank:
Possuí diversas coleções (em Gov e OHSUMED)
Utilizada em diversos trabalhos
Resultados de baselines disponíveis na Web
Métricas de avaliação utilizadas amplamente
Disponível em:
http://research.microsoft.com/en-
us/um/beijing/projects/letor


Algumas Features da LETOR 3.0


Exemplo de entradas da LETOR 3.0


Seleção de Features

Métricas utilizadas em classicação:
InfoGain
Chi-Square
Métricas de avaliação de ranking:
Mean Average Precision (MAP)
NDCG
Funcionamento:
Faça um ranking de acordo com o valor da métrica
Escolha as top-k features


MAP x # de Features


NDCG x # de Features


Comentários e Conclusões

No presente trabalho:
Exploramos a seleção de features para ranking
Métricas de classicação = poucas evidências
Métrica baseada em NDCG obteve a melhor ecácia
É possível reduzir o esforço sem perder a qualidade
Trabalhos Futuros:
Implementar seleção aleatória de evidências
Utilizar outras técnicas de seleção de evidências
Utilizar outras bases de dados
Utilizar outros algoritmos de L2R


Obrigado! =)


Seleção de Features para Ranking

Recomendados

Recomendados

Más contenido relacionado

Similar a Seleção de Features para Ranking

Similar a Seleção de Features para Ranking (20)

Seleção de Features para Ranking