5. Évalua<on en RI : exemple TREC
Text Retrieval Conference (TREC)
Organisé par le NIST (USA) depuis1992
Basé sur le paradigme de Cranfield pour l’évaluation de systèmes de RI
Un ensemble de documents (Collection)
Un ensemble de besoins d’information (Topics/Queries)
Un ensemble de jugements de pertinence (Qrels)
Différentes tâches « tracks »: AdHoc, Robust, Web…
Mesures d’évaluation
5
relevant, retrieved
(True positive)
irrelevant, retrieved
(False positive)
relevant, not retrieved
(False negative)
irrelevant, not retrieved
(True negative)
A
C
B
D
Document collection
System output:
retrieved documents
Information need:
relevant documents
precision =
A
A + B
recall =
A
A + C
AP (Average Precision),
MAP (Mean Average Precision),
P@5 (Precision at 5 retrieved documents)
…
6. TREC
Principes des campagnes
6
ire book
periment,
Jones of
]. Begin-
REtrieval
rec.nist.
a mod-
Cranfield
to the
on. The
l system
ed since
ommer-
ncluding
, feature
eveloped
al of a
its users
ange from answer finding to text categorization.
retrieval
algorithm 1
retrieval
algorithm 2
retrieval
algorithm k
ranked results
set 1
ranked results
set 2
ranked results
set k
document set
top X top X top X
human assessors
information
needs
(”topics”)
document
pools
TRECparticipants
...
...
relevance
judgments
evaluation
scores
ranked results
set
Processing in a typical
(Voorhees, 2007)
9. 9
Axe 1 : RI contextuelle
1. Principes
2. RI séman<que
3. Prise en compte de l’u<lisateur
4. Sugges<on contextuelle
5. RI géographique
6. RI flux
7. Nouveaux modèles de RI
G. Hubert
10. RI contextuelle G. Hubert
Théma<que : RI séman<que
Probléma<que
Insuffisances de l’approche « sacs de mots » en RI pour des domaines
spécifiques (ex. diagnostic automobile)
Ques<on = « Fumée noire au démarrage d’une voiture diesel »
Requête « sacs de mots » = {fumée, noire, démarrage, voiture, diesel}
Approche : Exploita<on des représenta<ons du domaine
Hiérarchies de concepts
Requête = {C53 (fumée noire), C85 (au démarrage), C41(voiture diesel)}
Ontologies de domaine
Requête = C41(voiture diesel) C53 (fumée noire) C85 (au démarrage)
Projets
Européens IRAIA, e-Stage, WS-Talk
ANR DynamO
10
affecter survenir
11. Cadre : représenta<ons du domaine
Probléma<ques étudiées
Indexation, interrogation suivant des hiérarchies de concepts
Indexation, interrogation sémantique suivant des ontologies
Con<bu<ons
Hiérarchies de concepts
Modèle de RI pour l’indexa<on et la recherche d’informa<on par concepts
et texte libre
Ontologies
Modèle d’indexa<on séman<que dynamique et mesure de similarité
séman<que
1111
hiérarchies de concepts ontologies
C4: Social indicators in industry
C5: Productivity indices
C41: Number of employees C3C1 C2
C1
1
C1
2
RI séman<que G. Hubert
12. 12
RI séman<que
Contribu<on : exploita<on des hiérarchies de concepts
Modèle de RI
Unité d’informa<on : UIi = (li,{(c1,w1), …, (cj,wj)})
Besoin d’informa<on : BIk = {(cm,wm), …, (cn,wn)}
Indexation suivant des hiérarchies de concepts
BI = termes décrivant le document, UI = termes décrivant le concept
Appariement
12
G. Hubert
…
The proportion of M&C employees
working in communication service
companies and in the retail trade
will increase slightly; the relative
number of employees involved in
the production of M&C technology
will remain virtually constant.
…..
C4: Social indicators in industry
C5: Productivity indices
C41: Number of employees
C42:Volume of work done
C51: Productivity by employee
ScoreIC(D64,C41) = 0,85
ScoreIC(D64,C51) = 0,20
D64
),(),(),(),( ikiUI
Cc
kBIik UIBIrecouvUIcimpBIcimpUIBIScore ⋅⎟
⎠
⎞
⎜
⎝
⎛
⋅= ∑∈
CN
CDN
i i
Ci
DiIC
cf
f
fCDScore
,
,
,),( ϕ⋅⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
⋅= ∑
D document
C concept
Dif , Fréquence du terme ti dans D
Cif , Fréquence du terme ti dans C
icf Nombre total de concepts contenant ti
CDN , Nombre de termes communs à D et C
CN Nombre de termes distincts dans C
ϕ Réel positif ≥ 1
13. 13
Contribu<on : exploita<on des hiérarchies de concepts
Recherche combinant concepts et texte libre
13
…
The proportion of M&C employees
working in communication service
companies and in the retail trade
will increase slightly; the relative
number of employees involved in
the production of M&C technology
will remain virtually constant.
…..
C4: Social indicators in industry
C5: Productivity indices
C41: Number of employees
C42: Volume of work done
C51: Productivity by employee
« Analyses according to age »
…
This exploratory study focuses
on a sample of West Midlands-
based businesses that are
located within the area known as
the Central Technology Belt and
examines the effect
of the age and size of
businesses (measured in
number of employees) on their
managerial
capability.
…..
+
Combinaison de résultats
CombSUM (Fox et Shaw, 1994)
Document 11
Document 88
….
QC
QT
D64
D88
ScoreRC(QC,D64) = 0,55
ScoreRC(QC,D88) = 0,75
ScoreTL(QT,D88) = 0,65
ScoreTL(QT,D64) = 0,15
RI séman<que G. Hubert
20. Approche : Exploita<on des opérateurs de requêtes disponibles
dans les moteurs de recherche
Question = « I’m looking for funding of research projects in the Digital
Library domain »
Requête « sacs de mots » = {research, project, funding, digital, library}
Guillemets, opérateurs d’obliga<on (+), opérateurs de pondéra<on(^),
opérateurs booléens, opérateurs de proximité…
Requête = {project, +research, funding^4, "digital library »}
Études opérateurs
U<lisa<on en baisse, caractéris<ques méconnus, pas
d’améliora<on observée
Ques<ons de recherche
L’u<lisa<on d’opérateurs dans les requêtes améliore-t-elle les
résultats ?
Quels gains possibles ?
Maîtrisables par les u<lisateurs ?
20
Prise en compte de l’u<lisateur G. Hubert
23. 23
Expérimenta<ons
n Collec<ons de test standards
¨ TREC-7
¨ TREC-8
n Operateurs
¨ Must appear (+)
¨ Term boos<ng (^N)
n Généra<on de variantes
¨ Must appear ‘+’ only
¨ Boost ‘^’ only with weights ^10, ^20, ^30, ^40, and ^50
¨ Both ‘+’ and ‘^’
n Moteur de recherche
¨ Terrier avec différents modèles : BM25, DFR_BM25, InL2, PL2, TF_IDF
Variant # Query variants generated with preOps and postOps
1 encryp<on equipment export
2 encryp<on +equipment +export
… … … …
124 encryp<on +equipment export^10
… … … …
338 encryp<on^30 equipment^40 export^50
Prise en compte de l’u<lisateur G. Hubert
24. 24
Conclusions et Perspec<ves
n Gains possibles avec les opérateurs
q TREC-7 : +35,1%
q TREC-8 : +24,3%
⇒ Les u<lisateurs devraient u<liser des opérateurs plus souvent
⇒ Reformula<on automa<que de requête ?
n Q2 : Les u<lisateurs parviennent-ils à formuler des requêtes
avec opérateurs qui conduisent à un gain ?
n Requêtes avec des dimensions spa<o-temporelles ?
Prise en compte de l’u<lisateur G. Hubert
27. TREC Contextual Sugges<on Track 2012
Trouver des éléments correspondant au contexte (Q1)
Éléments = Sugges<ons
Lieux à visiter (shops, restaurants, parks…) autour de l’utilisateur (5
heures en voiture max.)
Collec<on = Open Web (Websites)
Contexte =
Données spatiotemporelles
Préférences utilisateur
27
<context number=”1”>
<city>Portland</city>
<state>Oregon</state>
<lat>45.5</lat>
<long>-122.7</long>
<day>weekday</day>
<<me>evening</<me>
<season>fall</season>
</context>
<example number=”1”>
<<tle> Dogfish Head Alehouse </<tle>
<descrip<on>Cra• Brewed Ales and tasty wood
grilled food
</descrip<on>
<url>hƒp://www.dogfishalehouse.com/</url>
</example>
<example number=”2”>
<<tle>The Flaming Pit</<tle>
<descrip<on>
The Flaming Pit Restaurant and Piano Lounge,
home of Tyrone DeMonke.
</descrip<on>
<url>hƒp://www.flamingpitrestaurant.com/</url>
</example>
<profile number=”1”>
<example number=”1” ini<al=”1” final=”1”/>
<example number=”2” ini<al=”0” final=”-1”/>
</profile >
28. TREC Contextual Sugges<on Track 2012
Deux sous-tâches
S1 : Suggestions correspondant aux données spatio-temporelles
Liste de sugges<ons pour chaque contexte
S2 : S1 + préférences utilisateur
Liste de sugges<ons pour chaque profil (u<lisateur) et chaque contexte
Suggestion = Titre + Description + Url
2 “runs” maximum
Notre participation
Team : G. Cabanac & G. Hubert (IRIT – Univ. of Toulouse)
2 runs soumis pour la sous-tâche S2
<context2012 groupid=”waterloo” runid=”watcs12a”>
<sugges<on profile=”1” context=”1” rank=”1”>
<<tle>Deschutes Brewery Portland Public House</<tle>
<descrip<on>
Deschutes Brewery’s dis<nct Northwest brew pub in Portland’s Pearl District has
become a convivial gathering spot of beer and food lovers since it’s 2008 opening.
</descrip<on>
<url>hƒp://www.deschutesbrewery.com</url>
</sugges<on>
etc.
</context2012>
28
30. TREC Contextual Sugges<on Track 2012: Notre approche
Données spa<o-temporelles
Préférences u<lisateur
Approche Gros grain : iritSplit3CPv1
Fusion des descrip<ons des exemples avec ini<al et final = 1 -> Pref+(P)
Fusion des descrip<ons des exemples avec ini<al and final = -1 -> Pref-(P)
score(P,r) = cosine(Pref+(P),R) − cosine(Pref−(P),R)
Approche Grain fin : iritSplit3CPv2
Exemple de descrip<on avec ini<al et final = 1 -> Pref+l(P)
Exemple de descrip<on avec ini<al et final = -1 -> Pref-m(P)
score(P, r) = max(cosine(Pref+l (P), r))− max(cosine(Pref−m(P), r))
30
42. Analyse des résultats
Première édi<on (2012)
Tous les participants ont découvert les principes de la tâche
Pires évaluations : Descriptions des suggestions
Seconde édi<on (2013)
OpenWeb
Focalisée sur les descrip<ons des sugges<ons
Changements dans les jugements de per<nence
ClueWeb
Incompréhension des direc<ves ou pas assez de précisions
Travaux futurs
Travailler sur les limites des outils/services en ligne
Gérer des collections plus volumineuses : ClueWeb12 (870 millions de
pages, ~27TB)
42
44. RI contextuelle G. Hubert
Théma<que : RI géographique
Problème
Limites de l’approche « sacs de mots » pour l’information géographique
Besoin= « Concert autour de Marseille au printemps 2012 »
Requête « sacs de mots » = {Concert, Marseille, printemps, 2012}
Approche
Prise en compte des 3 dimensions de l’information géographique :
thématique, spatiale, temporelle
Requête = « Concert autour de Marseille printemps 2012 »
Contribu<ons
Modèle de RI géographique
Cadres d’évaluations
SRIG
SREN
4444
45. 45
SRI géographique
n 3 dimensions à traiter
¨ Théma<que, spa<al, temporel
n 1 index par dimension
¨ Théma<que sac de mots, racinisa<on, modèle vectoriel…
¨ Spa<al détec<on d’en<tés spa<ales, englobant/englobé…
¨ Temporel détec<on d’expressions temporelles…
n État de l’art : Interroga<on par filtrages successifs
¨ par exemple, priorité au théma<que puis filtrage sur les autres dimensions
n Probléma<que : performances des SRI géo. vs SRI théma<que ?
n Hypothèse : SRI géographique meilleur que SRI théma<que
RI géographique G. Hubert
47. 47
Cadre d’évalua<on pour les 3 dimensions
n Extension du cadre TREC
¨ Collec<on de test
n ≥ 25 Topics
n Corpus
n Qrels graduels
n + Ressources géographiques
¨ À propos des Qrels…
n per<nence(doc, topic) ∈ {0; 1; 2; 3; 4}
n Principe : « plus il y a de dimensions sa<sfaites, mieux c’est »
¨ Mesure sur qrels graduels : Normalized Discounted Cumula<ve Gain
traitant des 3 dimensions
aucune dimension
3 dimensions
topic : « thermalisme à Gavarnie »
doc : thermalisme + Bob né à Gavarnie
3 dimensions + global
=
topic sa<sfait J
RI géographique G. Hubert
52. RI contextuelle G. Hubert
Théma<que : RI flux
Problèmes
Identification de données « utiles/intéressantes » pour un utilisateur
Volume instantané de données
Obsolescence des données
Approche
Filtrage contextuel des tweets
Contribu<ons
Modèle de RI contextuelle pour les flux
Participation à TREC Microblog 2015
Projet FUI ACOVAS
5252
54. Approche
Filtrage temps-réel
Plusieurs niveaux de filtrage
Contenu textuel
Caractéristiques externes : hashtag, mention, image, url…
Acceptation par étape sur le contenu
Système de score par caractéristique ⇒ score global par Tweet
Acceptation finale par profil(s)
Contrainte
Exécution < 1 min
5454
RI flux G. Hubert
55. Approche
Traitement du contenu textuel
Traitements classiques (Non-English, stopwords, casse, tokenisa<on,
racinisa<on)
2 étapes ~ 2 seuils (score de similarité) / définis par expérience :
Contenu // titre
Contenu // titre + description
Système de score
Caractéris<ques de contenu
Caractéris<ques d’en<tés
Caractéris<ques u<lisateur
Scores de caractéristiques
Seuils fixés par des expériences préalables
Score global de similarité par tweet
5555
RI flux G. Hubert
Si ok
Si ok
60. Explora<on de masses de données G. Hubert
Probléma<ques
Limites OLAP
Comment comparer des données de niveaux de granularités différents ?
Limites des approches bibliométriques et scientométriques habituelles
en Sociologie des Sciences
Questions
Comment évoluent les collabora<ons des chercheurs au cours de leur
carrière ?
Quels experts pour renouveler un comité de programme ?
Approche
Extensions OLAP
Extraction d’informations bibliographiques (DBLP)
Analyse de réseaux de co-signature
Contr<bu<ons
Nouvel opérateur OLAP - Blend
Méthode d’analyse bibliométrique (Projet ANR RésoCit)
Modèle de suggestion d’experts 6060
62. Modèle de sugges<on d’experts
Approche
Modélisation d’espace de recherche : graphe hétérogène
Trois types de nœuds
6262
Conférence donnée
Ar<cles
Experts
Quatre types de liens
Lien entre conférence
et un ar<cle publié
Lien de cita<on
Lien entre l’ar<cle et l’auteur
Lien entre conférence et
par<cipa<on à un CP
Sugges<on d’expert G. Hubert
63. Approche
Proximité entre conférence et expert-candidat basée sur tous les
chemins entre eux
Trois types de nœuds
6363
1. AE : Expert comme auteur
externe - 3 types de segment
2. AI : Expert comme auteur
interne - 2 types de segment
3. CP : Expert comme auteur
externe - 3 types de segment
Sugges<on d’expert G. Hubert
64. Approche
Force des quatre types de lien
La force du lien de cita<on d’ar<cle dcitant cite dcité :
La force du lien entre conférence et son ar<cles d :
La force du lien entre l’ar<cle d et son auteur c :
La force du lien de par<cipa<on de l’expert c au comité de programme :
6464
Sugges<on d’expert G. Hubert
65. Approche
Force des chemins : somme des forces normalisées des liens qui
constituent le chemin
Chemin auteur externe (AE)
Chemin auteur interne (AI)
Chemin membre CP (CP)
Force des chemins : somme des forces normalisées des liens qui
où 6565
Sugges<on d’expert G. Hubert