Seminaire Recherche UPPA 2016

Gilles Hubert
Maître de conférences – HDR
Université Paul Saba<er
IRIT/IRIS
Séminaire UPPA
25 avril 2016
Plan
1.  Ac<vités de recherche
2.  RI contextuelle
•  RI séman<que
•  Prise en compte de l’u<lisateur
•  RI géographique
•  Sugges<on contextuelle
•  …
3.  Explora<on de masses de données
•  Scientométrie
•  Sugges<on d’expert

Ac<vités de recherche G. Hubert
Théma<ques

22
Recherche d’informa<on (RI) et
Explora<on de masses de données
RI Contextuelle
Informa<on
Système
U<lisateur
Matériel
OLAP Scientométrie
Explora<on de
masses de données
Axe 1 Axe 2

3
Axe 1 : RI contextuelle
1.  Principes
2.  RI séman<que

3.  Prise en compte de l’u<lisateur
4.  RI géographique
5.  Sugges<on contextuelle
6.  RI ﬂux
G. Hubert

Recherche d’informa<on
Processus de RI en U
Requête
Représenta<on
requête
Représenta<on
document
Document
Document
Document
Appariement
Indexa<on Indexa<on
Liste de
documents
es<més
per<nents
4

Évalua<on en RI : exemple TREC
Text Retrieval Conference (TREC)
Organisé par le NIST (USA) depuis1992
Basé sur le paradigme de Cranfield pour l’évaluation de systèmes de RI
Un ensemble de documents (Collection)
Un ensemble de besoins d’information (Topics/Queries)
Un ensemble de jugements de pertinence (Qrels)
Différentes tâches « tracks »: AdHoc, Robust, Web…
Mesures d’évaluation
5
relevant, retrieved
(True positive)
irrelevant, retrieved
(False positive)
relevant, not retrieved
(False negative)
irrelevant, not retrieved
(True negative)
A
C
B
D
Document collection
System output:
retrieved documents
Information need:
relevant documents
precision =
A
A + B
recall =
A
A + C
AP (Average Precision),
MAP (Mean Average Precision),
P@5 (Precision at 5 retrieved documents)
…

TREC
Principes des campagnes
6
ire book
periment,
Jones of
]. Begin-
REtrieval
rec.nist.
a mod-
Cranfield
to the
on. The
l system
ed since
ommer-
ncluding
, feature
eveloped
al of a
its users
ange from answer finding to text categorization.
retrieval
algorithm 1
retrieval
algorithm 2
retrieval
algorithm k
ranked results
set 1
ranked results
set 2
ranked results
set k
document set
top X top X top X
human assessors
information
needs
(”topics”)
document
pools
TRECparticipants
...
...
relevance
judgments
evaluation
scores
ranked results
set
Processing in a typical
(Voorhees, 2007)

Recherche d’informa<on contextuelle
No<on de contexte en RI
Comment prendre en compte le contexte dans le processus de RI ?
Q1 : Retrouver des éléments correspondant au contexte
Q2 : Retrouver le contexte correspondant aux éléments
Informa<on
U<lisateurs
Matériel Ou<ls logiciels
7

RI Contextuelle
Prise en compte du contexte dans le cas Q1
Requête
Représenta<on
requête
Représenta<on
document
Document
Document
Document
Appariement
Indexa<on Indexa<on
Liste de documents
es<més per<nents
Liste de documents
es<més per<nents
Re-ordonancement
Contexte
8

9
1.  Principes
2.  RI séman<que

6.  RI ﬂux
7.  Nouveaux modèles de RI
G. Hubert

RI contextuelle G. Hubert
Théma<que : RI séman<que
Probléma<que
Insuffisances de l’approche « sacs de mots » en RI pour des domaines
spécifiques (ex. diagnostic automobile)
Ques<on = « Fumée noire au démarrage d’une voiture diesel »
Requête « sacs de mots » = {fumée, noire, démarrage, voiture, diesel}
Approche : Exploita<on des représenta<ons du domaine
Hiérarchies de concepts
Requête = {C53 (fumée noire), C85 (au démarrage), C41(voiture diesel)}
Ontologies de domaine
Requête = C41(voiture diesel) C53 (fumée noire) C85 (au démarrage)
Projets
Européens IRAIA, e-Stage, WS-Talk
ANR DynamO
10
aﬀecter survenir

Cadre : représenta<ons du domaine
Probléma<ques étudiées
Indexation, interrogation suivant des hiérarchies de concepts
Indexation, interrogation sémantique suivant des ontologies
Con<bu<ons
Hiérarchies de concepts
Modèle de RI pour l’indexa<on et la recherche d’informa<on par concepts
et texte libre
Ontologies
Modèle d’indexa<on séman<que dynamique et mesure de similarité
séman<que
1111
hiérarchies de concepts ontologies
C4: Social indicators in industry
C5: Productivity indices
C41: Number of employees C3C1 C2
C1
1
C1
2
RI séman<que G. Hubert

12
RI séman<que
Contribu<on : exploita<on des hiérarchies de concepts
Modèle de RI
Unité d’informa<on : UIi = (li,{(c1,w1), …, (cj,wj)})
Besoin d’informa<on : BIk = {(cm,wm), …, (cn,wn)}
Indexation suivant des hiérarchies de concepts
BI = termes décrivant le document, UI = termes décrivant le concept
Appariement
12
G. Hubert
…
The proportion of M&C employees
working in communication service
companies and in the retail trade
will increase slightly; the relative
number of employees involved in
the production of M&C technology
will remain virtually constant.
…..
C41: Number of employees
C42:Volume of work done
C51: Productivity by employee
ScoreIC(D64,C41) = 0,85
ScoreIC(D64,C51) = 0,20
D64
),(),(),(),( ikiUI
Cc
kBIik UIBIrecouvUIcimpBIcimpUIBIScore ⋅⎟
⎠
⎞
⎜
⎝
⎛
⋅= ∑∈
CN
CDN
i i
Ci
DiIC
cf
f
fCDScore
,
,
,),( ϕ⋅⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
⋅= ∑
D document
C concept
Dif , Fréquence du terme ti dans D
Cif , Fréquence du terme ti dans C
icf Nombre total de concepts contenant ti
CDN , Nombre de termes communs à D et C
CN Nombre de termes distincts dans C
ϕ Réel positif ≥ 1

13
Contribu<on : exploita<on des hiérarchies de concepts
Recherche combinant concepts et texte libre
13
…
The proportion of M&C employees
working in communication service
companies and in the retail trade
will increase slightly; the relative
number of employees involved in
the production of M&C technology
will remain virtually constant.
…..
C41: Number of employees
C42: Volume of work done
C51: Productivity by employee
« Analyses according to age »
…
This exploratory study focuses
on a sample of West Midlands-
based businesses that are
located within the area known as
the Central Technology Belt and
examines the effect
of the age and size of
businesses (measured in
number of employees) on their
managerial
capability.
…..
+
Combinaison de résultats
CombSUM (Fox et Shaw, 1994)
Document 11
Document 88
….
QC
QT
D64
D88
ScoreRC(QC,D64) = 0,55
ScoreRC(QC,D88) = 0,75
ScoreTL(QT,D88) = 0,65
ScoreTL(QT,D64) = 0,15

14
Contribu<on : exploita<on des ontologies
Modèle d’indexation sémantique dynamique
Mesure de similarité sémantique : ProxiGénéa
Similarité entre graphes d’annota<ons
Similarité entre concepts
14

15
1.  Principes
2.  RI séman<que

6.  RI ﬂux
G. Hubert

Théma<que : Prise en compte de l’u<lisateur
Probléma<que
Rela<ons entre éléments de contexte et système ?
Approche : Cadre d’évalua<on d’interfaces de res<tu<on
Probléma<que
Insuffisances de l’expression des besoins par mots-clés
Ques<on = « I’m looking for funding of research projects in the Digital
Library domain »
Requête « sacs de mots » = {research, project, funding, digital, library}
Approche 1 : Naviga<on
Approche 2 : Exploita<on des opérateurs de requêtes disponibles
dans les moteurs de recherche
Guillemets, opérateurs d’obliga<on (+), opérateurs de pondéra<on(^),
opérateurs booléens, opérateurs de proximité…
Requête = {project, +research, funding^4, "digital library"}
16

Probléma<que : rela<ons entre éléments de contexte et système ?
Contribu<on : évalua<on de l’adéqua<on d’interface de res<tu<on
(IRI) à un scénario de RI
Caractérisation des scénarios de RI
Triplet <U<lisateur, Système, Tâche>
Critères rela<fs à l’u<lisateur,
•  au système et à la tâche
Définition d’un cadre d’évaluation
Critères d’évalua<on
Jeux d’essai
Résultats d’évalua<on
Exploita<on des résultats
1717
VSE
Jeux
d’essai
Résultats
d’évaluation
Arbre de décisionArbre de décisionArbre de décision
Résultats
d’évaluation
VSE
Prise en compte de l’u<lisateur G. Hubert

18
Valida<on
Prototype de plateforme d’évaluation VSE
18

Probléma<que : Expression du besoin d’informa<on
Approche par naviga<on
Formulation de requête en navigant dans un graphe de termes
Graphe issus des requêtes précédemment soumises par les utilisateurs
1919

Approche : Exploita<on des opérateurs de requêtes disponibles
dans les moteurs de recherche
Question = « I’m looking for funding of research projects in the Digital
Library domain »
Requête « sacs de mots » = {research, project, funding, digital, library}
Guillemets, opérateurs d’obliga<on (+), opérateurs de pondéra<on(^),
opérateurs booléens, opérateurs de proximité…
Requête = {project, +research, funding^4, "digital library »}
Études opérateurs
U<lisa<on en baisse, caractéris<ques méconnus, pas
d’améliora<on observée
Ques<ons de recherche
L’u<lisa<on d’opérateurs dans les requêtes améliore-t-elle les
résultats ?
Quels gains possibles ?
Maîtrisables par les u<lisateurs ?

20

n  Effets des opérateurs sur l’efficacité (effec<veness)
21
Usage des opérateurs
¨  Eastman and Jansen (2003) : étude sur des requêtes avec
opérateurs
n  U<lisateurs réels : AOL, Google et MSN Search
n  Requêtes avec opérateurs : AND, OR, MUST APPEAR et PHRASE
M Pas d’améliora<on significa<ve P@10
M Étude sur 20% des requêtes (experts, besoins complexes)
¨  Qu’en est-il des 80% de requêtes restants ?!
n  U<lisateurs classiques
n  Requêtes classiques (sans opérateurs)
20%
80%

22
Méthodologie
Regular query V1: Query variant with operators
ü ü ü
ü ü
ü
ü
<
V3
V2
V4
VN . . .

23
Expérimenta<ons
n  Collec<ons de test standards
¨  TREC-7
¨  TREC-8
n  Operateurs
¨  Must appear (+)
¨  Term boos<ng (^N)
n  Généra<on de variantes
¨  Must appear ‘+’ only
¨  Boost ‘^’ only with weights ^10, ^20, ^30, ^40, and ^50
¨  Both ‘+’ and ‘^’
n  Moteur de recherche
¨  Terrier avec diﬀérents modèles : BM25, DFR_BM25, InL2, PL2, TF_IDF
Variant # Query variants generated with preOps and postOps
1 encryp<on equipment export
2 encryp<on +equipment +export
… … … …
124 encryp<on +equipment export^10
… … … …
338 encryp<on^30 equipment^40 export^50

24
Conclusions et Perspec<ves
n  Gains possibles avec les opérateurs
q  TREC-7 : +35,1%
q  TREC-8 : +24,3%
⇒ Les u<lisateurs devraient u<liser des opérateurs plus souvent
⇒ Reformula<on automa<que de requête ?

n  Q2 : Les u<lisateurs parviennent-ils à formuler des requêtes
avec opérateurs qui conduisent à un gain ?
n  Requêtes avec des dimensions spa<o-temporelles ?

25
1.  Principes
2.  RI séman<que


6.  RI ﬂux

G. Hubert

TREC Contextual Sugges<on Track 2012

26
Great summer !!!
Where to go around here
on this Sunday a•ernoon?

Trouver des éléments correspondant au contexte (Q1)
Éléments = Sugges<ons
Lieux à visiter (shops, restaurants, parks…) autour de l’utilisateur (5
heures en voiture max.)
Collec<on = Open Web (Websites)
Contexte =
Données spatiotemporelles
Préférences utilisateur
27
<context number=”1”>
<city>Portland</city>
<state>Oregon</state>
<lat>45.5</lat>
<long>-122.7</long>
<day>weekday</day>
<<me>evening</<me>
<season>fall</season>
</context>
<example number=”1”>
<<tle> Dogfish Head Alehouse </<tle>
<descrip<on>Cra• Brewed Ales and tasty wood
grilled food
</descrip<on>
<url>hƒp://www.dogfishalehouse.com/</url>
</example>
<example number=”2”>
<<tle>The Flaming Pit</<tle>
<descrip<on>
The Flaming Pit Restaurant and Piano Lounge,
home of Tyrone DeMonke.
</descrip<on>
<url>hƒp://www.flamingpitrestaurant.com/</url>
</example>
<profile number=”1”>
<example number=”1” ini<al=”1” final=”1”/>
<example number=”2” ini<al=”0” final=”-1”/>
</profile >

Deux sous-tâches
S1 : Suggestions correspondant aux données spatio-temporelles
Liste de sugges<ons pour chaque contexte
S2 : S1 + préférences utilisateur
Liste de sugges<ons pour chaque proﬁl (u<lisateur) et chaque contexte
Suggestion = Titre + Description + Url
2 “runs” maximum
Notre participation
Team : G. Cabanac & G. Hubert (IRIT – Univ. of Toulouse)
2 runs soumis pour la sous-tâche S2
<context2012 groupid=”waterloo” runid=”watcs12a”>
<sugges<on proﬁle=”1” context=”1” rank=”1”>
<<tle>Deschutes Brewery Portland Public House</<tle>
<descrip<on>
Deschutes Brewery’s dis<nct Northwest brew pub in Portland’s Pearl District has
become a convivial gathering spot of beer and food lovers since it’s 2008 opening.
</descrip<on>
<url>hƒp://www.deschutesbrewery.com</url>
</sugges<on>
etc.
</context2012>
28

TREC Contextual Sugges<on Track 2012: Notre approche
SRI contextuel 2012
Input data Internal process
External resource
Intermediate data
Database
Contexti
Place selec<on
Google Places
API
Place sets
Place
query
Contextual
list of
places
Place
descrip<on
enrichment
Contextual
list of
detailed
places
Bing Google
Useri
Context processing
Output data
Personaliza<on
Personalized
sugges<ons
Examples
Proﬁlei Preference
deﬁni<on
Posi<ve
preferencesi
Nega<ve
preferencesi
Preference processing
29

Données spa<o-temporelles
Préférences u<lisateur
Approche Gros grain : iritSplit3CPv1
Fusion des descrip<ons des exemples avec ini<al et final = 1 -> Pref+(P)
Fusion des descrip<ons des exemples avec ini<al and final = -1 -> Pref-(P)
score(P,r) = cosine(Pref+(P),R) − cosine(Pref−(P),R)
Approche Grain fin : iritSplit3CPv2
Exemple de descrip<on avec ini<al et final = 1 -> Pref+l(P)
Exemple de descrip<on avec ini<al et final = -1 -> Pref-m(P)
score(P, r) = max(cosine(Pref+l (P), r))− max(cosine(Pref−m(P), r))
30

TREC Contextual Sugges<on Track 2012: Résultats
Évalua<ons
Pour chaque profil et chaque contexte
Différentes dimensions : W (Website), G (Geographical), T (Temporal),
and D (Description), et combinaisons (WGT et GT)
Deux mesures : P@5 et MRR (Mean Reciprocal Rank)
31
iritSplit3CPv1
iritSplit3CPv2

P@5
32

MRR
33

34
Where to go around here?

Contexte =
Données spatiales seulement
Préférences utilisateur
{
"1": {
"lat": "40.71427", "city": "New York City", "state": "NY", "long": "-74.00597”
},
…
}
{
"1": {
"url": hƒp://www.freshrestaurants.ca,
"descrip<on": "Our vegan menu boasts an array of
exo<c starters, mul<-layered salads, ﬁlling wraps,
high protein burgers and our signature Fresh
bowls.”,
"<tle": "Fresh on Bloor”
},
“2": {
"url": hƒp://www.ﬂamingpitrestaurant.com/,
"descrip<on": "The Flaming Pit Restaurant and
Piano Lounge, home of Tyrone DeMonke.”,
"<tle": "The Flaming Pit”
},
…
}
{
"1": [
{"aƒrac<on_id": 1, "website": 1, "descrip<on": 0},
...
],
"2": [
{"aƒrac<on_id": 1, "website": 4, "descrip<on": 3},
…
],
”3": [
{"aƒrac<on_id": 1, "website": -1, "descrip<on": 2},
…
],
…
}
35

Deux sous-tâches
Open Web
Même ques<on: Suggérer des éléments correspondant au contexte (Q1)
Lieux à visiter (restaurants…) autour de l’u<lisateur (5 heures en voiture)
Collec<on = Open Web (Websites)
ClueWeb
ClueWeb12 (même ques<on que OpenWeb)
ClueWeb12 Contextual sugges<on subcollec<on
Ensembles de documents ClueWeb12 par contexte
Question: Personalisation par profil utilisateur
2 « runs » maximum
Notre par<cipa<on
Team: G. Cabanac, G. Hubert & K. Pinel-Sauvagnat (IRIT – Univ. of Toulouse)
C. Sallaberry (LIUPPA – Univ. of Pau)
D. Palacio (GeoComp – Univ. of Zurich)
1 « run » Open Web
1 « run » ClueWeb (Sous-collection Contextual suggestion)
36

SRI Contextuel 2013
Useri&
Personalized&
sugges0ons&
Preference&
processing&
Ranking&
Retrieval&
Place&
filtering&&&
descrip0on&
enrichment&
list&of&places&
1&
2&
3&
4&
Categories&
of&interesti&
Nega0ve&
preferencesi&
Posi0ve&
preferencesi&
Examples&
Profilei&
L,&T,&W&
T&
B&
Contexti&
Input&data& Output&data& Process&Intermediate&data&
Personalized&
sugges0ons&
Preference&
processing&
Useri&
Ranking&&&
refinement&
Context&
processing&
Place&filtering&&&
descrip0on&
enrichment&
Contextual&
list&of&places&
1&
2&
3&
4&
Contexti&
Categories&
of&interesti&
Nega0ve&
preferencesi&
Posi0ve&
preferencesi&
Examples&
Profilei&
Predefined&
categories&
L,&T,&W&
GP&
GN,&Y,&P,&GG,&B&
a)& b)&
W:&WordNet& GP:&Google&Places& Y:&Yahoo!&BOSS&Geo& B:&Bing&T:&Terrier& P:&PostGis&GN:&Geonames& GG:&Gisgraphy&L:&Lucene&
37Open Web ClueWeb

Exemple de sugges<on en 2012
Title: Oakley Pub and Grill
Descrip<on
Oakley Pub and Grill - Located in Oakley Square, Cincinna<, Ohio.
Local pub with pleasant atmoshpere and great food. Voted #1
Best Burger in Cincinna<. Outdoor ...
PUB and GRILL OAKLEYOAKLEY Oakley Pub and Grill ~ 3924
Isabella Avenue ~ Cincinna<, Ohio 45209 On Oakley Square ~
(513) 531-2500 www.oakleypub.com Used with permission…
URL: hƒp://oakleypubandgrill.com/
38

Exemple de sugges<on en 2013
Title: Cel<c Mist Pub
Descrip<on:
Place types: bar, establishment.
This place is about .3 Km West from here (2 min by car with no
traffic).
Address: 117 South 7th Street, Springfield.
There are 11 POIs around: 2 Hotels, 3 Libraries, 3 Parks, 1
PostOffice, 2 Religious.
Snippet: Located in Springfield, IL the Cel<c Mist is your home
away from home with over 16 imported beers on tap and a
friendly staff ready to serve you…
URL: hƒp://www.cel<cmistpub.com/
39

Résultats ﬁnals
Open Web
40
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score
UDInfoCS1 1 0.5094 1 (-) 2.4474 1 (-) 0.6320
UDInfoCS2 2 0.4969 2 (-) 2.4310 2 (-) 0.6300
simpleScore 3 0.4332 4 (Down 1) 1.8374 4 (Down 1) 0.5871
complexScore 4 0.4152 5 (Down 1) 1.8226 6 (Down 2) 0.5777
DuTH B 5 0.4090 3 (Up 2) 1.8508 3 (Up 2) 0.5955
1 6 0.3857 8 (Down 2) 1.5329 7 (Down 1) 0.5588
2 7 0.3731 7 (-) 1.5843 5 (Up 2) 0.5785
udel run D 8 0.3659 9 (Down 1) 1.5243 8 (-) 0.5544
isirun 9 0.3650 6 (Up 3) 1.6278 9 (-) 0.5165
udel run SD 10 0.3354 16 (Down 6) 1.2882 10 (-) 0.5061
york13cr2 11 0.3309 12 (Down 1) 1.3483 15 (Down 4) 0.4637
DuTH A 12 0.3283 14 (Down 2) 1.3109 12 (-) 0.4836
york13cr1 13 0.3274 15 (Down 2) 1.2970 14 (Down 1) 0.4743
UAmsTF30WU 14 0.3121 17 (Down 3) 1.1905 13 (Up 1) 0.4803
IRIT.OpenWeb 15 0.3112 10 (Up 5) 1.4638 11 (Up 4) 0.4915
CIRG IRDISCOA 16 0.3013 18 (Down 2) 1.1681 16 (-) 0.4567
CIRG IRDISCOB 17 0.2906 20 (Down 3) 1.1183 19 (Down 2) 0.4212
uncsils param 18 0.2780 13 (Up 5) 1.3115 18 (-) 0.4271
uogTrCFP 19 0.2753 11 (Up 8) 1.3568 17 (Up 2) 0.4327
ming 1 20 0.2601 22 (Down 2) 1.0495 22 (Down 2) 0.3816
uncsils base 21 0.2565 19 (Up 2) 1.1374 20 (Up 1) 0.4136
ming 2 22 0.2493 23 (Down 1) 0.9673 23 (Down 1) 0.3473
uogTrCFX 23 0.2332 21 (Up 2) 1.0894 21 (Up 2) 0.4022
run01 24 0.1650 24 (-) 0.7359 24 (-) 0.2994
baselineA 25 0.1372 25 (-) 0.5234 25 (-) 0.2316
csui02 26 0.0565 26 (-) 0.1785 26 (-) 0.1200
csui01 27 0.0565 27 (-) 0.1765 27 (-) 0.1016
Table 1: P@5, TBG, and MRR rankings for all open web runs.

Résultats ﬁnals
ClueWeb
41
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score
baselineB 1 0.1417 1 (-) 0.4797 1 (-) 0.2452
BOW V17 2 0.1022 3 (Down 1) 0.3389 3 (Down 1) 0.1877
BOW V18 3 0.1004 2 (Up 1) 0.3514 2 (Up 1) 0.1971
IRIT.ClueWeb 4 0.0798 4 (-) 0.3279 4 (-) 0.1346
RUN1 5 0.0628 5 (-) 0.2069 5 (-) 0.1265
RUN2 6 0.0565 6 (-) 0.2020 6 (-) 0.1223
IBCosTop1 7 0.0448 7 (-) 0.1029 7 (-) 0.0569
Table 2: P@5, TBG, and MRR rankings for all ClueWeb12 runs.

Analyse des résultats
Première édi<on (2012)
Tous les participants ont découvert les principes de la tâche
Pires évaluations : Descriptions des suggestions
Seconde édi<on (2013)
OpenWeb
Focalisée sur les descrip<ons des sugges<ons
Changements dans les jugements de per<nence
ClueWeb
Incompréhension des direc<ves ou pas assez de précisions
Travaux futurs
Travailler sur les limites des outils/services en ligne
Gérer des collections plus volumineuses : ClueWeb12 (870 millions de
pages, ~27TB)
42

43
1.  Principes
2.  RI séman<que

6.  RI ﬂux
G. Hubert

Théma<que : RI géographique
Problème
Limites de l’approche « sacs de mots » pour l’information géographique
Besoin= « Concert autour de Marseille au printemps 2012 »
Requête « sacs de mots » = {Concert, Marseille, printemps, 2012}
Approche
Prise en compte des 3 dimensions de l’information géographique :
thématique, spatiale, temporelle
Requête = « Concert autour de Marseille printemps 2012 »
Contribu<ons
Modèle de RI géographique
Cadres d’évaluations
SRIG
SREN
4444

45
SRI géographique
n  3 dimensions à traiter
¨  Théma<que, spa<al, temporel
n  1 index par dimension
¨  Théma<que sac de mots, racinisa<on, modèle vectoriel…
¨  Spa<al détec<on d’en<tés spa<ales, englobant/englobé…
¨  Temporel détec<on d’expressions temporelles…
n  État de l’art : Interroga<on par ﬁltrages successifs
¨  par exemple, priorité au théma<que puis ﬁltrage sur les autres dimensions

n  Probléma<que : performances des SRI géo. vs SRI théma<que ?
n  Hypothèse : SRI géographique meilleur que SRI théma<que
RI géographique G. Hubert

46
Évaluer un système de RI
n  Système = efficiency + effecCveness

n  Évalua<on de l’effecCveness
temps de calcul volume de stockage qualité
Liƒérature RI géo. Liƒérature RI thém.
thématique
Trec, Clef…
Bucher et al. (2005)
GeoClef
spatial
temporel
TempEval
Cadre
d’évalua<on
proposé

47
Cadre d’évalua<on pour les 3 dimensions
n  Extension du cadre TREC
¨  Collec<on de test
n  ≥ 25 Topics
n  Corpus
n  Qrels graduels
n  + Ressources géographiques
¨  À propos des Qrels…
n  per<nence(doc, topic) ∈ {0; 1; 2; 3; 4}
n  Principe : « plus il y a de dimensions sa<sfaites, mieux c’est »
¨  Mesure sur qrels graduels : Normalized Discounted Cumula<ve Gain
traitant des 3 dimensions
aucune dimension
3 dimensions
topic : « thermalisme à Gavarnie »
doc : thermalisme + Bob né à Gavarnie
3 dimensions + global
=
topic sa<sfait J

48
Étude de cas : la collec<on MIDR_2010
n  Obten<on des qrels : 12 volontaires (merci !)
31 topics
5645 documents
=
passages
Qrels
jugement de
per<nence
{0; 1; 2; 3; 4}
Carte pour
repérage

49
Étude de cas : le système PIV
n  Indexa<on : un index par dimension
¨  Théma<que = SRI Terrier Spa<al = carroyages Temporel = carroyages

n  Interroga<on
¨  Res<tu<on pour chaque index
¨  Combinaison des résultats avec CombMNZ [Fox & Shaw, 1993; Lee 1997]
CombMNZ

50
Analyse des données recueillies
n  Évalua<on d’un SRI
¨  ListeRésultats × Qrels NDCG(topic)

n  Résultat : SRI géographique est le plus performant

trec_eval
Hypothèse ü

51
Perspec<ves
n  Analyses plus ﬁnes par requête
n  Collec<ons en anglais
n  Généralisa<on à d’autres dimensions : conﬁance, fraîcheur…
n  Per<nence graduelle par dimension
n  Mesure de l’apport de chaque dimension

Théma<que : RI ﬂux
Problèmes
Identification de données « utiles/intéressantes » pour un utilisateur
Volume instantané de données
Obsolescence des données
Approche
Filtrage contextuel des tweets
Contribu<ons
Modèle de RI contextuelle pour les flux
Participation à TREC Microblog 2015
Projet FUI ACOVAS

5252

TREC Microblog 2015
Filtrage temps-réel
Supervision des flux des messages postés dans les réseaux sociaux
traitant un sujet par<culier
Synthèse du flux d’informa<on publiée dans les réseaux sociaux;
Obtenir une informa<on actualisée au fil de temps.

5353
RI flux G. Hubert

Approche
Filtrage temps-réel
Plusieurs niveaux de filtrage
Contenu textuel
Caractéristiques externes : hashtag, mention, image, url…
Acceptation par étape sur le contenu
Système de score par caractéristique ⇒ score global par Tweet
Acceptation finale par profil(s)
Contrainte
Exécution < 1 min
5454
RI ﬂux G. Hubert

Approche
Traitement du contenu textuel
Traitements classiques (Non-English, stopwords, casse, tokenisa<on,
racinisa<on)
2 étapes ~ 2 seuils (score de similarité) / déﬁnis par expérience :
Contenu // titre
Contenu // titre + description
Système de score
Caractéris<ques de contenu
Caractéris<ques d’en<tés
Caractéris<ques u<lisateur
Scores de caractéristiques
Seuils fixés par des expériences préalables
Score global de similarité par tweet
5555
RI ﬂux G. Hubert
Si ok
Si ok

56
●  Temps de réponse
○  < 9 secondes SGA
○  < 7 minutes SGB

●  Varia<on des seuils
●  Efficacité (effec<veness)

RI flux G. Hubert
Approche / Résultats

57
Scénario A Scénario B
…. ….
RI ﬂux G. Hubert
Résultats oﬃciels TREC Microblog 2015

58
Perspec<ves

n  Ajustement automa<que des seuils
n  Besoins d’informa<on complexes
n  Intégra<on autres dimensions contextuelles (spa<ale…)
n  Obsolescence des données
RI ﬂux G. Hubert

59
Axe 2 : Explora<on de masses de données
1.  Vue d’ensemble
2.  Sugges<on d’experts

Explora<on de masses de données G. Hubert
Probléma<ques
Limites OLAP
Comment comparer des données de niveaux de granularités diﬀérents ?
Limites des approches bibliométriques et scientométriques habituelles
en Sociologie des Sciences
Questions
Comment évoluent les collabora<ons des chercheurs au cours de leur
carrière ?
Quels experts pour renouveler un comité de programme ?
Approche
Extensions OLAP
Extraction d’informations bibliographiques (DBLP)
Analyse de réseaux de co-signature
Contr<bu<ons
Nouvel opérateur OLAP - Blend
Méthode d’analyse bibliométrique (Projet ANR RésoCit)
Modèle de suggestion d’experts 6060

61
Axe 2 : Explora<on de masses de données
1.  Vue d’ensemble
2.  Sugges<on d’experts

Modèle de sugges<on d’experts
Approche
Modélisation d’espace de recherche : graphe hétérogène
Trois types de nœuds

6262
Conférence donnée
Ar<cles
Experts

Quatre types de liens
Lien entre conférence
et un ar<cle publié
Lien de cita<on
Lien entre l’ar<cle et l’auteur
Lien entre conférence et
par<cipa<on à un CP
Sugges<on d’expert G. Hubert

Approche
Proximité entre conférence et expert-candidat basée sur tous les
chemins entre eux
Trois types de nœuds

6363
1. AE : Expert comme auteur
externe - 3 types de segment

2. AI : Expert comme auteur
interne - 2 types de segment

3. CP : Expert comme auteur
externe - 3 types de segment

Approche
Force des quatre types de lien
La force du lien de cita<on d’ar<cle dcitant cite dcité :
La force du lien entre conférence et son ar<cles d :
La force du lien entre l’ar<cle d et son auteur c :
La force du lien de par<cipa<on de l’expert c au comité de programme :

6464

Approche
Force des chemins : somme des forces normalisées des liens qui
constituent le chemin
Chemin auteur externe (AE)
Chemin auteur interne (AI)

Chemin membre CP (CP)
Force des chemins : somme des forces normalisées des liens qui
où 6565

66
Perspec<ves

n  Intégrer d’autres informa<ons
q  Affilia<ons, localisa<ons, co-signatures conférences extérieurs…
n  Temporalité des données
q  Périodes de validité des théma<ques, affilia<ons…
n  Sugges<on mul<-critère
q  Défini<on d’un comité répondant à un ensemble de critères
n  Évalua<on
q  Jugements de présidents de CP

Seminaire Recherche UPPA 2016

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Seminaire Recherche UPPA 2016

Similar a Seminaire Recherche UPPA 2016 (20)

Seminaire Recherche UPPA 2016