SlideShare una empresa de Scribd logo
1 de 66
Descargar para leer sin conexión
Gilles	Hubert	
Maître	de	conférences	–	HDR	
Université	Paul	Saba<er	
IRIT/IRIS	
Séminaire	UPPA	
25	avril	2016	
Plan
1.  Ac<vités	de	recherche 		
2.  RI	contextuelle	
•  RI	séman<que	
•  Prise	en	compte	de	l’u<lisateur	
•  RI	géographique	
•  Sugges<on	contextuelle	
•  …	
3.  Explora<on	de	masses	de	données	
•  Scientométrie	
•  Sugges<on	d’expert
Ac<vités	de	recherche 	G.	Hubert	
Théma<ques	
	
22
Recherche	d’informa<on	(RI)	et	
Explora<on	de	masses	de	données	
RI	Contextuelle	
Informa<on	
Système	
U<lisateur	
Matériel	
OLAP	 Scientométrie	
Explora<on	de	
masses	de	données	
Axe 1 Axe 2
3
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  RI	géographique 		
5.  Sugges<on	contextuelle	
6.  RI	flux	
	G.	Hubert
Recherche	d’informa<on	
Processus	de	RI	en	U	
Requête	
Représenta<on	
requête	
Représenta<on	
document	
Document	
Document	
Document	
Appariement	
Indexa<on	 Indexa<on	
Liste	de	
documents	
es<més	
per<nents	
4
Évalua<on	en	RI	:	exemple	TREC	
Text Retrieval Conference (TREC)
Organisé par le NIST (USA) depuis1992
Basé sur le paradigme de Cranfield pour l’évaluation de systèmes de RI
Un ensemble de documents (Collection)
Un ensemble de besoins d’information (Topics/Queries)
Un ensemble de jugements de pertinence (Qrels)
Différentes tâches « tracks »: AdHoc, Robust, Web…
Mesures d’évaluation
5
relevant, retrieved
(True positive)
irrelevant, retrieved
(False positive)
relevant, not retrieved
(False negative)
irrelevant, not retrieved
(True negative)
A
C
B
D
Document collection
System output:
retrieved documents
Information need:
relevant documents
precision =
A
A + B
recall =
A
A + C
AP (Average Precision),
MAP (Mean Average Precision),
P@5 (Precision at 5 retrieved documents)
…
TREC	
Principes des campagnes
6
ire book
periment,
Jones of
]. Begin-
REtrieval
rec.nist.
a mod-
Cranfield
to the
on. The
l system
ed since
ommer-
ncluding
, feature
eveloped
al of a
its users
ange from answer finding to text categorization.
retrieval
algorithm 1
retrieval
algorithm 2
retrieval
algorithm k
ranked results
set 1
ranked results
set 2
ranked results
set k
document set
top X top X top X
human assessors
information
needs
(”topics”)
document
pools
TRECparticipants
...
...
relevance
judgments
evaluation
scores
ranked results
set
Processing in a typical
(Voorhees,	2007)
Recherche	d’informa<on	contextuelle	
No<on	de	contexte	en	RI	
Comment	prendre	en	compte	le	contexte	dans	le	processus	de	RI	?	
Q1 : Retrouver des éléments correspondant au contexte
Q2 : Retrouver le contexte correspondant aux éléments
Informa<on	
U<lisateurs	
Matériel	Ou<ls	logiciels	
7
RI	Contextuelle	
Prise	en	compte	du	contexte	dans	le	cas	Q1	
Requête	
Représenta<on	
requête	
Représenta<on	
document	
Document	
Document	
Document	
Appariement	
Indexa<on	 Indexa<on	
Liste	de	documents	
es<més	per<nents	
Liste	de	documents	
es<més	per<nents	
Re-ordonancement	
Contexte	
8
9
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  Sugges<on	contextuelle 		
5.  RI	géographique	
6.  RI	flux	
7.  Nouveaux	modèles	de	RI	
	G.	Hubert
RI	contextuelle 	G.	Hubert	
Théma<que	:	RI	séman<que	
Probléma<que	
Insuffisances de l’approche « sacs de mots » en RI pour des domaines
spécifiques (ex. diagnostic automobile)
Ques<on	=	«	Fumée	noire	au	démarrage	d’une	voiture	diesel	»	
Requête	«	sacs	de	mots	»	=	{fumée,	noire,	démarrage,	voiture,	diesel}	
Approche	:	Exploita<on	des	représenta<ons	du	domaine	
Hiérarchies de concepts
Requête	=	{C53 (fumée noire), C85 (au démarrage), C41(voiture diesel)}
Ontologies de domaine
Requête	=	C41(voiture diesel) C53 (fumée noire) C85 (au démarrage)
Projets	
Européens IRAIA, e-Stage, WS-Talk
ANR DynamO
10
affecter	 survenir
Cadre	:	représenta<ons	du	domaine	
Probléma<ques	étudiées	
Indexation, interrogation suivant des hiérarchies de concepts
Indexation, interrogation sémantique suivant des ontologies
Con<bu<ons	
Hiérarchies de concepts
Modèle	de	RI	pour	l’indexa<on	et	la	recherche	d’informa<on	par	concepts	
et	texte	libre	
Ontologies
Modèle	d’indexa<on	séman<que	dynamique	et	mesure	de	similarité	
séman<que	
1111
hiérarchies	de	concepts	 ontologies	
C4: Social indicators in industry
C5: Productivity indices
C41: Number of employees C3C1 C2
C1
1
C1
2
RI	séman<que	 	G.	Hubert
12
RI	séman<que	
Contribu<on	:	exploita<on	des	hiérarchies	de	concepts	
Modèle de RI
Unité	d’informa<on	:	UIi	=	(li,{(c1,w1),	…,	(cj,wj)})		
Besoin	d’informa<on	:	BIk	=	{(cm,wm),	…,	(cn,wn)}
Indexation suivant des hiérarchies de concepts
BI	=	termes	décrivant	le	document,	UI	=	termes	décrivant	le	concept	
Appariement	
12
	G.	Hubert	
…
The proportion of M&C employees
working in communication service
companies and in the retail trade
will increase slightly; the relative
number of employees involved in
the production of M&C technology
will remain virtually constant.
…..
C4: Social indicators in industry
C5: Productivity indices
C41: Number of employees
C42:Volume of work done
C51: Productivity by employee
ScoreIC(D64,C41)	=	0,85	
ScoreIC(D64,C51)	=	0,20	
D64
),(),(),(),( ikiUI
Cc
kBIik UIBIrecouvUIcimpBIcimpUIBIScore ⋅⎟
⎠
⎞
⎜
⎝
⎛
⋅= ∑∈
CN
CDN
i i
Ci
DiIC
cf
f
fCDScore
,
,
,),( ϕ⋅⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
⋅= ∑
D document
C concept
Dif , Fréquence du terme ti dans D
Cif , Fréquence du terme ti dans C
icf Nombre total de concepts contenant ti
CDN , Nombre de termes communs à D et C
CN Nombre de termes distincts dans C
ϕ Réel positif ≥ 1
13
Contribu<on	:	exploita<on	des	hiérarchies	de	concepts	
Recherche combinant concepts et texte libre
13
…
The proportion of M&C employees
working in communication service
companies and in the retail trade
will increase slightly; the relative
number of employees involved in
the production of M&C technology
will remain virtually constant.
…..
C4: Social indicators in industry
C5: Productivity indices
C41: Number of employees
C42: Volume of work done
C51: Productivity by employee
«	Analyses according to age	»
…
This exploratory study focuses
on a sample of West Midlands-
based businesses that are
located within the area known as
the Central Technology Belt and
examines the effect
of the age and size of
businesses (measured in
number of employees) on their
managerial
capability.
…..
+	
Combinaison	de	résultats	
CombSUM	(Fox	et	Shaw,	1994)	
Document	11	
Document	88	
….	
QC
QT
D64
D88
ScoreRC(QC,D64)	=	0,55	
ScoreRC(QC,D88)	=	0,75	
ScoreTL(QT,D88)	=	0,65	
ScoreTL(QT,D64)	=	0,15	
RI	séman<que	 	G.	Hubert
14
Contribu<on	:	exploita<on	des	ontologies	
Modèle d’indexation sémantique dynamique
Mesure de similarité sémantique : ProxiGénéa
Similarité	entre	graphes	d’annota<ons		
Similarité	entre	concepts	
14
RI	séman<que	 	G.	Hubert
15
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  RI	géographique 		
5.  Sugges<on	contextuelle	
6.  RI	flux	
	G.	Hubert
RI	contextuelle 	G.	Hubert	
Théma<que	:	Prise	en	compte	de	l’u<lisateur	
Probléma<que	
Rela<ons	entre	éléments	de	contexte	et	système	?
Approche	:	Cadre	d’évalua<on	d’interfaces	de	res<tu<on	
Probléma<que	
Insuffisances de l’expression des besoins par mots-clés
Ques<on	=	«	I’m	looking	for	funding	of	research	projects	in	the	Digital	
Library	domain	»	
Requête	«	sacs	de	mots	»	=	{research,	project,	funding,	digital,	library}	
Approche	1	:	Naviga<on	
Approche	2	:	Exploita<on	des	opérateurs	de	requêtes	disponibles	
dans	les	moteurs	de	recherche	
Guillemets,	opérateurs	d’obliga<on	(+),	opérateurs	de	pondéra<on(^),	
opérateurs	booléens,	opérateurs	de	proximité…	
Requête	=	{project, +research, funding^4, "digital library"}
16
Probléma<que	:	rela<ons	entre	éléments	de	contexte	et	système	?	
Contribu<on	:	évalua<on	de	l’adéqua<on	d’interface	de	res<tu<on		
(IRI)	à	un	scénario	de	RI	
Caractérisation des scénarios de RI
Triplet	<U<lisateur,	Système,	Tâche>	
Critères	rela<fs	à	l’u<lisateur,		
•  au	système	et	à	la	tâche	
Définition d’un cadre d’évaluation
Critères	d’évalua<on	
Jeux	d’essai	
Résultats	d’évalua<on	
Exploita<on	des	résultats		
1717
VSE
Jeux	
d’essai
Résultats
d’évaluation
Arbre de décisionArbre de décisionArbre de décision
Résultats
d’évaluation
VSE
Prise	en	compte	de	l’u<lisateur	 	G.	Hubert
18
Valida<on	
Prototype de plateforme d’évaluation VSE
18
Prise	en	compte	de	l’u<lisateur	 	G.	Hubert
Probléma<que	:	Expression	du	besoin	d’informa<on	
Approche	par	naviga<on	
Formulation de requête en navigant dans un graphe de termes
Graphe issus des requêtes précédemment soumises par les utilisateurs
1919
Prise	en	compte	de	l’u<lisateur	 	G.	Hubert
Approche	:	Exploita<on	des	opérateurs	de	requêtes	disponibles	
dans	les	moteurs	de	recherche	
Question = « I’m looking for funding of research projects in the Digital
Library domain »
Requête « sacs de mots » = {research, project, funding, digital, library}
Guillemets,	opérateurs	d’obliga<on	(+),	opérateurs	de	pondéra<on(^),	
opérateurs	booléens,	opérateurs	de	proximité…	
Requête	=	{project, +research, funding^4, "digital library »}
Études	opérateurs	
U<lisa<on	en	baisse,	caractéris<ques	méconnus,	pas	
d’améliora<on	observée	
Ques<ons	de	recherche	
L’u<lisa<on	d’opérateurs	dans	les	requêtes	améliore-t-elle	les	
résultats	?	
Quels	gains	possibles	?	
Maîtrisables	par	les	u<lisateurs	?	
	
20
Prise	en	compte	de	l’u<lisateur	 	G.	Hubert
n  Effets	des	opérateurs	sur	l’efficacité	(effec<veness)	
21
Usage	des	opérateurs	
¨  Eastman	and	Jansen	(2003)	:	étude	sur	des	requêtes	avec	
opérateurs	
n  U<lisateurs	réels	:	AOL,	Google	et	MSN	Search	
n  Requêtes	avec	opérateurs	:	AND,	OR,	MUST	APPEAR	et	PHRASE	
M Pas	d’améliora<on	significa<ve	P@10	
M Étude	sur	20%	des	requêtes	(experts,	besoins	complexes)	
Prise	en	compte	de	l’u<lisateur	 	G.	Hubert	
¨  Qu’en	est-il	des	80%	de	requêtes	restants	?!	
n  U<lisateurs	classiques	
n  Requêtes	classiques	(sans	opérateurs)	
20%	
80%
22
Méthodologie	
Regular	query	 V1:	Query	variant	with	operators	
ü ü ü
ü ü
ü
ü
<	
V3	
V2	
V4	
VN	.	 .	 .	
Prise	en	compte	de	l’u<lisateur	 	G.	Hubert
23
Expérimenta<ons	
n  Collec<ons	de	test	standards		
¨  TREC-7	
¨  TREC-8	
n  Operateurs	
¨  Must	appear	(+)	
¨  Term	boos<ng	(^N)	
n  Généra<on	de	variantes	
¨  Must	appear		‘+’	only	
¨  Boost	‘^’	only	with	weights	^10,	^20,	^30,	^40,	and	^50	
¨  Both	‘+’		and		‘^’	
n  Moteur	de	recherche	
¨  Terrier	avec	différents	modèles	:	BM25,	DFR_BM25,	InL2,	PL2,	TF_IDF	
Variant	#	 Query	variants	generated	with	preOps	and	postOps	
1	 encryp<on	 equipment	 export	
2	 encryp<on	 +equipment	 +export	
…	 …	 …	 …	
124	 encryp<on	 +equipment	 export^10	
…	 …	 …	 …	
338	 encryp<on^30	 equipment^40	 export^50	
Prise	en	compte	de	l’u<lisateur	 	G.	Hubert
24
Conclusions	et	Perspec<ves	
n  Gains	possibles	avec	les	opérateurs	
q  TREC-7	:	+35,1%	
q  TREC-8	:	+24,3%	
⇒ Les	u<lisateurs	devraient	u<liser	des	opérateurs	plus	souvent	
⇒ Reformula<on	automa<que	de	requête	?	
	
n  Q2	:	Les	u<lisateurs	parviennent-ils	à	formuler	des	requêtes	
avec	opérateurs	qui	conduisent	à	un	gain	?	
n  Requêtes	avec	des	dimensions	spa<o-temporelles	?	
Prise	en	compte	de	l’u<lisateur	 	G.	Hubert
25
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  Sugges<on	contextuelle	
5.  RI	géographique 		
	
6.  RI	flux	
	
	G.	Hubert
TREC	Contextual	Sugges<on	Track	2012	
	
26
Great	summer	!!!	
Where	to	go	around	here	
on	this	Sunday	a•ernoon?
TREC	Contextual	Sugges<on	Track	2012	
Trouver	des	éléments	correspondant	au	contexte	(Q1)	
Éléments	=	Sugges<ons		
Lieux à visiter (shops, restaurants, parks…) autour de l’utilisateur (5
heures en voiture max.)
Collec<on	=	Open	Web	(Websites)	
Contexte	=	
Données spatiotemporelles
Préférences utilisateur
27
<context	number=”1”>	
				<city>Portland</city>	
				<state>Oregon</state>	
				<lat>45.5</lat>	
				<long>-122.7</long>	
				<day>weekday</day>	
				<<me>evening</<me>	
				<season>fall</season>	
</context>	
<example	number=”1”>	
				<<tle>	Dogfish	Head	Alehouse	</<tle>	
				<descrip<on>Cra•	Brewed	Ales	and	tasty	wood	
grilled	food	
				</descrip<on>	
				<url>hƒp://www.dogfishalehouse.com/</url>	
		</example>	
		<example	number=”2”>	
				<<tle>The	Flaming	Pit</<tle>	
				<descrip<on>	
						The	Flaming	Pit	Restaurant	and	Piano	Lounge,	
home	of	Tyrone	DeMonke.		
				</descrip<on>	
				<url>hƒp://www.flamingpitrestaurant.com/</url>	
		</example>	
<profile	number=”1”>	
				<example	number=”1”	ini<al=”1”	final=”1”/>	
				<example	number=”2”	ini<al=”0”	final=”-1”/>	
		</profile	>
TREC	Contextual	Sugges<on	Track	2012	
Deux	sous-tâches	
S1 : Suggestions correspondant aux données spatio-temporelles
Liste	de	sugges<ons	pour	chaque	contexte	
S2 : S1 + préférences utilisateur
Liste	de	sugges<ons	pour	chaque	profil	(u<lisateur)	et	chaque	contexte	
Suggestion = Titre + Description + Url
2 “runs” maximum
Notre participation
Team	:	G.	Cabanac	&	G.	Hubert	(IRIT	–	Univ.	of	Toulouse)	
2 runs soumis pour la sous-tâche S2
<context2012	groupid=”waterloo”	runid=”watcs12a”>	
		<sugges<on	profile=”1”	context=”1”	rank=”1”>	
				<<tle>Deschutes	Brewery	Portland	Public	House</<tle>	
				<descrip<on>	
						Deschutes	Brewery’s	dis<nct	Northwest	brew	pub	in	Portland’s	Pearl	District	has	
become	a	convivial	gathering	spot	of	beer	and	food	lovers	since	it’s	2008	opening.	
				</descrip<on>	
				<url>hƒp://www.deschutesbrewery.com</url>	
		</sugges<on>	
		etc.	
</context2012>	
28
TREC	Contextual	Sugges<on	Track	2012:	Notre	approche	
SRI	contextuel	2012	
Input	data	 Internal	process	
External	resource	
Intermediate	data	
Database	
Contexti	
Place	selec<on	
Google	Places	
API	
Place	sets	
Place	
query	
Contextual	
list	of	
places	
Place	
descrip<on	
enrichment	
Contextual	
list	of	
detailed	
places	
Bing	 Google	
Useri	
Context	processing	
Output	data	
Personaliza<on	
Personalized	
sugges<ons	
Examples	
Profilei	 Preference	
defini<on	
Posi<ve	
preferencesi	
Nega<ve	
preferencesi	
Preference	processing	
29
TREC	Contextual	Sugges<on	Track	2012:	Notre	approche	
Données	spa<o-temporelles	
Préférences	u<lisateur	
Approche Gros grain : iritSplit3CPv1
Fusion	des	descrip<ons	des	exemples	avec	ini<al	et	final	=	1	->	Pref+(P)	
Fusion	des	descrip<ons	des	exemples	avec	ini<al	and	final	=	-1	->	Pref-(P)	
score(P,r)	=	cosine(Pref+(P),R)	−	cosine(Pref−(P),R)	
Approche Grain fin : iritSplit3CPv2
Exemple	de	descrip<on	avec	ini<al	et	final	=	1	->	Pref+l(P)	
Exemple	de	descrip<on	avec	ini<al	et	final	=	-1	->	Pref-m(P)	
score(P,	r)	=	max(cosine(Pref+l	(P),	r))−	max(cosine(Pref−m(P),	r))	
30
TREC	Contextual	Sugges<on	Track	2012:	Résultats	
Évalua<ons	
Pour chaque profil et chaque contexte
Différentes dimensions : W (Website), G (Geographical), T (Temporal),
and D (Description), et combinaisons (WGT et GT)
Deux mesures : P@5 et MRR (Mean Reciprocal Rank)
31
iritSplit3CPv1	
iritSplit3CPv2
TREC	Contextual	Sugges<on	Track	2012:	Résultats	
P@5	
32
TREC	Contextual	Sugges<on	Track	2012:	Résultats	
MRR	
33
TREC	Contextual	Sugges<on	Track	2013	
34
Where	to	go	around	here?
TREC	Contextual	Sugges<on	Track	2013	
Contexte	=	
Données spatiales seulement
Préférences utilisateur
{	
				"1":	{	
														"lat":	"40.71427",	"city":	"New	York	City",	"state":	"NY",	"long":	"-74.00597”	
											},		
			…	
}	
{	
			"1":	{	
								"url":	hƒp://www.freshrestaurants.ca,	
							"descrip<on":	"Our	vegan	menu	boasts	an	array	of	
								exo<c	starters,	mul<-layered	salads,	filling	wraps,	
								high	protein	burgers	and	our	signature	Fresh	
								bowls.”,	
								"<tle":	"Fresh	on	Bloor”	
						},		
			“2":	{	
								"url":	hƒp://www.flamingpitrestaurant.com/,	
								"descrip<on":	"The	Flaming	Pit	Restaurant	and	
									Piano	Lounge,	home	of	Tyrone	DeMonke.”,	
								"<tle":	"The	Flaming	Pit”	
						},	
			…	
}	
{	
			"1":	[	
													{"aƒrac<on_id":	1,	"website":	1,	"descrip<on":	0},		
													...	
											],	
			"2":	[	
													{"aƒrac<on_id":	1,	"website":	4,	"descrip<on":	3},		
													…	
											],	
			”3":	[	
													{"aƒrac<on_id":	1,	"website":	-1,	"descrip<on":	2},		
													…	
												],	
		…	
}	
35
TREC	Contextual	Sugges<on	Track	2013	
Deux	sous-tâches	
Open Web
Même	ques<on:	Suggérer	des	éléments	correspondant	au	contexte	(Q1)	
Lieux	à	visiter	(restaurants…)	autour	de	l’u<lisateur	(5	heures	en	voiture)	
Collec<on	=	Open	Web	(Websites)	
ClueWeb
ClueWeb12	(même	ques<on	que	OpenWeb)	
ClueWeb12	Contextual	sugges<on	subcollec<on	
Ensembles de documents ClueWeb12 par contexte
Question: Personalisation par profil utilisateur
2	«	runs	»	maximum	
Notre	par<cipa<on	
Team: G. Cabanac, G. Hubert & K. Pinel-Sauvagnat (IRIT – Univ. of Toulouse)
C. Sallaberry (LIUPPA – Univ. of Pau)
D. Palacio (GeoComp – Univ. of Zurich)
1 « run » Open Web
1 « run » ClueWeb (Sous-collection Contextual suggestion)
36
TREC	Contextual	Sugges<on	Track	2013:	Notre	approche	
SRI	Contextuel	2013	
Useri&
Personalized&
sugges0ons&
Preference&
processing&
Ranking&
Retrieval&
Place&
filtering&&&
descrip0on&
enrichment&
list&of&places&
1&
2&
3&
4&
Categories&
of&interesti&
Nega0ve&
preferencesi&
Posi0ve&
preferencesi&
Examples&
Profilei&
L,&T,&W&
T&
B&
Contexti&
Input&data& Output&data& Process&Intermediate&data&
Personalized&
sugges0ons&
Preference&
processing&
Useri&
Ranking&&&
refinement&
Context&
processing&
Place&filtering&&&
descrip0on&
enrichment&
Contextual&
list&of&places&
1&
2&
3&
4&
Contexti&
Categories&
of&interesti&
Nega0ve&
preferencesi&
Posi0ve&
preferencesi&
Examples&
Profilei&
Predefined&
categories&
L,&T,&W&
GP&
GN,&Y,&P,&GG,&B&
a)& b)&
W:&WordNet& GP:&Google&Places& Y:&Yahoo!&BOSS&Geo& B:&Bing&T:&Terrier& P:&PostGis&GN:&Geonames& GG:&Gisgraphy&L:&Lucene&
37Open	Web	 ClueWeb
Exemple	de	sugges<on	en	2012	
Title:	Oakley	Pub	and	Grill	
Descrip<on	
Oakley	Pub	and	Grill	-	Located	in	Oakley	Square,	Cincinna<,	Ohio.	
Local	pub	with	pleasant	atmoshpere	and	great	food.	Voted	#1	
Best	Burger	in	Cincinna<.	Outdoor	...	
PUB	and	GRILL	OAKLEYOAKLEY	Oakley	Pub	and	Grill	~	3924	
Isabella	Avenue	~	Cincinna<,	Ohio	45209	On	Oakley	Square	~	
(513)	531-2500	www.oakleypub.com	Used	with	permission…	
URL:	hƒp://oakleypubandgrill.com/	
38
Exemple	de	sugges<on	en	2013	
Title:	Cel<c	Mist	Pub	
Descrip<on:	
Place	types:	bar,	establishment.			
This	place	is	about	.3	Km	West	from	here	(2	min	by	car	with	no	
traffic).		
Address:	117	South	7th	Street,	Springfield.	
There	are	11	POIs	around:	2	Hotels,	3	Libraries,	3	Parks,	1	
PostOffice,	2	Religious.	
Snippet:	Located	in	Springfield,	IL	the	Cel<c	Mist	is	your	home	
away	from	home	with	over	16	imported	beers	on	tap	and	a	
friendly	staff	ready	to	serve	you…	
URL:	hƒp://www.cel<cmistpub.com/	
39
Résultats	finals	
Open	Web	
40
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score
UDInfoCS1 1 0.5094 1 (-) 2.4474 1 (-) 0.6320
UDInfoCS2 2 0.4969 2 (-) 2.4310 2 (-) 0.6300
simpleScore 3 0.4332 4 (Down 1) 1.8374 4 (Down 1) 0.5871
complexScore 4 0.4152 5 (Down 1) 1.8226 6 (Down 2) 0.5777
DuTH B 5 0.4090 3 (Up 2) 1.8508 3 (Up 2) 0.5955
1 6 0.3857 8 (Down 2) 1.5329 7 (Down 1) 0.5588
2 7 0.3731 7 (-) 1.5843 5 (Up 2) 0.5785
udel run D 8 0.3659 9 (Down 1) 1.5243 8 (-) 0.5544
isirun 9 0.3650 6 (Up 3) 1.6278 9 (-) 0.5165
udel run SD 10 0.3354 16 (Down 6) 1.2882 10 (-) 0.5061
york13cr2 11 0.3309 12 (Down 1) 1.3483 15 (Down 4) 0.4637
DuTH A 12 0.3283 14 (Down 2) 1.3109 12 (-) 0.4836
york13cr1 13 0.3274 15 (Down 2) 1.2970 14 (Down 1) 0.4743
UAmsTF30WU 14 0.3121 17 (Down 3) 1.1905 13 (Up 1) 0.4803
IRIT.OpenWeb 15 0.3112 10 (Up 5) 1.4638 11 (Up 4) 0.4915
CIRG IRDISCOA 16 0.3013 18 (Down 2) 1.1681 16 (-) 0.4567
CIRG IRDISCOB 17 0.2906 20 (Down 3) 1.1183 19 (Down 2) 0.4212
uncsils param 18 0.2780 13 (Up 5) 1.3115 18 (-) 0.4271
uogTrCFP 19 0.2753 11 (Up 8) 1.3568 17 (Up 2) 0.4327
ming 1 20 0.2601 22 (Down 2) 1.0495 22 (Down 2) 0.3816
uncsils base 21 0.2565 19 (Up 2) 1.1374 20 (Up 1) 0.4136
ming 2 22 0.2493 23 (Down 1) 0.9673 23 (Down 1) 0.3473
uogTrCFX 23 0.2332 21 (Up 2) 1.0894 21 (Up 2) 0.4022
run01 24 0.1650 24 (-) 0.7359 24 (-) 0.2994
baselineA 25 0.1372 25 (-) 0.5234 25 (-) 0.2316
csui02 26 0.0565 26 (-) 0.1785 26 (-) 0.1200
csui01 27 0.0565 27 (-) 0.1765 27 (-) 0.1016
Table 1: P@5, TBG, and MRR rankings for all open web runs.
Résultats	finals	
ClueWeb	
41
Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR Score
baselineB 1 0.1417 1 (-) 0.4797 1 (-) 0.2452
BOW V17 2 0.1022 3 (Down 1) 0.3389 3 (Down 1) 0.1877
BOW V18 3 0.1004 2 (Up 1) 0.3514 2 (Up 1) 0.1971
IRIT.ClueWeb 4 0.0798 4 (-) 0.3279 4 (-) 0.1346
RUN1 5 0.0628 5 (-) 0.2069 5 (-) 0.1265
RUN2 6 0.0565 6 (-) 0.2020 6 (-) 0.1223
IBCosTop1 7 0.0448 7 (-) 0.1029 7 (-) 0.0569
Table 2: P@5, TBG, and MRR rankings for all ClueWeb12 runs.
Analyse	des	résultats	
Première	édi<on	(2012)	
Tous les participants ont découvert les principes de la tâche
Pires évaluations : Descriptions des suggestions
Seconde	édi<on	(2013)	
OpenWeb
Focalisée	sur	les	descrip<ons	des	sugges<ons	
Changements	dans	les	jugements	de	per<nence	
ClueWeb
Incompréhension	des	direc<ves	ou	pas	assez	de	précisions	
Travaux	futurs	
Travailler sur les limites des outils/services en ligne
Gérer des collections plus volumineuses : ClueWeb12 (870 millions de
pages, ~27TB)
42
43
Axe	1	:	RI	contextuelle	
1.  Principes 		
2.  RI	séman<que 		
	
3.  Prise	en	compte	de	l’u<lisateur	
4.  Sugges<on	contextuelle	
5.  RI	géographique	
6.  RI	flux	
	G.	Hubert
RI	contextuelle 	G.	Hubert	
Théma<que	:	RI	géographique	
Problème	
Limites de l’approche « sacs de mots » pour l’information géographique
Besoin=	«	Concert	autour	de	Marseille	au	printemps	2012	»	
Requête	«	sacs	de	mots	»	=	{Concert,	Marseille,	printemps,	2012}	
Approche	
Prise en compte des 3 dimensions de l’information géographique :
thématique, spatiale, temporelle
Requête	=	«	Concert	autour	de	Marseille	printemps	2012	»	
Contribu<ons	
Modèle de RI géographique
Cadres d’évaluations
SRIG
SREN
4444
45
SRI	géographique	
n  3	dimensions	à	traiter	
¨  Théma<que,	spa<al,	temporel	
n  1	index	par	dimension	
¨  Théma<que 	sac	de	mots,	racinisa<on,	modèle	vectoriel…	
¨  Spa<al	 	détec<on	d’en<tés	spa<ales,	englobant/englobé…	
¨  Temporel 	détec<on	d’expressions	temporelles…	
n  État	de	l’art	:	Interroga<on	par	filtrages	successifs	
¨  par	exemple,	priorité	au	théma<que	puis	filtrage	sur	les	autres	dimensions		
	
n  Probléma<que	:	performances	des	SRI	géo.	vs	SRI	théma<que	?	
n  Hypothèse	:	SRI	géographique	meilleur	que	SRI	théma<que	
RI	géographique	 	G.	Hubert
46
Évaluer	un	système	de	RI	
n  Système				=																									efficiency																		+					effecCveness	
	
	
	
n  Évalua<on	de	l’effecCveness	
temps	de	calcul	 volume	de	stockage	 qualité	
Liƒérature	RI	géo.	 Liƒérature	RI	thém.	
thématique
Trec,	Clef…	
Bucher	et	al.	(2005)	
GeoClef	
spatial
temporel
TempEval	
Cadre	
d’évalua<on	
proposé	
RI	géographique	 	G.	Hubert
47
Cadre	d’évalua<on	pour	les	3	dimensions	
n  Extension	du	cadre	TREC	
¨  Collec<on	de	test		
n  ≥	25	Topics	
n  Corpus	
n  Qrels	graduels	
n  +	Ressources	géographiques	
¨  À	propos	des	Qrels…	
n  per<nence(doc,	topic)	∈	{0;	1;	2;	3;	4}	
n  Principe	:	«	plus	il	y	a	de	dimensions	sa<sfaites,	mieux	c’est	»	
¨  Mesure	sur	qrels	graduels	:	Normalized	Discounted	Cumula<ve	Gain	
traitant	des	3	dimensions	
aucune	dimension	
3	dimensions	
			topic	:	«	thermalisme	à	Gavarnie	»	
			doc	:	thermalisme	+	Bob	né	à	Gavarnie	
3	dimensions	+	global	
=	
topic	sa<sfait	J	
RI	géographique	 	G.	Hubert
48
Étude	de	cas	:	la	collec<on	MIDR_2010	
n  Obten<on	des	qrels	:	12	volontaires	(merci	!)	
31	topics	
5645	documents	
=	
passages	
Qrels	
jugement	de	
per<nence	
{0;	1;	2;	3;	4}	
Carte	pour	
repérage	
RI	géographique	 	G.	Hubert
49
Étude	de	cas	:	le	système	PIV	
n  Indexa<on	:	un	index	par	dimension	
¨  Théma<que	=	SRI	Terrier										Spa<al	=	carroyages												Temporel	=	carroyages	
	
	
n  Interroga<on		
¨  Res<tu<on	pour	chaque	index	
¨  Combinaison	des	résultats	avec	CombMNZ		[Fox	&	Shaw,	1993;	Lee	1997]	
CombMNZ	
RI	géographique	 	G.	Hubert
50
Analyse	des	données	recueillies	
n  Évalua<on	d’un	SRI		
¨  ListeRésultats		×		Qrels																																										NDCG(topic)	
	
n  Résultat	:	SRI	géographique	est	le	plus	performant	
	
	
	
trec_eval	
Hypothèse		ü	
RI	géographique	 	G.	Hubert
51
Perspec<ves	
n  Analyses	plus	fines	par	requête	
n  Collec<ons	en	anglais	
n  Généralisa<on	à	d’autres	dimensions	:	confiance,	fraîcheur…	
n  Per<nence	graduelle	par	dimension	
n  Mesure	de	l’apport	de	chaque	dimension	
RI	géographique	 	G.	Hubert
RI	contextuelle 	G.	Hubert	
Théma<que	:	RI	flux	
Problèmes	
Identification de données « utiles/intéressantes » pour un utilisateur
Volume instantané de données
Obsolescence des données
Approche	
Filtrage contextuel des tweets
Contribu<ons	
Modèle de RI contextuelle pour les flux
Participation à TREC Microblog 2015
Projet FUI ACOVAS
	
	
5252
TREC	Microblog	2015	
Filtrage temps-réel
Supervision	des	flux	des	messages	postés	dans	les	réseaux	sociaux		
traitant	un	sujet	par<culier	
Synthèse	du	flux	d’informa<on	publiée	dans	les	réseaux	sociaux;	
Obtenir	une	informa<on	actualisée	au	fil	de	temps.	
	
5353
RI	flux	 	G.	Hubert
Approche	
Filtrage temps-réel
Plusieurs niveaux de filtrage
Contenu textuel
Caractéristiques externes : hashtag, mention, image, url…
Acceptation par étape sur le contenu
Système de score par caractéristique ⇒ score global par Tweet
Acceptation finale par profil(s)
Contrainte
Exécution < 1 min
5454
RI	flux	 	G.	Hubert
Approche	
Traitement du contenu textuel
Traitements	classiques	(Non-English,	stopwords,	casse,	tokenisa<on,	
racinisa<on)	
2	étapes	~	2	seuils	(score	de	similarité)	/	définis	par	expérience	:		
Contenu // titre
Contenu // titre + description
Système de score
Caractéris<ques	de	contenu	
Caractéris<ques	d’en<tés	
Caractéris<ques	u<lisateur	
Scores de caractéristiques
Seuils fixés par des expériences préalables
Score global de similarité par tweet
5555
RI	flux	 	G.	Hubert	
Si	ok	
Si	ok
56
●  Temps	de	réponse		
○  <	9	secondes	SGA	
○  <	7	minutes	SGB	
	
●  Varia<on	des	seuils	
●  Efficacité	(effec<veness)	
	
RI	flux	 	G.	Hubert	
Approche	/	Résultats
57
Scénario	A	 Scénario	B	
….	 ….	
RI	flux	 	G.	Hubert	
Résultats	officiels	TREC	Microblog	2015
58
Perspec<ves	
	
n  Ajustement	automa<que	des	seuils	
n  Besoins	d’informa<on	complexes	
n  Intégra<on	autres	dimensions	contextuelles	(spa<ale…)	
n  Obsolescence	des	données	
RI	flux	 	G.	Hubert
59
Axe	2	:	Explora<on	de	masses	de	données	
1.  Vue	d’ensemble 		
2.  Sugges<on	d’experts
Explora<on	de	masses	de	données 	G.	Hubert	
Probléma<ques	
Limites OLAP
Comment	comparer	des	données	de	niveaux	de	granularités	différents	?	
Limites des approches bibliométriques et scientométriques habituelles
en Sociologie des Sciences
Questions
Comment	évoluent	les	collabora<ons	des	chercheurs	au	cours	de	leur	
carrière	?	
Quels	experts	pour	renouveler	un	comité	de	programme	?	
Approche	
Extensions OLAP
Extraction d’informations bibliographiques (DBLP)
Analyse de réseaux de co-signature
Contr<bu<ons	
Nouvel opérateur OLAP - Blend
Méthode d’analyse bibliométrique (Projet ANR RésoCit)
Modèle de suggestion d’experts 6060
61
Axe	2	:	Explora<on	de	masses	de	données	
1.  Vue	d’ensemble 		
2.  Sugges<on	d’experts
Modèle	de	sugges<on	d’experts	
Approche	
Modélisation d’espace de recherche : graphe hétérogène
Trois types de nœuds
	
6262
Conférence	donnée	
Ar<cles	
Experts	
	
Quatre types de liens
Lien	entre	conférence		
et	un	ar<cle	publié	
Lien	de	cita<on	
Lien	entre	l’ar<cle	et	l’auteur	
Lien	entre	conférence	et	
par<cipa<on	à	un	CP	
Sugges<on	d’expert	 	G.	Hubert
Approche	
Proximité entre conférence et expert-candidat basée sur tous les
chemins entre eux
Trois types de nœuds
	
6363
1.	AE	:	Expert	comme	auteur	
externe	-	3	types	de	segment	
	
2.	AI	:	Expert	comme	auteur	
interne	-	2	types	de	segment	
	
3.	CP	:	Expert	comme	auteur	
externe	-	3	types	de	segment	
Sugges<on	d’expert	 	G.	Hubert
Approche	
Force des quatre types de lien
La	force	du	lien	de	cita<on	d’ar<cle	dcitant	cite	dcité	:	
La	force	du	lien	entre	conférence	et	son	ar<cles	d	:	
La	force	du	lien	entre	l’ar<cle	d	et	son	auteur	c	:	
La	force	du	lien	de	par<cipa<on	de	l’expert	c	au	comité	de	programme	:	
	
6464
Sugges<on	d’expert	 	G.	Hubert
Approche	
Force des chemins : somme des forces normalisées des liens qui
constituent le chemin
Chemin	auteur	externe	(AE)	
Chemin	auteur	interne	(AI)	
	
Chemin	membre	CP	(CP)	
Force des chemins : somme des forces normalisées des liens qui
où 6565
Sugges<on	d’expert	 	G.	Hubert
66
Perspec<ves	
	
n  Intégrer	d’autres	informa<ons	
q  Affilia<ons,	localisa<ons,	co-signatures	conférences	extérieurs…	
n  Temporalité	des	données	
q  Périodes	de	validité	des	théma<ques,	affilia<ons…	
n  Sugges<on	mul<-critère	
q  Défini<on	d’un	comité	répondant	à	un	ensemble	de	critères	
n  Évalua<on	
q  Jugements	de	présidents	de	CP	
Sugges<on	d’expert	 	G.	Hubert

Más contenido relacionado

Destacado

Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Bessem Aamira
 
Libro Complementario de la Escuela Sabatica 13/04/2013
Libro Complementario de la Escuela Sabatica 13/04/2013Libro Complementario de la Escuela Sabatica 13/04/2013
Libro Complementario de la Escuela Sabatica 13/04/2013
Misión Peruana del Norte
 
Présentation d'orientation - Examen de la CNE 2014
Présentation d'orientation - Examen de la CNE 2014Présentation d'orientation - Examen de la CNE 2014
Présentation d'orientation - Examen de la CNE 2014
MedCouncilCan
 
Contrat de logistique
  Contrat de logistique  Contrat de logistique
Contrat de logistique
Rabah HELAL
 

Destacado (20)

Prospection de textes scientifiques : vision prospective
Prospection de textes scientifiques : vision prospectiveProspection de textes scientifiques : vision prospective
Prospection de textes scientifiques : vision prospective
 
Le cnudst :votre partenaire en Information Scientifique et Technique
Le cnudst :votre partenaire en Information Scientifique et Technique Le cnudst :votre partenaire en Information Scientifique et Technique
Le cnudst :votre partenaire en Information Scientifique et Technique
 
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
 
Libro Complementario de la Escuela Sabatica 13/04/2013
Libro Complementario de la Escuela Sabatica 13/04/2013Libro Complementario de la Escuela Sabatica 13/04/2013
Libro Complementario de la Escuela Sabatica 13/04/2013
 
Evaluación de plataformas educativas virtuales
Evaluación de plataformas educativas virtualesEvaluación de plataformas educativas virtuales
Evaluación de plataformas educativas virtuales
 
Escuela sabatica leccion 09
Escuela sabatica leccion 09Escuela sabatica leccion 09
Escuela sabatica leccion 09
 
CPR 11-12 PIALE Inglés (mañana)
CPR 11-12 PIALE Inglés (mañana)CPR 11-12 PIALE Inglés (mañana)
CPR 11-12 PIALE Inglés (mañana)
 
Définition de l'actionnaire familial par Frédéric Lucet
Définition de l'actionnaire familial par Frédéric LucetDéfinition de l'actionnaire familial par Frédéric Lucet
Définition de l'actionnaire familial par Frédéric Lucet
 
Aparato respiratorio
Aparato respiratorioAparato respiratorio
Aparato respiratorio
 
Apport luléa
Apport luléaApport luléa
Apport luléa
 
2011 03-07 leccionadultos-lr
2011 03-07 leccionadultos-lr2011 03-07 leccionadultos-lr
2011 03-07 leccionadultos-lr
 
83848 elfee
83848 elfee83848 elfee
83848 elfee
 
Presentación actividad 1
Presentación actividad 1Presentación actividad 1
Presentación actividad 1
 
2012 02-04 auxiliardirectores
2012 02-04 auxiliardirectores2012 02-04 auxiliardirectores
2012 02-04 auxiliardirectores
 
Infrastructure de géomatique ouverte (IGO)
Infrastructure de géomatique ouverte  (IGO)Infrastructure de géomatique ouverte  (IGO)
Infrastructure de géomatique ouverte (IGO)
 
Présentation d'orientation - Examen de la CNE 2014
Présentation d'orientation - Examen de la CNE 2014Présentation d'orientation - Examen de la CNE 2014
Présentation d'orientation - Examen de la CNE 2014
 
Courtier
CourtierCourtier
Courtier
 
Dfww13 atelier dh_18_04_2013
Dfww13 atelier dh_18_04_2013Dfww13 atelier dh_18_04_2013
Dfww13 atelier dh_18_04_2013
 
Contrat de logistique
  Contrat de logistique  Contrat de logistique
Contrat de logistique
 
Gprs
GprsGprs
Gprs
 

Similar a Seminaire Recherche UPPA 2016

Influence de l’infrastructure routière sur l’occurrence des pertes de contrôl...
Influence de l’infrastructure routière sur l’occurrence des pertes de contrôl...Influence de l’infrastructure routière sur l’occurrence des pertes de contrôl...
Influence de l’infrastructure routière sur l’occurrence des pertes de contrôl...
Olivier Orfila
 

Similar a Seminaire Recherche UPPA 2016 (20)

Expose.ppt
Expose.pptExpose.ppt
Expose.ppt
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Plasticitérecherche2017
Plasticitérecherche2017Plasticitérecherche2017
Plasticitérecherche2017
 
Influence de l’infrastructure routière sur l’occurrence des pertes de contrôl...
Influence de l’infrastructure routière sur l’occurrence des pertes de contrôl...Influence de l’infrastructure routière sur l’occurrence des pertes de contrôl...
Influence de l’infrastructure routière sur l’occurrence des pertes de contrôl...
 
Indexation et ri
Indexation et riIndexation et ri
Indexation et ri
 
Projet décisionnel
Projet décisionnelProjet décisionnel
Projet décisionnel
 
Cours de recherche operationnelle I s6
Cours de recherche operationnelle I s6Cours de recherche operationnelle I s6
Cours de recherche operationnelle I s6
 
RECHERCHE OPÉRATIONNELLE SEMESTRE 6
RECHERCHE OPÉRATIONNELLE SEMESTRE 6RECHERCHE OPÉRATIONNELLE SEMESTRE 6
RECHERCHE OPÉRATIONNELLE SEMESTRE 6
 
La methode merise mcd et mld (merise).pdf
La methode merise mcd et mld (merise).pdfLa methode merise mcd et mld (merise).pdf
La methode merise mcd et mld (merise).pdf
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Optimisation de l'organisation de processus de management de l'information
Optimisation de l'organisation de processus de management de l'informationOptimisation de l'organisation de processus de management de l'information
Optimisation de l'organisation de processus de management de l'information
 
Réflexions sur les missions et les compétences liées à une démarche data terr...
Réflexions sur les missions et les compétences liées à une démarche data terr...Réflexions sur les missions et les compétences liées à une démarche data terr...
Réflexions sur les missions et les compétences liées à une démarche data terr...
 
Habilitation to conduct research (Habilitation à diriger des recherches)
Habilitation to conduct research (Habilitation à diriger des recherches)Habilitation to conduct research (Habilitation à diriger des recherches)
Habilitation to conduct research (Habilitation à diriger des recherches)
 
5 ETAPES CLES DE LA PREPARATION D'UN PROJET R&D COLLABORATIF
5 ETAPES CLES DE LA PREPARATION  D'UN PROJET R&D COLLABORATIF5 ETAPES CLES DE LA PREPARATION  D'UN PROJET R&D COLLABORATIF
5 ETAPES CLES DE LA PREPARATION D'UN PROJET R&D COLLABORATIF
 
Introduction à Neo4j
Introduction à Neo4jIntroduction à Neo4j
Introduction à Neo4j
 
Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...
Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...
Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...
 
CRFCB AMU evolutions_catalogage_091213_enjeux_1
CRFCB AMU evolutions_catalogage_091213_enjeux_1CRFCB AMU evolutions_catalogage_091213_enjeux_1
CRFCB AMU evolutions_catalogage_091213_enjeux_1
 
Search, nosql et bigdata avec les moteurs de recherche
Search, nosql et bigdata avec les moteurs de rechercheSearch, nosql et bigdata avec les moteurs de recherche
Search, nosql et bigdata avec les moteurs de recherche
 
Soutenance thèse de Pierre-Antoine Arrighi "Modèles d'intégration des designe...
Soutenance thèse de Pierre-Antoine Arrighi "Modèles d'intégration des designe...Soutenance thèse de Pierre-Antoine Arrighi "Modèles d'intégration des designe...
Soutenance thèse de Pierre-Antoine Arrighi "Modèles d'intégration des designe...
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
 

Seminaire Recherche UPPA 2016