Interroger le texte scientifique

Interroger le texte scien.ﬁque
Guillaume Cabanac
guillaume.cabanac@univ-tlse3.fr

8 décembre 2016
HDR
http://bit.ly/hdrCabanac2016
n Thème 2 : Indexa.on et Recherche d’Informa.ons
Équipe IRIS : Informa.on Retrieval & Informa.on Synthesis

2
Interroger le texte scien.ﬁque ?
Prélude : projet de programme de recherche
Requêter
recherche d’informa.on
Ques+onner
scientométrie

3
Interroger le texte scien.ﬁque ?
Prélude : projet de programme de recherche

Parcours 1/3 : produc.on scien.ﬁque
Prélude
4
ingénierie documentaire recherche d’informa.on scientométrie

5
Parcours 2/3 : encadrements, programmes de recherche
Prélude

Parcours 3/3 : richesse de la vie universitaire
6
n  Enseignement
¨  DUT 1A-2A systèmes d’informa.on et bases de données 160 h / an
¨  Licence Pro administra.on des bases de données + projet 60 h / an
¨  M2 évalua.on de la recherche d’informa.on 6 h / an
¨  Doct. + EC LaTeX pour composer des documents scien.ﬁques 12 h / an
n  Service à la communauté scien.ﬁque
¨  2 jurys de doctorat, 2 recrutements (MCF, Enseignant du 2nd degré)
¨  ~10 évalua.ons par an d’ar.cles de revue, conférence et atelier
¨  Co-chair du workshop BIR@ECIR
n  Fonc.ons élec.ves
¨  2015-2019 Conseil na.onal des universités – CNU 27
¨  2016-2019 Conseil de la documenta.on de l’Université Toulouse 3
¨  2014-2016 Conseil du département informa.que de l’IUT « A »
Prélude

7
Plan « alterna.f »
1.  Prélude : objets et parcours

2.  Raﬃner l’indexa.on
a.  Photos par crowdsourcing
b.  (Microblogs par exploita.on des spéciﬁcités des tweets)
c.  Éponymes
3.  Éprouver les modèles
4.  Traquer les biais d’évalua.on
5.  Révéler l’implicite
6.  Ques.onner les pra.ques des champs disciplinaires

7.  Bilan
8.  Perspec.ves

8
Plan

c.  Éponymes

7.  Bilan
8.  Perspec.ves

2010 Comment retrouver ses/des photos ?
9
Mitran, M. (2014). Annota.on d’images via leur contexte spa.o-temporel et les métadonnées du Web.
Thèse de doctorat de l’université Toulouse 3 – Paul Saba.er.
2a — Raﬃner l’indexa.on
hqp://kesselskramer.com/exhibi.ons/24-hrs-of-photos
24 heures en photos sur
880 millards de photos prises en 2014 selon Yahoo!

2010 Une solu.on bien connue quoique limitée
10
n  Requêtes textuelles
n  Limite
¨  Requiert une descrip.on textuelle : indexa.on manuelle
¨  Requiert du texte autour — quid de nos photos sur clé USB ?

Annota.on d’images par crowdsourcing
n  Hypothèses
¨  Per.nence spa.ale

n  Métadonnées type EXIF
n  Annoter une image
¨  Tags proches dans l’espace (SM)
¨  Tags proches dans le temps
n  Valida.on
¨  2 lignes de référence
¨  Per.nence temporelle
11

12
Plan

c.  Éponymes

7.  Bilan
8.  Perspec.ves

13
Plan

c.  Éponymes

7.  Bilan
8.  Perspec.ves

Éponymie et panthéon scien.fique
14
“Eponyms remind us that science
and scholarship are the work of
dedicated people.” (p. 393)
“mnemonic and commemora+ve device” (p. 121)
Merton, R. K. (1942). Science and technology in a democra.c order.
Journal of Legal and Poli.cal Sociology, 1(1), 115–126.

“the prac.ce of affixing the name of the scien+st to all or part of
what he has found, as with the Copernican system, Hooke’s law,
Planck’s constant, or Halley’s comet” (p. 643)
Merton, R. K. (1957). Priori.es in scien.fic discovery: A chapter in the sociology of
science. American Sociological Review, 22(6), 635–659.
Cabanac, G. (2014). Extrac.ng and quan.fying eponyms in full-text ar.cles. Scientometrics, 98, 3, 1631–1645.
2c — Raffiner l’indexa.on

15
n  Théories
¨  The Reward System of Science (Merton, 1942, 1957)
¨  Oblitera.on by Incorpora.on (Merton, 1988; McCain, 2011, 2012)
¨  Non-indexed Eponymal Citedness (Száva-Kováts, 1994)
n  Extraire et quan.fier les éponymes en plein texte
¨  Connaître les savants les plus influents d’un champ donné
¨  Amender un dic.onnaire d’éponymes
¨  Iden.fier les tendances et l’incorpora.on de méthodes

16

17
Révéla.on du panthéon scien.ﬁque implicite

18
1.  Prélude : parcours et objets

a.  Opérateurs d’interroga.on
b.  Sugges.ons contextuelles à TREC
c.  (Capacité de partenariat : ϕ-index)

7.  Bilan
8.  Perspec.ves
Plan

n  Usage des opérateurs
¨  Recherche d’expressions ("…"), critère obligatoire (+) ou préféré (^),
connecteurs booléens, opérateurs de proximité…
¨  Délaissés de nos jours bien que plébiscités ini.alement (20 % chez Silverstein et al., 1999)
19
Besoin en informa.on
“I’m looking for research projects funded in the DL domain”
Requête usuelle Requête avec opérateurs
Opérateurs d’interroga.on des moteurs de recherche
Hubert, G., Cabanac G., Sallaberry, C., Palacio, D. (2011) Query Operators Shown Beneﬁcial for Improving Search Results.
TPDL’11, volume 6966 de LNCS, pages 118–129. Springer.
3a — Éprouver les modèles

Requête usuelle V1: Variante de requête avec opérateur
ü ü ü
ü ü
ü
ü
V2, V3, V4, …, VN
Méthode Résultats
L’emploi judicieux des opérateurs améliore
la qualité des résultats de recherche.
MAP u = 0,1554
MAP ┬ = 0,2099
+35%
n  Qualité des résultats ↗
Hypothèse
u Topic TREC
Opérateurs d’interroga.on des moteurs de recherche

21


7.  Bilan
8.  Perspec.ves
Plan

22
TREC Contextual Sugges.on 2012
n  « Que faire d’intéressant aux alentours et maintenant ? »
¨  50 contextes spa.o-temporels
¨  34 proﬁls u.lisateurs
¨  aqeignable en voiture < 5h

Hubert, G., & Cabanac, G. (2012). IRIT at TREC 2012 Contextual Sugges.on Track. TREC’12: Proceedings of the
21st Text REtrieval Conference. Sous la direc.on d’E.M. Voorhees et L.P. Buckland. Gaithersburg, MA : NIST.

23


7.  Bilan
8.  Perspec.ves
Plan

24

a.  Biais des ex-aequo
b.  Biais d’ordonnancement

7.  Bilan
8.  Perspec.ves
Plan

25
Contexte : mesurer la qualité d’un système de RI
n  Focus : u.lisateur vs. système de RI (Spärck Jones & Willeq, 1997)
n  Campagnes d’évalua.on
¨  1958 Cranﬁeld, UK
¨  1992 TREC (Text Retrieval Conference), USA
¨  1999 NTCIR (NII Test Collec.on for IR Systems), Japan
¨  2001 CLEF (Cross-Language Evalua.on Forum), Europe
¨  …
n  Méthode « Cranﬁeld »
¨  Tâche
¨  Collec.on de test
n  Corpus
n  Topics
n  Qrels
¨  Mesures : MAP, P@X ...
calcul avec trec_eval (Voorhees, 2007)
4a — Traquer les biais d’évalua.on

26
Scénario de par.cipa.on à TREC (1/2)
5 documents per.nents Topic 031 “satellite launch contracts”
Chris Ellen
C = 〈( , 0.8), ( , 0.8), ( , 0.5)〉 E = 〈( , 0.8), ( , 0.8), ( , 0.5)〉
la seule différence
Pourquoi de telles différences ?
malchanceux chanceux
Cabanac, G., Hubert, G., Boughanem, M., & Chrisment, C. (2010). Tie-breaking Bias : Effect of an Uncontrolled Parameter on
Informa.on Retrieval Evalua.on. CLEF, volume 6360 de LNCS, pages 112–123. Springer

27
La cause : réordonnancement fortuit des runs
Qrels = 〈qid, iter, docno, rel〉 Run = 〈qid, iter, docno, rank, sim, run_id〉
〈( , 0.8), ( , 0.8), ( , 0.5)〉
trec_eval réordonne ainsi :
qid asc, sim desc, docno desc
〈( , 0.8), ( , 0.8), ( , 0.5)〉
Mesure de qualité = f (qualité_intrinsèque, )
MAP, P@X, MRR…

28
Conséquences du réordonnancement d’un run
n  Mesures de qualité d’un système s de RI
¨  RR(s, t) 1/rang du premier document per.nent, pour le topic t
¨  P(s, t, d) précision au document d, pour le topic t
¨  AP(s, t) précision moyenne pour le topic t
¨  MAP(s) moyenne des précisions moyennes

M Le bias des ex aequo
¨  Pour autant, Wall Street Journal est-il plus per.nent que Associated Press?
M Problème 1 comparer 2 systèmes AP(s1, t) vs. AP(s2, t)
M Problème 2 comparer 2 topics AP(s, t1) vs. AP(s, t2)
Chris
Ellen
M
Sensibles au
rang de
document

29
Note pour plus tard : aqen.on aux ex aequo !
n  Eﬀet important sur AP, lissé au niveau de la MAP
n  Bornes de mesures APRéaliste ≤ APConven.onnel ≤ APOp.miste
n  Analyse de défaillances pour améliorer le modèle
¨  Barre d’erreur = facteur (mal)chance → poten.al d’améliora.on
padre1, adhoc’94

30
Impact du biais des ex aequo
n  Étude menée sur 4 tâches de TREC

¨  22 édi.ons
¨  1 360 runs
n  Évalua.on de l impact du biais des ex aequo
¨  Propor.on des ex aequo dans les runs soumis ⇒ fréquence du biais
¨  Impact sur les valeurs des mesures
n  Top 5 des différences constatées
n  Pourcentage de la différence observée
n  Significa.vité de la différence observée : t-test pairé unilatéral
1993 1999 2000 1998 2002 2004 1997
rou.ng web filtering
adhoc
2009
3 Go de données issues de trec.nist.gov

31
Impact du biais sur Average Precision (AP)

32

a.  Biais des ex-aequo
b.  Biais d’ordonnancement

7.  Bilan
8.  Perspec.ves
Plan

33
Diﬀérences entre champs disciplinaires : les confs
4b — Traquer les biais d’évalua.on

34
Conférences : et si la date de soumission importait ? M
n  Évalua.on par les pairs
Cabanac, G., & Preuss, T. (2013). Capitalizing on order eﬀects in the bids of peer-reviewed conferences to secure
reviews by expert referees. JASIST, 64, 2, 405–415.

35

36
Le biais de la date de soumission
n  Données de ConfMaster : 42 conférences en informa.que

37
Biais de la date de soumission
n  Inﬂuence sur les enchères (bids)

38
Faites évaluer par ceux qui le veulent !

39
Plan

a.  Recommanda.ons théma.co-sociales
b.  Nature des collabora.ons scien.ﬁques
c.  (Équilibre travail-loisirs)

7.  Bilan
8.  Perspec.ves

40
Recommanda.on théma.co-sociale
n  État de l’art : modèles riches mais…
L Coût accès payant aux contenus
L Faisabilité contenu = formats et langues mul.ples
L Intrusivité friendship ? bookmarking ?
L Per.nence cita.ons (néga.ves, complaisantes…)

L Évalua.on beaucoup de paramètres en jeu !

n  Notre approche : exploiter des données publiques et objec.ves
¨  Source bibliographique minimale
n  auteurs : nom prénom
n  publica.ons : .tre, conférence/journal, date
⇒ ni abstract, ni contenu
¨  Objec.f : recommanda.on de chercheurs selon théma.que + social
(Ben Jabeur et al., 2010)
Cabanac, G. (2011). Accuracy of inter-researcher similarity measures based on topical and social clues.
Scientometrics, 87, 3, 597–620.
5a — Révéler l’implicite

41
Déﬁnir des similarités inter-auteur
n  Modélisa.on
¨  Co-auteurs graphe bipar. auteurs ↔ auteurs
¨  Lieux de publica.on graphe bipar. auteurs ↔ conférences / revues

n  Similarités sociales
¨  Degré de sépara.on inverse longueur du plus court chemin
¨  Force du lien nombre de plus courts chemins
¨  Lieux mutuels nombre d’édi.ons de conférences en commun
n  Similarité théma.que
¨  Cosinus sur modèle vectoriel di = (wi
1, … , wi
n)
alimenté par les .tres (doc / auteur)

42
Recommander en intégrant les indices sociaux
n  Tâche de veille scien.ﬁque
¨  Exigence per.nence théma.que
¨  Préférence proximité sociale (échanges, montages de projets…)

⇒ réordonner les résultats théma.ques en fonc.on d’indices sociaux
n  Faisceau de preuves avec CombMNZ (Fox & Shaw, 1993)

n  Résultat : liste de chercheurs recommandés
CombMNZ
Degré de sépara.on
Force des liens
Lieux mutuels
Run social
Run théma.que
∩
CombMNZ Run T+S

43
Protocole d’évalua.on
n  Confronter les recommanda.ons à la percep.on des chercheurs
¨  Q1 : Qualité du théma.que seul ?
¨  Q2 : Améliora.on par l’intégra.on d’indices sociaux ?
n  Inspira.on : paradigme Cranﬁeld (TREC…)
¨  Le moteur res.tue-t-il des documents per.nents ?

doc per.nent ?
assesseur
jugements de per.nence
{0, 1} binaires
[0, N] graduels
trec_eval
mesures de qualité
Mean Average Precision
Normalized Discounted Cumula.ve Gain
topic S1 S2
1 0,5687 0,6521
… … …
50 0,7124 0,7512
moy. 0,6421 0,7215
améliora.on +12,3 %
signiﬁca.ve p < 0,05 (t-test pairé)
moteur de recherche
topic
corpus

44
Évalua.on des recommanda.ons
n  Adapta.on du paradigme Cranﬁeld (TREC…)
¨  Le moteur système res.tue-t-il des documents chercheurs per.nents ?

doc per.nent ?
assesseur
jugements de per.nence
{0, 1} binaires
[0, N] graduels
trec_eval
mesures de qualité
Mean Average Precision
Normalized Discounted Cumula.ve Gain
topic S1 S2
1 0,5687 0,6521
… … …
50 0,7124 0,7512
moy. 0,6421 0,7215
améliora.on +12,3 %
signiﬁca.ve p < 0,05 (t-test pairé)
moteur de recherche
topic
corpus
nom d un
chercheur
chercheur
« Pour progresser dans votre recherche,
avec qui faudrait-il discuter ? »
sys. de recommanda.on
théma.que
théma.que
+ social
nb sujets
25 premiers

45
Expérimenta.on
n  Caractéris.ques
¨  Données dblp.xml (713 Mo = 1,3M publis et 811 787 chercheurs)
¨  Sujets 90 chercheurs-contacts joints par mail
74 chercheurs ont commencé et 71 ont ﬁni
n  Interface de jugement des recommanda.ons
Œ

Ž

46
Valida.on expérimentale de nos hypothèses
n  Baseline forte ⇒ approche vectorielle performante

n  +8,49 % = améliora.on signiﬁca.ve (p < 0,05 ; n = 70)
de la théma.que par le social
0,5
0,6
0,7
0,8
0,9
1
global < 15 publis >= 15 publis < 13 ans >= 13 ans
Thématique Thématique + Social
produc.vité expérience
+8,49 % +10,39 % +7,03 % +6,50 % +10,22 %
NDCG

47
Plan


7.  Bilan
8.  Perspec.ves

48
Cabanac, G., Hubert, G., & Milard, B. (2015). Academic careers in Computer Science: con.nuance and transience
of life.me co-authorships. Scientometrics, 102, 1, 135–150.
5b — Révéler l’implicite

49
Source: hqps://projects.groept.be/~emedia
La popula.on
(N = 1 870 054)
L’échan.llon des
« quinquas »
(N = 209 377)

50
Collabora.ons entretenues versus éphémères

51
Renouvellement

52
Eﬀet Maqhieu et homophilie

53
Plan


7.  Bilan
8.  Perspec.ves

54
Plan

a.  Les gardiens de la science : gatekeepers du SI
b.  (Présence des gatekeepers femmes et auteurs au congrès EGC)

7.  Bilan
8.  Perspec.ves

55
Panorama de la recherche en Informa.on Systems
n  Les gardiens de l’évalua.on par les pairs, alias gatekeepers
(Braun, 2009)
Cabanac, G. (2012). Shaping the landscape of research in informa.on systems from the perspec.ve of editorial boards:
A scientometric study of 77 leading journals. JASIST, 63, 5, 977–996.
6a — Les gardiens de l’évalua.on par les pairs : gatekeepers du SI

56
n  Les 77 revues « cœur » en IS selon une autorité : le WoS

57
n  Analyse exploratoire des données
¨  77 revues
¨  2 846 gatekeepers

58
n  Analyse exploratoire des données

59
n  Graphe théma.que des revues en IS

60
n  Inﬂuence, pouvoir...
(1984)

61
n  Un siège à la table des négocia.ons ?

62
n  Diversité géographique et de genre

63
Plan

a.  Les gardiens de la science : gatekeepers du SI
b.  (Présence des gatekeepers femmes et auteurs au congrès EGC)

7.  Bilan
8.  Perspec.ves

64
Plan


7.  Bilan
8.  Perspec.ves

65
7. Bilan
Théma.ques principales
3 mouvements
①
②
③

66
Yang S., Han R., Wolfram D. & Zhao, Y. (2016). Visualizing the intellectual structure of informa+on science (2006–2015):
Introducing author keyword coupling analysis. Journal of Informetrics, 10, 1, 132–150.
[Author-Bibliographic Coupling Analysis]
Une recherche aux fron.ères des spécialités d’Informa.on Science
7. Bilan

67
Plan


7.  Bilan
8.  Perspec.ves

68
8. Perspec.ves
Reconnaître les structures d’opportunités
Ques+on de recherche :
- cap.vante
- originale / inaqendue
- importante
Revue de la liEérature :
- interdisciplinaire
- sur le temps long

Données et méthodes :
- données originales en libre accès, de préférence
- méthode mixte : quan. + quali

69
8. Perspec.ves
Réseaux sociaux numériques et élicita.on d’opinions
hqp://volta.pacitaproject.eu/wp-content/uploads/2013/04/schaliegaswinning-s-26.jpg
(Thonet et al., 2016)

70
T2
T1
T3
T4
T5
T7
T6
Preuve de concept : IRIT
Données :
•  2009-2014
•  RICL, RNCL, CICL, CNCL
•  260 auteurs
•  3 860 ar.cles (82 % internat.)

Interpréta.on :
•  Collabora.on inter-thèmes
•  Force des liens faibles

Aqen.on :
•  Variabilité des pra.ques de
publica.on selon les
domaines : fréquence,
travail ± collabora.f…
Réalisé avec Gephi
8. Perspec.ves
Vers un observatoire de la recherche 1/3

71Réalisé avec Iramuteq
8. Perspec.ves

72
Interpréta.on :
•  4 objets principaux
•  Des pétales à explorer
NB : le nombre de mots représentés
peut être paramétré pour ajuster le
niveau de détail.
Réalisé avec Iramuteq
8. Perspec.ves

73
8. Perspec.ves
Posi.ons dans le champ

Le marché noir de l’édi.on scien.fique

74
n  Domaines
¨  Science de l’informa.on
¨  Sociologie des sciences
n  Contexte : (non)-accès à l’IST
¨  8 millions de chercheurs + des amateurs (sciences par.cipa.ves) + grand public
¨  114 millions de documents scien.fiques en ligne
mais seulement 24 % accessibles librement
n  Défi : dévoiler rouages et contenu des bibliothèques clandes.nes
¨  Library Genesis (23M d’ar.cles, 1M d’ouvrages), Sci-Hub, #icanhazpdf, /r/scholar
n  Contribu.on : ar.cle JASIST accepté en octobre 2014
¨  Alimenta.on : biblioleaks + crowdsourcing
¨  Contenu : distribu.on des éditeurs, disciplines, langues…
@rickypo
8. Perspec.ves
Cabanac, G. (2016). Bibliogiñs in LibGen? A study of a text-sharing plaóorm driven by biblioleaks and crowdsourcing. Journal of the
Associa.on for Informa.on Science and Technology, 67, 4, 874–884.

Étudier l’Open Access clandes.n : les enjeux
75
8. Perspec.ves

Merci
hqp://www.irit.fr/~Guillaume.Cabanac
@gcabanac

Interroger le texte scientifique

Recomendados

Recomendados

Más contenido relacionado

Similar a Interroger le texte scientifique

Similar a Interroger le texte scientifique (20)

Más de Guillaume Cabanac

Más de Guillaume Cabanac (20)

Interroger le texte scientifique