6. Parcours 3/3 : richesse de la vie universitaire
6
n Enseignement
¨ DUT 1A-2A systèmes d’informa.on et bases de données 160 h / an
¨ Licence Pro administra.on des bases de données + projet 60 h / an
¨ M2 évalua.on de la recherche d’informa.on 6 h / an
¨ Doct. + EC LaTeX pour composer des documents scien.fiques 12 h / an
n Service à la communauté scien.fique
¨ 2 jurys de doctorat, 2 recrutements (MCF, Enseignant du 2nd degré)
¨ ~10 évalua.ons par an d’ar.cles de revue, conférence et atelier
¨ Co-chair du workshop BIR@ECIR
n Fonc.ons élec.ves
¨ 2015-2019 Conseil na.onal des universités – CNU 27
¨ 2016-2019 Conseil de la documenta.on de l’Université Toulouse 3
¨ 2014-2016 Conseil du département informa.que de l’IUT « A »
Prélude
7. 7
Interroger le texte scien.fique
Plan « alterna.f »
1. Prélude : objets et parcours
2. Raffiner l’indexa.on
a. Photos par crowdsourcing
b. (Microblogs par exploita.on des spécificités des tweets)
c. Éponymes
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
8. 8
Interroger le texte scien.fique
Plan
1. Prélude : objets et parcours
2. Raffiner l’indexa.on
a. Photos par crowdsourcing
b. (Microblogs par exploita.on des spécificités des tweets)
c. Éponymes
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
12. 12
Interroger le texte scien.fique
Plan
1. Prélude : objets et parcours
2. Raffiner l’indexa.on
a. Photos par crowdsourcing
b. (Microblogs par exploita.on des spécificités des tweets)
c. Éponymes
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
13. 13
Interroger le texte scien.fique
Plan
1. Prélude : objets et parcours
2. Raffiner l’indexa.on
a. Photos par crowdsourcing
b. (Microblogs par exploita.on des spécificités des tweets)
c. Éponymes
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
15. 15
n Théories
¨ The Reward System of Science (Merton, 1942, 1957)
¨ Oblitera.on by Incorpora.on (Merton, 1988; McCain, 2011, 2012)
¨ Non-indexed Eponymal Citedness (Száva-Kováts, 1994)
n Extraire et quan.fier les éponymes en plein texte
¨ Connaître les savants les plus influents d’un champ donné
¨ Amender un dic.onnaire d’éponymes
¨ Iden.fier les tendances et l’incorpora.on de méthodes
2c — Raffiner l’indexa.on
Éponymie et panthéon scien.fique
18. 18
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
a. Opérateurs d’interroga.on
b. Sugges.ons contextuelles à TREC
c. (Capacité de partenariat : ϕ-index)
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
Plan
19. n Usage des opérateurs
¨ Recherche d’expressions ("…"), critère obligatoire (+) ou préféré (^),
connecteurs booléens, opérateurs de proximité…
¨ Délaissés de nos jours bien que plébiscités ini.alement (20 % chez Silverstein et al., 1999)
19
Besoin en informa.on
“I’m looking for research projects funded in the DL domain”
Requête usuelle Requête avec opérateurs
Opérateurs d’interroga.on des moteurs de recherche
Hubert, G., Cabanac G., Sallaberry, C., Palacio, D. (2011) Query Operators Shown Beneficial for Improving Search Results.
TPDL’11, volume 6966 de LNCS, pages 118–129. Springer.
3a — Éprouver les modèles
20. Requête usuelle V1: Variante de requête avec opérateur
ü ü ü
ü ü
ü
ü
V2, V3, V4, …, VN
Méthode Résultats
L’emploi judicieux des opérateurs améliore
la qualité des résultats de recherche.
MAP u = 0,1554
MAP ┬ = 0,2099
+35%
n Qualité des résultats ↗
Hypothèse
u Topic TREC
3a — Éprouver les modèles
Opérateurs d’interroga.on des moteurs de recherche
21. 21
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
a. Opérateurs d’interroga.on
b. Sugges.ons contextuelles à TREC
c. (Capacité de partenariat : ϕ-index)
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
Plan
23. 23
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
a. Opérateurs d’interroga.on
b. Sugges.ons contextuelles à TREC
c. (Capacité de partenariat : ϕ-index)
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
Plan
24. 24
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
a. Biais des ex-aequo
b. Biais d’ordonnancement
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
Plan
25. 25
Contexte : mesurer la qualité d’un système de RI
n Focus : u.lisateur vs. système de RI (Spärck Jones & Willeq, 1997)
n Campagnes d’évalua.on
¨ 1958 Cranfield, UK
¨ 1992 TREC (Text Retrieval Conference), USA
¨ 1999 NTCIR (NII Test Collec.on for IR Systems), Japan
¨ 2001 CLEF (Cross-Language Evalua.on Forum), Europe
¨ …
n Méthode « Cranfield »
¨ Tâche
¨ Collec.on de test
n Corpus
n Topics
n Qrels
¨ Mesures : MAP, P@X ...
calcul avec trec_eval (Voorhees, 2007)
4a — Traquer les biais d’évalua.on
28. 28
Conséquences du réordonnancement d’un run
n Mesures de qualité d’un système s de RI
¨ RR(s, t) 1/rang du premier document per.nent, pour le topic t
¨ P(s, t, d) précision au document d, pour le topic t
¨ AP(s, t) précision moyenne pour le topic t
¨ MAP(s) moyenne des précisions moyennes
M Le bias des ex aequo
¨ Pour autant, Wall Street Journal est-il plus per.nent que Associated Press?
M Problème 1 comparer 2 systèmes AP(s1, t) vs. AP(s2, t)
M Problème 2 comparer 2 topics AP(s, t1) vs. AP(s, t2)
Chris
Ellen
M
Sensibles au
rang de
document
4a — Traquer les biais d’évalua.on
30. 30
Impact du biais des ex aequo
n Étude menée sur 4 tâches de TREC
¨ 22 édi.ons
¨ 1 360 runs
n Évalua.on de l impact du biais des ex aequo
¨ Propor.on des ex aequo dans les runs soumis ⇒ fréquence du biais
¨ Impact sur les valeurs des mesures
n Top 5 des différences constatées
n Pourcentage de la différence observée
n Significa.vité de la différence observée : t-test pairé unilatéral
1993 1999 2000 1998 2002 2004 1997
rou.ng web filtering
adhoc
2009
3 Go de données issues de trec.nist.gov
4a — Traquer les biais d’évalua.on
32. 32
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
a. Biais des ex-aequo
b. Biais d’ordonnancement
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
Plan
39. 39
Plan
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
a. Recommanda.ons théma.co-sociales
b. Nature des collabora.ons scien.fiques
c. (Équilibre travail-loisirs)
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
40. 40
Recommanda.on théma.co-sociale
n État de l’art : modèles riches mais…
L Coût accès payant aux contenus
L Faisabilité contenu = formats et langues mul.ples
L Intrusivité friendship ? bookmarking ?
L Per.nence cita.ons (néga.ves, complaisantes…)
L Évalua.on beaucoup de paramètres en jeu !
n Notre approche : exploiter des données publiques et objec.ves
¨ Source bibliographique minimale
n auteurs : nom prénom
n publica.ons : .tre, conférence/journal, date
⇒ ni abstract, ni contenu
¨ Objec.f : recommanda.on de chercheurs selon théma.que + social
(Ben Jabeur et al., 2010)
Cabanac, G. (2011). Accuracy of inter-researcher similarity measures based on topical and social clues.
Scientometrics, 87, 3, 597–620.
5a — Révéler l’implicite
41. 41
Définir des similarités inter-auteur
n Modélisa.on
¨ Co-auteurs graphe bipar. auteurs ↔ auteurs
¨ Lieux de publica.on graphe bipar. auteurs ↔ conférences / revues
n Similarités sociales
¨ Degré de sépara.on inverse longueur du plus court chemin
¨ Force du lien nombre de plus courts chemins
¨ Lieux mutuels nombre d’édi.ons de conférences en commun
n Similarité théma.que
¨ Cosinus sur modèle vectoriel di = (wi
1, … , wi
n)
alimenté par les .tres (doc / auteur)
5a — Révéler l’implicite
42. 42
Recommander en intégrant les indices sociaux
n Tâche de veille scien.fique
¨ Exigence per.nence théma.que
¨ Préférence proximité sociale (échanges, montages de projets…)
⇒ réordonner les résultats théma.ques en fonc.on d’indices sociaux
n Faisceau de preuves avec CombMNZ (Fox & Shaw, 1993)
n Résultat : liste de chercheurs recommandés
CombMNZ
Degré de sépara.on
Force des liens
Lieux mutuels
Run social
Run théma.que
∩
CombMNZ Run T+S
5a — Révéler l’implicite
43. 43
Protocole d’évalua.on
n Confronter les recommanda.ons à la percep.on des chercheurs
¨ Q1 : Qualité du théma.que seul ?
¨ Q2 : Améliora.on par l’intégra.on d’indices sociaux ?
n Inspira.on : paradigme Cranfield (TREC…)
¨ Le moteur res.tue-t-il des documents per.nents ?
doc per.nent ?
assesseur
jugements de per.nence
{0, 1} binaires
[0, N] graduels
trec_eval
mesures de qualité
Mean Average Precision
Normalized Discounted Cumula.ve Gain
topic S1 S2
1 0,5687 0,6521
… … …
50 0,7124 0,7512
moy. 0,6421 0,7215
améliora.on +12,3 %
significa.ve p < 0,05 (t-test pairé)
moteur de recherche
topic
corpus
5a — Révéler l’implicite
45. 45
Expérimenta.on
n Caractéris.ques
¨ Données dblp.xml (713 Mo = 1,3M publis et 811 787 chercheurs)
¨ Sujets 90 chercheurs-contacts joints par mail
74 chercheurs ont commencé et 71 ont fini
n Interface de jugement des recommanda.ons
Œ
Ž
5a — Révéler l’implicite
47. 47
Plan
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
a. Recommanda.ons théma.co-sociales
b. Nature des collabora.ons scien.fiques
c. (Équilibre travail-loisirs)
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
53. 53
Plan
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
a. Recommanda.ons théma.co-sociales
b. Nature des collabora.ons scien.fiques
c. (Équilibre travail-loisirs)
6. Ques.onner les pra.ques des champs disciplinaires
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
54. 54
Plan
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
a. Les gardiens de la science : gatekeepers du SI
b. (Présence des gatekeepers femmes et auteurs au congrès EGC)
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
63. 63
Plan
1. Prélude : parcours et objets
2. Raffiner l’indexa.on
3. Éprouver les modèles
4. Traquer les biais d’évalua.on
5. Révéler l’implicite
6. Ques.onner les pra.ques des champs disciplinaires
a. Les gardiens de la science : gatekeepers du SI
b. (Présence des gatekeepers femmes et auteurs au congrès EGC)
7. Bilan
8. Perspec.ves
Interroger le texte scien.fique
70. 70
T2
T1
T3
T4
T5
T7
T6
Preuve de concept : IRIT
Données :
• 2009-2014
• RICL, RNCL, CICL, CNCL
• 260 auteurs
• 3 860 ar.cles (82 % internat.)
Interpréta.on :
• Collabora.on inter-thèmes
• Force des liens faibles
Aqen.on :
• Variabilité des pra.ques de
publica.on selon les
domaines : fréquence,
travail ± collabora.f…
Réalisé avec Gephi
8. Perspec.ves
Vers un observatoire de la recherche 1/3
74. Le marché noir de l’édi.on scien.fique
74
n Domaines
¨ Science de l’informa.on
¨ Sociologie des sciences
n Contexte : (non)-accès à l’IST
¨ 8 millions de chercheurs + des amateurs (sciences par.cipa.ves) + grand public
¨ 114 millions de documents scien.fiques en ligne
mais seulement 24 % accessibles librement
n Défi : dévoiler rouages et contenu des bibliothèques clandes.nes
¨ Library Genesis (23M d’ar.cles, 1M d’ouvrages), Sci-Hub, #icanhazpdf, /r/scholar
n Contribu.on : ar.cle JASIST accepté en octobre 2014
¨ Alimenta.on : biblioleaks + crowdsourcing
¨ Contenu : distribu.on des éditeurs, disciplines, langues…
@rickypo
8. Perspec.ves
Cabanac, G. (2016). Bibliogiñs in LibGen? A study of a text-sharing plaóorm driven by biblioleaks and crowdsourcing. Journal of the
Associa.on for Informa.on Science and Technology, 67, 4, 874–884.