Lamjed Ben Jabeur, Lynda Tamine, Mohand Boughanem.
Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets.
Dans : Conférence francophone en Recherche d'Information et Applications (CORIA 2012), Bordeaux, 21/03/12-23/03/12, LABRI, p. 301-316, 2012 ftp://ftp.irit.fr/IRIT/SIG/BenJabeur_CORIA2012.pdf
Cet article présente une approche sociale pour la recherche d’information dans les
microblogs intégrant diverses sources d’évidence au sein d’un réseau bayésien. Notre contribution
consiste à étendre la notion classique de pertinence, basée sur la similarité textuelle, par
de nouveaux facteurs tels que l’importance sociale des blogueurs et la magnitude temporelle
des microblogs. Dans ce papier, l’importance sociale d’un blogueur est assimilée à son influence
dans le réseau et est évaluée par un score de PageRank déduit sur le réseau de diffusion
des microblogs. Nous proposons d’estimer la magnitude temporelle selon le nombre de voisins
temporels qui incluent les termes de la requête. Afin de valider notre approche, une évaluation
expérimentale à été menée sur la collection de microblogs de référence TREC Tweets2011. Les
résultats montrent que notre modèle présente un gain de 24% par rapport à la médiane des
résultats officiels de TREC Microblog 2011.
Intégration des facteurs temps et autorité sociale dans un modèle bayésien de recherche de tweets
1. Intégration des facteurs temps et autorité
sociale dans un modèle bayésien de
recherche de tweets
Lamjed Ben Jabeur, Lynda Tamine et Mohand Boughanem
IRIT, Université Paul Sabatier
2. Modèle bayésien de recherche de tweets
Plan
1. Service de microblogage
2. Recherche des tweets
3. Topologie du réseau bayésien
4. Estimation des probabilités conditionnelles
5. Evaluation expérimentale
6. Conclusion et perspectives
2
3. Service de microblogage
Microblog?
“ Un service de microblogage est à la fois un moyen de
communication et un système de collaboration qui permet le
partage et la diffusion des messages textuels. Il permet aux
utilisateurs de communiquer des informations sur leurs statuts,
”
activités, pensées et opinions [Java et al.2009].
• Article de microblog
– Court (140 caractères)
1 milliards Publications par semaine
– Soumis en temps réel 50 millions Publications par jour
– Motivation sociale 177 million Publications en mars 2011
– Appareil mobile +106 millions Utilisateurs
3
4. Service de microblogage
Tweet, retweet et hashtag ?
“
Jack Dorsey 21 Mars 06 1ier Tweet
inviting coworkers #oilspill
“
Stephen Colbert 21 Juin 2010 Golden Tweet Award 2010
In honor of oil-soaked birds, 'tweets' are now 'gurgles. http://bit.ly/cIhZNf
“
Wendy's 8 Juin 2011 Golden Tweet Award 2011
RT for a good cause. Each Retweet sends 50¢ to help kids in foster care. #TreatItFwd
“
CORIA11 16 mars 2010
CORIA 2011 : Université d'Avignon #CORIA11 http://yfrog.com/h3y
““
MohBoughanem 17 Mars 2010
MohBoughanem CORIA11 17 Mars
@coria2011 bien visualisé, vite trouvé2010
@coria2011 bien visualisé, vite trouvé 4
6. Recherche des tweets
RI dans les microblogs
• Utilisateur submergé par l’énorme quantité des tweets
– Flux soutenu des publications
– Enorme quantité de données
– Diverses sources d’information
Difficulté d'accès aux publications intéressantes
• Les tâches de la RI dans les microblogs
– Recherche de personnes et suggestion des abonnements
– Extraction des tendances
– La recherche d’opinions
– La recherche de tweets
6
7. Recherche des tweets
Recherche de tweets
“ tâche de recherche en temps réel où l'utilisateur souhaite accéder
à l'information la plus récente, mais aussi la plus pertinente à
une requête (Ounis et al., 2011).
”
“ Recherche ad-hoc où le besoin en information est représenté par
une requête à un moment spécifique (Ounis et al., 2011).
”
• Objectifs et utilité
– Obtenir une information crédible et précise
– Accéder aux dernières actualités en temps réel
– Suivre un évènement à distance
– Collecter divers points de vue
7
8. Recherche des tweets
Synthèse des travaux
1. Contexte spatio-temporel
TwitterStand (Sankaranarayanan J. et al, 2009) TweetSieve (Grinev M et al, 2009)
2. Caractéristiques des microblogs
– Abonnements, tweets, retweets, réponses, hashtags, URLs
– Combinaison linéaire (Nagmoti et al., 2010)
– Apprentissage de fonctions d'ordonnancement (Duan Y et
al., 2010)
8
9. Recherche des tweets
Synthèse des travaux
3. La structure du réseau social
– Indegree, Retweet et Mention influence (Cha et al.,
2010).,TweetRank, FollowerRank (Nagmoti et al., 2010).
– Autorité (Kwak et al., 2010)
– Influence (Kwak et al., 2010), TwitterRank (Weng et al., 2010),
Popularité (Duan et al.,2010)
9
10. Recherche des tweets
Contributions
Thématique
• Facteurs de pertinence
– Occurrence des termes
– Magnitude temporelle
– Influence sociale
Temporelle Sociale
• Réseau Bayésien de croyance
(Silva et al., 2000)
10
11. Topologie du réseau bayésien
Requête, termes, configurations
• Nœud requête q 0,1
– événements q q
: ,
• Termes
– l’univers de discours : U k1 , k2 ,..., kn
– variable aléatoire : ki ,1
0
– évènements: ki , ki
– configuration des termes k
exemple : k1 , k 2
k k1 , k2 ), (k1 , k2 ), (k1 , k2 ), (k1 , k2 )
(
11
12. Topologie du réseau bayésien
Tweets
• Nœud tweet t j
– variable aléatoire : t j 0,1
– événements: ti , ti
• Nœuds associés au tweet t j
– évidence thématique : t kj
– évidence temporelle : t oj
– évidence sociale : t sj
12
13. Topologie du réseau bayésien
Périodes, blogueurs
• Nœud Période oe
– variable aléatoire : oe 0,1
– évènements : oe , oe
oe temps (t )
t t
o o
e
2 e
2
• Nœud Blogueur u f
– Variable aléatoire : u f 0,1
– Evénements : u f , u f
13
20. Estimation des probabilités conditionnelles
Période
P(t j | q) P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
k
P(toj | k ) P(toj | oe ) P(oe | k )
tweets
df ki ,oe
30
20
ki ,on( ki , k ) 1
P(oe | k )
df ki
k1
10
t2
ki ,on( ki , k ) 1 0
1 termes
2 3 4 5
temps
20
21. Estimation des probabilités conditionnelles
Tweet (évidence sociale)
P(t j | q) P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
k
P(tsj | k ) P(tsj | u f ) P(u f | k ) P(tsj | u f ) P(u f | k )
1
P(t sj | u f )
(u f )
21
22. Estimation de la pertinence
Blogueur
P(t j | q) P(q | k ) P(t kj | k )P(toj | k ) P(t sj | k ) P(k )
k
P(t sj | k ) P(t sj | u f ) P(u f | k )
P(u f | k) P(u f ) Inf (u f )
U3
Calcule de PageRank sur le réseau de retweet
u1
1 Inf Gk 1 (ui )
Inf (ui ) d
G
k
(1 d ) w j ,i u2
U u j ,e ( u j ,ui )E O(u j )
u4
(u j ) (u j )
w j ,i
(u j )
22
23. Évaluation expérimentale
TREC Microblog 2011
• Collection de tweets
Tweets 16 141 812 Blogueurs 5 356 432
Retweets 1 128 179 Relations des retweets 1 060 551
Tweet 1 860 112 Réseau social des retweets: nœuds 5 495 081
Termes 7 781 775 Réseau social des retweets: arcs 1 024 914
Hashtags 455 179 Composante géante 11.12%
Fréquence des termes Hashtags Longueur (termes)
1.5E8 1.5E 7 1.5E 6
0 5 10 0 5 10 0 20
23
Distributions des fréquences, des hashtags et des longueurs des tweets
24. Évaluation expérimentale
TREC Microblog 2011
• Tâche de «Recherche en temps réel » (49 requêtes)
– Tweets les plus récents.
– Tweets postérieurs à la date de la requête.
– Tweets triés par ordre chronologique inverse.
– Tweets édités; Tweets en anglais.
• Classement des systèmes (184 systèmes )
– Type de collection (HTML ou JSON).
– Données externes (Web, blogs…etc.).
– Information antérieur à la date de la requête.
• Mesures d’évaluation
– p@30 (officielle)
– MAP
– ALL Rel, High Rel
24
25. Évaluation expérimentale
Indexation et Filtrage
• Plateforme NESTOR
– Recherche en temps réel
– Détection des mentions, des hashtags et des retweets en
forme déclarative « RT @user »
– Indentification des langues et tokenisation multilingue
– Extraction et analyse des réseaux sociaux
– etc.
• Filtrage des tweets
– Supprimer les tweets dans une langue autre que l’anglais
– Supprimer les retweets et les tweets de conversation
– Supprimer les tweets au-delà de la 30ème position
25
26. Évaluation expérimentale
Modèles de référence
BNTS Notre modèle bayésien de croyance pour le recherche des tweets
BNTS-K Modèle BNTS, composantes temporelle et sociale désactivées
BNTS.KO Modèle BNTS, composante sociale désactivée
BNTS.KS Modèle BNTS, composante temporelle désactivée
Nestor * Notre modèle bayésien fondé sur un réseau d’inférence (Jabeur et al.,2012)
isiFDL * Modèle MRF avec apprentissage d’ordonnancements, 1er système dans le
classement de TREC Microblog 2011 (Metzler et al., 2011)
DFReeKLIM30 * Modèle basé sur la divergence de Kullback-Leibler, 2ème système dans le
classement de TREC Microblog 2011 (Amati et al., 2011)
Disjunctive * Modèle thématique disjonctif basé sur le système de RI Lucene
BM25 Modèle thématique d’Okapi BM25
Seuil à 30 tweets; Seuil automatique; Aucun Seuil ; * Résulats officiels
26
27. Évaluation expérimentale
Paramétrage du modèle
• Importance des fréquences des termes (BNTS.K)
p @ 30
1 tf ki ,t j
0,35
P(t kj | k )
0,3 k ki k t j tf ki ,t j
0,25
0,2
0,15
0,1
0,05
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
27
31. Modèle de recherche de tweets
Conclusion et perspectives
• Modèle de recherche de tweets
– Évidence thématique
– Évidence sociale
– Évidence temporelle
• Intégration des facteurs de pertinence dans un réseau
bayésien de croyance
• Gain de 24% par rapport à la médiane TREC‘11
• Perspectives
– Détecter automatiquement la taille de la fenêtre temporelle
– Adapter la combinaison des différentes sources d’évidence
selon la nature de la requête
31