1. Graphes, multi-graphes et recherche
d’information
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
& Taoufiq Dkaki (IRIT-UTM)
IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Journées FREMIT 2010
Toulouse, 20/21 septembre 2010
1 / 16
Nathalie Villa-Vialaneix
2. 1 Introduction : RI et graphes
2 Approche graphes simples
3 Approche multigraphes
2 / 16
Nathalie Villa-Vialaneix
3. Introduction : RI et graphes
Contexte et but de la recherche
d’information
On dispose d’un grand nombre de documents
3 / 16
Nathalie Villa-Vialaneix
4. Introduction : RI et graphes
Contexte et but de la recherche
d’information
On dispose d’un grand nombre de documents et on recherche
ceux qui sont pertinents pour une requête donnée
Organisation journées FREMIT
???
−−−→
3 / 16
Nathalie Villa-Vialaneix
5. Introduction : RI et graphes
Modèle
Documents
Requête
4 / 16
Nathalie Villa-Vialaneix
6. Introduction : RI et graphes
Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Requête → Représentation de la requête
4 / 16
Nathalie Villa-Vialaneix
7. Introduction : RI et graphes
Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Comparaison
(similarité...)
Requête → Représentation de la requête
4 / 16
Nathalie Villa-Vialaneix
8. Introduction : RI et graphes
Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Comparaison
(similarité...)
Requête → Représentation de la requête
Représentation des documents/requêtes (peu abordé : utilisation
de l’existant) ;
“Comparaison” de la requête aux documents (abordé) ;
Évaluation du système sur des bases de données publiques
(abordé).
4 / 16
Nathalie Villa-Vialaneix
9. Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (description des Documents par leurs Termes) ;
5 / 16
Nathalie Villa-Vialaneix
10. Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relations
Documents/Documents.
5 / 16
Nathalie Villa-Vialaneix
11. Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relations
Documents/Documents.
⇒ Utilisation des graphes pour modéliser des données
relationnelles. Exemple : Modélisation par un graphe biparti
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m 5 / 16
Nathalie Villa-Vialaneix
12. Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relations
Documents/Documents.
⇒ Utilisation des graphes pour modéliser des données
relationnelles. Exemple : Modélisation par un graphe pondéré
5 / 16
Nathalie Villa-Vialaneix
14. Approche graphes simples
Principe de base
Documents
Matrices
Requête Indexation Documents/Documents → graphe
Documents/Termes...
Termes
Puis : calcul d’une similarité/dissimilarité entre sommets du
graphe ⇒ ordonnancement des documents par similarité avec la
requête.
6 / 16
Nathalie Villa-Vialaneix
15. Approche graphes simples
Exemple de similarité
φ
−→
Plongement des sommets dans un espace de Hilbert par le biais
d’un noyau:
K(xi, xj) = φ(xi), φ(xj) .
7 / 16
Nathalie Villa-Vialaneix
16. Approche graphes simples
Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and
di = n
j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
8 / 16
Nathalie Villa-Vialaneix
17. Approche graphes simples
Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and
di = n
j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
À partir du Laplacien, on définit le noyau de la chaleur :
K(xi, xj) = e−βL
ij
( quantité d’énergie accumulée en xj à partir
de xi).
8 / 16
Nathalie Villa-Vialaneix
18. Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une “distance” entre sommets (notamment entre
documents et entre une requête et un document).
9 / 16
Nathalie Villa-Vialaneix
19. Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une “distance” entre sommets (notamment entre
documents et entre une requête et un document).
La règle de réponse à la requête est alors :
1 Déterminer K(r, xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité)
9 / 16
Nathalie Villa-Vialaneix
20. Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une “distance” entre sommets (notamment entre
documents et entre une requête et un document).
La règle de réponse à la requête est alors :
1 Déterminer K(r, xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité)
Problème : Les graphes bipartis considérés dans ces problèmes
ont plusieurs milliers de sommets... Nécessité d’un filtre
préalable pour diminuer la taille du graphe.
9 / 16
Nathalie Villa-Vialaneix
21. Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de documents évaluée par des experts (humains) pour
diverses requêtes)
10 / 16
Nathalie Villa-Vialaneix
22. Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de documents évaluée par des experts (humains) pour
diverses requêtes)
Similarité basée sur le graphe des correspondances
10 / 16
Nathalie Villa-Vialaneix
23. Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de documents évaluée par des experts (humains) pour
diverses requêtes)
Similarité basée sur le graphe biparti
10 / 16
Nathalie Villa-Vialaneix
24. Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de documents évaluée par des experts (humains) pour
diverses requêtes)
Conclusion : Ne semble pas très pertinent pour ce type de
graphes...
10 / 16
Nathalie Villa-Vialaneix
25. Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Relations entre Documents : nombre de mots communs (arrête
pondérée), précède/suit (oui/non)...
11 / 16
Nathalie Villa-Vialaneix
26. Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Informations sur les Documents : type de document (qualitatif)...
11 / 16
Nathalie Villa-Vialaneix
27. Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Relations entre Mots : synonyme, généralise (oui/non)...
etc...
11 / 16
Nathalie Villa-Vialaneix
29. Approche multigraphes
Combiner les informations
un type d’information → un noyau Ki
Comment combiner K1, . . . , Kp ?
12 / 16
Nathalie Villa-Vialaneix
30. Approche multigraphes
Combiner les informations
un type d’information → un noyau Ki
Comment combiner K1, . . . , Kp ?
Proposition : Utilisation d’un noyau
K =
p
i=1
αiKi
et optimisation des αi.
12 / 16
Nathalie Villa-Vialaneix
32. Approche multigraphes
Approche supervisée
Hypothèse : On sait si certains Documents/Mots sont pertinents
pour la requête
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent :
Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Mot
m.
13 / 16
Nathalie Villa-Vialaneix
33. Approche multigraphes
Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) à
partir du noyau K par un SVM :
min
w,b,ξ
wT
w + C
i
ξi
tel que : yi wT
φ(xi) + b ≥ 1 − ξi et ξi ≥ 0 pour tout i = 1, . . . , n où
xi sont les sommets du graphe dont la pertinence est connue (n
sommets) ;
φ est le plongement associé au noyau K : φ(xi), φ(xj) = K(xi, xj) (φ
non explicite grâce à l’“astuce noyau”) ;
Solution par programmation quadratique.
14 / 16
Nathalie Villa-Vialaneix
34. Approche multigraphes
Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) à
partir du noyau K par un SVM
Prédiction (pertinent: 1/non pertinent: −1) pour un sommet non
connu xnew :
P(xnew) = Sign
n
i=1
βiK(xi, xnew) + b
pour w = n
i=1 βiK(xi, xnew).
14 / 16
Nathalie Villa-Vialaneix
35. Approche multigraphes
Comment optimiser K = p
j=1
αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée par
une fonction de la solution optimale du problème quadratique
précédent (pour Tr(K) fixée).
15 / 16
Nathalie Villa-Vialaneix
36. Approche multigraphes
Comment optimiser K = p
j=1
αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée par
une fonction de la solution optimale du problème quadratique
précédent (pour Tr(K) fixée).
⇒ Minimisation en αj de la solution (SDP) noyau optimisé et
règle de décision.
15 / 16
Nathalie Villa-Vialaneix
37. Approche multigraphes
Conclusion et perspectives
Avantage/inconvénient de l’approche
1 La requête fait partie du modèle : approche peu utilisable
“online” ;
2 Par contre, approche adaptée pour du relevance feedback.
16 / 16
Nathalie Villa-Vialaneix
38. Approche multigraphes
Conclusion et perspectives
Avantage/inconvénient de l’approche
1 La requête fait partie du modèle : approche peu utilisable
“online” ;
2 Par contre, approche adaptée pour du relevance feedback.
Perspectives
1 Création d’un dépôt pour des jeux de test avec génération de
multigraphes à la volée (format graphML) : en cours (manquent
une inclusion facile des relations termes/termes et des
fonctionnalités sur les sorties graphML).
2 Étude des problèmes de passage à la grande échelle de
l’algorithme précédent (vers une utilisation “online”) et choix de
noyaux appropriés aux diverses informations.
3 Tests...
16 / 16
Nathalie Villa-Vialaneix
39. Quelques références
Lanckriet, G., Cristianini, N., Bartlett, P., El Ghaoui, L., and Jordan, M. (2004).
Learning the kernel matrix with semidefinite programming.
Journal of Machine Learning Research, 5:27–72.
Merci de votre attention...
16 / 16
Nathalie Villa-Vialaneix