Graphes, multi-graphes et recherche d’information

Graphes, multi-graphes et recherche
d’information
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
& Taouﬁq Dkaki (IRIT-UTM)
IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Journées FREMIT 2010
Toulouse, 20/21 septembre 2010
1 / 16

1 Introduction : RI et graphes
2 Approche graphes simples
3 Approche multigraphes
2 / 16

Introduction : RI et graphes
Contexte et but de la recherche
d’information
On dispose d’un grand nombre de documents
3 / 16

Contexte et but de la recherche
d’information
On dispose d’un grand nombre de documents et on recherche
ceux qui sont pertinents pour une requête donnée
Organisation journées FREMIT
???
−−−→
3 / 16

Modèle
Documents
Requête
4 / 16

Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Requête → Représentation de la requête
4 / 16

Modèle
Comparaison
(similarité...)
4 / 16

Modèle
Comparaison
(similarité...)
Représentation des documents/requêtes (peu abordé : utilisation
de l’existant) ;
“Comparaison” de la requête aux documents (abordé) ;
Évaluation du système sur des bases de données publiques
(abordé).
4 / 16

Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (description des Documents par leurs Termes) ;
5 / 16

Approche PageRank : prise en compte (aussi) des relations
Documents/Documents.
5 / 16

⇒ Utilisation des graphes pour modéliser des données
relationnelles. Exemple : Modélisation par un graphe biparti
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m 5 / 16

⇒ Utilisation des graphes pour modéliser des données
relationnelles. Exemple : Modélisation par un graphe pondéré
5 / 16

Approche graphes simples
Principe de base
Documents
Matrices
Requête Indexation Documents/Documents → graphe
Documents/Termes...
Termes
6 / 16

Principe de base
Documents
Matrices
Requête Indexation Documents/Documents → graphe
Documents/Termes...
Termes
Puis : calcul d’une similarité/dissimilarité entre sommets du
graphe ⇒ ordonnancement des documents par similarité avec la
requête.
6 / 16

Exemple de similarité
φ
−→
Plongement des sommets dans un espace de Hilbert par le biais
d’un noyau:
K(xi, xj) = φ(xi), φ(xj) .
7 / 16

Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and
di = n
j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
8 / 16

Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and
di = n
j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
À partir du Laplacien, on déﬁnit le noyau de la chaleur :
K(xi, xj) = e−βL
ij
( quantité d’énergie accumulée en xj à partir
de xi).
8 / 16

Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une “distance” entre sommets (notamment entre
documents et entre une requête et un document).
9 / 16

La règle de réponse à la requête est alors :
1 Déterminer K(r, xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité)
9 / 16

La règle de réponse à la requête est alors :
1 Déterminer K(r, xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité)
Problème : Les graphes bipartis considérés dans ces problèmes
ont plusieurs milliers de sommets... Nécessité d’un ﬁltre
préalable pour diminuer la taille du graphe.
9 / 16

Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de documents évaluée par des experts (humains) pour
diverses requêtes)
10 / 16

diverses requêtes)
Similarité basée sur le graphe des correspondances
10 / 16

diverses requêtes)
Similarité basée sur le graphe biparti
10 / 16

diverses requêtes)
Conclusion : Ne semble pas très pertinent pour ce type de
graphes...
10 / 16

Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Relations entre Documents : nombre de mots communs (arrête
pondérée), précède/suit (oui/non)...
11 / 16

Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Informations sur les Documents : type de document (qualitatif)...
11 / 16

Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Relations entre Mots : synonyme, généralise (oui/non)...
etc...
11 / 16

Combiner les informations
un type d’information → un noyau Ki
12 / 16

Comment combiner K1, . . . , Kp ?
12 / 16

Comment combiner K1, . . . , Kp ?
Proposition : Utilisation d’un noyau
K =
p
i=1
αiKi
et optimisation des αi.
12 / 16

Approche supervisée
Hypothèse : On sait si certains Documents/Mots sont pertinents
pour la requête
13 / 16

Approche supervisée
Hypothèse : On sait si certains Documents/Mots sont pertinents
pour la requête
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent :
Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Mot
m.
13 / 16

Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) à
partir du noyau K par un SVM :
min
w,b,ξ
wT
w + C
i
ξi
tel que : yi wT
φ(xi) + b ≥ 1 − ξi et ξi ≥ 0 pour tout i = 1, . . . , n où
xi sont les sommets du graphe dont la pertinence est connue (n
sommets) ;
φ est le plongement associé au noyau K : φ(xi), φ(xj) = K(xi, xj) (φ
non explicite grâce à l’“astuce noyau”) ;
Solution par programmation quadratique.
14 / 16

Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) à
partir du noyau K par un SVM
Prédiction (pertinent: 1/non pertinent: −1) pour un sommet non
connu xnew :
P(xnew) = Sign


n
i=1
βiK(xi, xnew) + b


pour w = n
i=1 βiK(xi, xnew).
14 / 16

Comment optimiser K = p
j=1
αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée par
une fonction de la solution optimale du problème quadratique
précédent (pour Tr(K) ﬁxée).
15 / 16

Comment optimiser K = p
j=1
αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée par
une fonction de la solution optimale du problème quadratique
précédent (pour Tr(K) ﬁxée).
⇒ Minimisation en αj de la solution (SDP) noyau optimisé et
règle de décision.
15 / 16

Conclusion et perspectives
Avantage/inconvénient de l’approche
1 La requête fait partie du modèle : approche peu utilisable
“online” ;
2 Par contre, approche adaptée pour du relevance feedback.
16 / 16

Conclusion et perspectives
Avantage/inconvénient de l’approche
1 La requête fait partie du modèle : approche peu utilisable
“online” ;
2 Par contre, approche adaptée pour du relevance feedback.
Perspectives
1 Création d’un dépôt pour des jeux de test avec génération de
multigraphes à la volée (format graphML) : en cours (manquent
une inclusion facile des relations termes/termes et des
fonctionnalités sur les sorties graphML).
2 Étude des problèmes de passage à la grande échelle de
l’algorithme précédent (vers une utilisation “online”) et choix de
noyaux appropriés aux diverses informations.
3 Tests...
16 / 16

Quelques références
Lanckriet, G., Cristianini, N., Bartlett, P., El Ghaoui, L., and Jordan, M. (2004).
Learning the kernel matrix with semideﬁnite programming.
Journal of Machine Learning Research, 5:27–72.
Merci de votre attention...
16 / 16

Graphes, multi-graphes et recherche d’information

Recomendados

Recomendados

Más contenido relacionado

Similar a Graphes, multi-graphes et recherche d’information

Similar a Graphes, multi-graphes et recherche d’information (7)

Más de tuxette

Más de tuxette (20)

Graphes, multi-graphes et recherche d’information