SlideShare una empresa de Scribd logo
1 de 39
Descargar para leer sin conexión
Graphes, multi-graphes et recherche
d’information
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
& Taoufiq Dkaki (IRIT-UTM)
IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Journées FREMIT 2010
Toulouse, 20/21 septembre 2010
1 / 16
Nathalie Villa-Vialaneix
1 Introduction : RI et graphes
2 Approche graphes simples
3 Approche multigraphes
2 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Contexte et but de la recherche
d’information
On dispose d’un grand nombre de documents
3 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Contexte et but de la recherche
d’information
On dispose d’un grand nombre de documents et on recherche
ceux qui sont pertinents pour une requête donnée
Organisation journées FREMIT
???
−−−→
3 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Modèle
Documents
Requête
4 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Requête → Représentation de la requête
4 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Comparaison
(similarité...)
Requête → Représentation de la requête
4 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Modèle
Documents → Représentation des docs
(liste de mots, type, ...)
Comparaison
(similarité...)
Requête → Représentation de la requête
Représentation des documents/requêtes (peu abordé : utilisation
de l’existant) ;
“Comparaison” de la requête aux documents (abordé) ;
Évaluation du système sur des bases de données publiques
(abordé).
4 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (description des Documents par leurs Termes) ;
5 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relations
Documents/Documents.
5 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relations
Documents/Documents.
⇒ Utilisation des graphes pour modéliser des données
relationnelles. Exemple : Modélisation par un graphe biparti
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m 5 / 16
Nathalie Villa-Vialaneix
Introduction : RI et graphes
Approches utilisées
Approche basique : prise en compte uniquement des attributs de
surface (description des Documents par leurs Termes) ;
Approche PageRank : prise en compte (aussi) des relations
Documents/Documents.
⇒ Utilisation des graphes pour modéliser des données
relationnelles. Exemple : Modélisation par un graphe pondéré
5 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Principe de base
Documents
Matrices
Requête Indexation Documents/Documents → graphe
Documents/Termes...
Termes
6 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Principe de base
Documents
Matrices
Requête Indexation Documents/Documents → graphe
Documents/Termes...
Termes
Puis : calcul d’une similarité/dissimilarité entre sommets du
graphe ⇒ ordonnancement des documents par similarité avec la
requête.
6 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Exemple de similarité
φ
−→
Plongement des sommets dans un espace de Hilbert par le biais
d’un noyau:
K(xi, xj) = φ(xi), φ(xj) .
7 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and
di = n
j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
8 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Quel noyau pour les graphes ?
Des noyaux basés sur le Laplacien
Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs
(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and
di = n
j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où
Li,j =
−wi,j if i j
di if i = j
;
À partir du Laplacien, on définit le noyau de la chaleur :
K(xi, xj) = e−βL
ij
( quantité d’énergie accumulée en xj à partir
de xi).
8 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une “distance” entre sommets (notamment entre
documents et entre une requête et un document).
9 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une “distance” entre sommets (notamment entre
documents et entre une requête et un document).
La règle de réponse à la requête est alors :
1 Déterminer K(r, xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité)
9 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Distance entre documents
Les noyaux usuels de graphes sont de bons candidats pour
construire une “distance” entre sommets (notamment entre
documents et entre une requête et un document).
La règle de réponse à la requête est alors :
1 Déterminer K(r, xi) pour r la requête est xi les documents
2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité)
Problème : Les graphes bipartis considérés dans ces problèmes
ont plusieurs milliers de sommets... Nécessité d’un filtre
préalable pour diminuer la taille du graphe.
9 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de documents évaluée par des experts (humains) pour
diverses requêtes)
10 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de documents évaluée par des experts (humains) pour
diverses requêtes)
Similarité basée sur le graphe des correspondances
10 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de documents évaluée par des experts (humains) pour
diverses requêtes)
Similarité basée sur le graphe biparti
10 / 16
Nathalie Villa-Vialaneix
Approche graphes simples
Validation de l’approche
Utilisation d’une collection de tests publics (ici CRAN ;
pertinence de documents évaluée par des experts (humains) pour
diverses requêtes)
Conclusion : Ne semble pas très pertinent pour ce type de
graphes...
10 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Relations entre Documents : nombre de mots communs (arrête
pondérée), précède/suit (oui/non)...
11 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Informations sur les Documents : type de document (qualitatif)...
11 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Des graphes aux multigraphes
Modèle relationnel plus complet du problème :
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Relations entre Mots : synonyme, généralise (oui/non)...
etc...
11 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Combiner les informations
un type d’information → un noyau Ki
12 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Combiner les informations
un type d’information → un noyau Ki
Comment combiner K1, . . . , Kp ?
12 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Combiner les informations
un type d’information → un noyau Ki
Comment combiner K1, . . . , Kp ?
Proposition : Utilisation d’un noyau
K =
p
i=1
αiKi
et optimisation des αi.
12 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Approche supervisée
Hypothèse : On sait si certains Documents/Mots sont pertinents
pour la requête
13 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Approche supervisée
Hypothèse : On sait si certains Documents/Mots sont pertinents
pour la requête
Document 1
Document 2
Document n
...
Requête
Mot 1
Mot 2
Mot 3
Mot 4
Mot m
Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent :
Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Mot
m.
13 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) à
partir du noyau K par un SVM :
min
w,b,ξ
wT
w + C
i
ξi
tel que : yi wT
φ(xi) + b ≥ 1 − ξi et ξi ≥ 0 pour tout i = 1, . . . , n où
xi sont les sommets du graphe dont la pertinence est connue (n
sommets) ;
φ est le plongement associé au noyau K : φ(xi), φ(xj) = K(xi, xj) (φ
non explicite grâce à l’“astuce noyau”) ;
Solution par programmation quadratique.
14 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Méthodologie
Apprentissage de la règle de décision (pertinent/non pertinent) à
partir du noyau K par un SVM
Prédiction (pertinent: 1/non pertinent: −1) pour un sommet non
connu xnew :
P(xnew) = Sign


n
i=1
βiK(xi, xnew) + b


pour w = n
i=1 βiK(xi, xnew).
14 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Comment optimiser K = p
j=1
αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée par
une fonction de la solution optimale du problème quadratique
précédent (pour Tr(K) fixée).
15 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Comment optimiser K = p
j=1
αjKj ?
[Lanckriet et al., 2004] : La qualité de prédiction est bornée par
une fonction de la solution optimale du problème quadratique
précédent (pour Tr(K) fixée).
⇒ Minimisation en αj de la solution (SDP) noyau optimisé et
règle de décision.
15 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Conclusion et perspectives
Avantage/inconvénient de l’approche
1 La requête fait partie du modèle : approche peu utilisable
“online” ;
2 Par contre, approche adaptée pour du relevance feedback.
16 / 16
Nathalie Villa-Vialaneix
Approche multigraphes
Conclusion et perspectives
Avantage/inconvénient de l’approche
1 La requête fait partie du modèle : approche peu utilisable
“online” ;
2 Par contre, approche adaptée pour du relevance feedback.
Perspectives
1 Création d’un dépôt pour des jeux de test avec génération de
multigraphes à la volée (format graphML) : en cours (manquent
une inclusion facile des relations termes/termes et des
fonctionnalités sur les sorties graphML).
2 Étude des problèmes de passage à la grande échelle de
l’algorithme précédent (vers une utilisation “online”) et choix de
noyaux appropriés aux diverses informations.
3 Tests...
16 / 16
Nathalie Villa-Vialaneix
Quelques références
Lanckriet, G., Cristianini, N., Bartlett, P., El Ghaoui, L., and Jordan, M. (2004).
Learning the kernel matrix with semidefinite programming.
Journal of Machine Learning Research, 5:27–72.
Merci de votre attention...
16 / 16
Nathalie Villa-Vialaneix

Más contenido relacionado

Similar a Graphes, multi-graphes et recherche d’information

Fouille de données sur des graphes : Introduction
Fouille de données sur des graphes : IntroductionFouille de données sur des graphes : Introduction
Fouille de données sur des graphes : Introductiontuxette
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et SociétéAmar LAKEL, PhD
 
Carte de Kohonen par noyau et application a la classification de sommets de g...
Carte de Kohonen par noyau et application a la classification de sommets de g...Carte de Kohonen par noyau et application a la classification de sommets de g...
Carte de Kohonen par noyau et application a la classification de sommets de g...tuxette
 
Projet TOXIN : Des graphes de connaissances pour la recherche en toxicologie
Projet TOXIN : Des graphes de connaissances pour la recherche en toxicologieProjet TOXIN : Des graphes de connaissances pour la recherche en toxicologie
Projet TOXIN : Des graphes de connaissances pour la recherche en toxicologieChristophe Debruyne
 
Fouille de données pour de grands graphes. Recherche de communautés et organi...
Fouille de données pour de grands graphes. Recherche de communautés et organi...Fouille de données pour de grands graphes. Recherche de communautés et organi...
Fouille de données pour de grands graphes. Recherche de communautés et organi...tuxette
 
Introduction à l’étude des grands graphes
Introduction à l’étude des grands graphesIntroduction à l’étude des grands graphes
Introduction à l’étude des grands graphestuxette
 
Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...tuxette
 

Similar a Graphes, multi-graphes et recherche d’information (7)

Fouille de données sur des graphes : Introduction
Fouille de données sur des graphes : IntroductionFouille de données sur des graphes : Introduction
Fouille de données sur des graphes : Introduction
 
L1 TD Numérique et Société
L1 TD Numérique et SociétéL1 TD Numérique et Société
L1 TD Numérique et Société
 
Carte de Kohonen par noyau et application a la classification de sommets de g...
Carte de Kohonen par noyau et application a la classification de sommets de g...Carte de Kohonen par noyau et application a la classification de sommets de g...
Carte de Kohonen par noyau et application a la classification de sommets de g...
 
Projet TOXIN : Des graphes de connaissances pour la recherche en toxicologie
Projet TOXIN : Des graphes de connaissances pour la recherche en toxicologieProjet TOXIN : Des graphes de connaissances pour la recherche en toxicologie
Projet TOXIN : Des graphes de connaissances pour la recherche en toxicologie
 
Fouille de données pour de grands graphes. Recherche de communautés et organi...
Fouille de données pour de grands graphes. Recherche de communautés et organi...Fouille de données pour de grands graphes. Recherche de communautés et organi...
Fouille de données pour de grands graphes. Recherche de communautés et organi...
 
Introduction à l’étude des grands graphes
Introduction à l’étude des grands graphesIntroduction à l’étude des grands graphes
Introduction à l’étude des grands graphes
 
Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...
 

Más de tuxette

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathstuxette
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquestuxette
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-Ctuxette
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?tuxette
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquestuxette
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeantuxette
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation datatuxette
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?tuxette
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysistuxette
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricestuxette
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelstuxette
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random foresttuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 

Más de tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatrices
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Graphes, multi-graphes et recherche d’information

  • 1. Graphes, multi-graphes et recherche d’information Nathalie Villa-Vialaneix http://www.nathalievilla.org & Taoufiq Dkaki (IRIT-UTM) IUT de Carcassonne (UPVD) & Institut de Mathématiques de Toulouse Journées FREMIT 2010 Toulouse, 20/21 septembre 2010 1 / 16 Nathalie Villa-Vialaneix
  • 2. 1 Introduction : RI et graphes 2 Approche graphes simples 3 Approche multigraphes 2 / 16 Nathalie Villa-Vialaneix
  • 3. Introduction : RI et graphes Contexte et but de la recherche d’information On dispose d’un grand nombre de documents 3 / 16 Nathalie Villa-Vialaneix
  • 4. Introduction : RI et graphes Contexte et but de la recherche d’information On dispose d’un grand nombre de documents et on recherche ceux qui sont pertinents pour une requête donnée Organisation journées FREMIT ??? −−−→ 3 / 16 Nathalie Villa-Vialaneix
  • 5. Introduction : RI et graphes Modèle Documents Requête 4 / 16 Nathalie Villa-Vialaneix
  • 6. Introduction : RI et graphes Modèle Documents → Représentation des docs (liste de mots, type, ...) Requête → Représentation de la requête 4 / 16 Nathalie Villa-Vialaneix
  • 7. Introduction : RI et graphes Modèle Documents → Représentation des docs (liste de mots, type, ...) Comparaison (similarité...) Requête → Représentation de la requête 4 / 16 Nathalie Villa-Vialaneix
  • 8. Introduction : RI et graphes Modèle Documents → Représentation des docs (liste de mots, type, ...) Comparaison (similarité...) Requête → Représentation de la requête Représentation des documents/requêtes (peu abordé : utilisation de l’existant) ; “Comparaison” de la requête aux documents (abordé) ; Évaluation du système sur des bases de données publiques (abordé). 4 / 16 Nathalie Villa-Vialaneix
  • 9. Introduction : RI et graphes Approches utilisées Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; 5 / 16 Nathalie Villa-Vialaneix
  • 10. Introduction : RI et graphes Approches utilisées Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; Approche PageRank : prise en compte (aussi) des relations Documents/Documents. 5 / 16 Nathalie Villa-Vialaneix
  • 11. Introduction : RI et graphes Approches utilisées Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; Approche PageRank : prise en compte (aussi) des relations Documents/Documents. ⇒ Utilisation des graphes pour modéliser des données relationnelles. Exemple : Modélisation par un graphe biparti Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m 5 / 16 Nathalie Villa-Vialaneix
  • 12. Introduction : RI et graphes Approches utilisées Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; Approche PageRank : prise en compte (aussi) des relations Documents/Documents. ⇒ Utilisation des graphes pour modéliser des données relationnelles. Exemple : Modélisation par un graphe pondéré 5 / 16 Nathalie Villa-Vialaneix
  • 13. Approche graphes simples Principe de base Documents Matrices Requête Indexation Documents/Documents → graphe Documents/Termes... Termes 6 / 16 Nathalie Villa-Vialaneix
  • 14. Approche graphes simples Principe de base Documents Matrices Requête Indexation Documents/Documents → graphe Documents/Termes... Termes Puis : calcul d’une similarité/dissimilarité entre sommets du graphe ⇒ ordonnancement des documents par similarité avec la requête. 6 / 16 Nathalie Villa-Vialaneix
  • 15. Approche graphes simples Exemple de similarité φ −→ Plongement des sommets dans un espace de Hilbert par le biais d’un noyau: K(xi, xj) = φ(xi), φ(xj) . 7 / 16 Nathalie Villa-Vialaneix
  • 16. Approche graphes simples Quel noyau pour les graphes ? Des noyaux basés sur le Laplacien Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs (wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où Li,j = −wi,j if i j di if i = j ; 8 / 16 Nathalie Villa-Vialaneix
  • 17. Approche graphes simples Quel noyau pour les graphes ? Des noyaux basés sur le Laplacien Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs (wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n où Li,j = −wi,j if i j di if i = j ; À partir du Laplacien, on définit le noyau de la chaleur : K(xi, xj) = e−βL ij ( quantité d’énergie accumulée en xj à partir de xi). 8 / 16 Nathalie Villa-Vialaneix
  • 18. Approche graphes simples Distance entre documents Les noyaux usuels de graphes sont de bons candidats pour construire une “distance” entre sommets (notamment entre documents et entre une requête et un document). 9 / 16 Nathalie Villa-Vialaneix
  • 19. Approche graphes simples Distance entre documents Les noyaux usuels de graphes sont de bons candidats pour construire une “distance” entre sommets (notamment entre documents et entre une requête et un document). La règle de réponse à la requête est alors : 1 Déterminer K(r, xi) pour r la requête est xi les documents 2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité) 9 / 16 Nathalie Villa-Vialaneix
  • 20. Approche graphes simples Distance entre documents Les noyaux usuels de graphes sont de bons candidats pour construire une “distance” entre sommets (notamment entre documents et entre une requête et un document). La règle de réponse à la requête est alors : 1 Déterminer K(r, xi) pour r la requête est xi les documents 2 Retenir les k documents maximisant K(r, xk ) (mesure de simularité) Problème : Les graphes bipartis considérés dans ces problèmes ont plusieurs milliers de sommets... Nécessité d’un filtre préalable pour diminuer la taille du graphe. 9 / 16 Nathalie Villa-Vialaneix
  • 21. Approche graphes simples Validation de l’approche Utilisation d’une collection de tests publics (ici CRAN ; pertinence de documents évaluée par des experts (humains) pour diverses requêtes) 10 / 16 Nathalie Villa-Vialaneix
  • 22. Approche graphes simples Validation de l’approche Utilisation d’une collection de tests publics (ici CRAN ; pertinence de documents évaluée par des experts (humains) pour diverses requêtes) Similarité basée sur le graphe des correspondances 10 / 16 Nathalie Villa-Vialaneix
  • 23. Approche graphes simples Validation de l’approche Utilisation d’une collection de tests publics (ici CRAN ; pertinence de documents évaluée par des experts (humains) pour diverses requêtes) Similarité basée sur le graphe biparti 10 / 16 Nathalie Villa-Vialaneix
  • 24. Approche graphes simples Validation de l’approche Utilisation d’une collection de tests publics (ici CRAN ; pertinence de documents évaluée par des experts (humains) pour diverses requêtes) Conclusion : Ne semble pas très pertinent pour ce type de graphes... 10 / 16 Nathalie Villa-Vialaneix
  • 25. Approche multigraphes Des graphes aux multigraphes Modèle relationnel plus complet du problème : Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m Relations entre Documents : nombre de mots communs (arrête pondérée), précède/suit (oui/non)... 11 / 16 Nathalie Villa-Vialaneix
  • 26. Approche multigraphes Des graphes aux multigraphes Modèle relationnel plus complet du problème : Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m Informations sur les Documents : type de document (qualitatif)... 11 / 16 Nathalie Villa-Vialaneix
  • 27. Approche multigraphes Des graphes aux multigraphes Modèle relationnel plus complet du problème : Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m Relations entre Mots : synonyme, généralise (oui/non)... etc... 11 / 16 Nathalie Villa-Vialaneix
  • 28. Approche multigraphes Combiner les informations un type d’information → un noyau Ki 12 / 16 Nathalie Villa-Vialaneix
  • 29. Approche multigraphes Combiner les informations un type d’information → un noyau Ki Comment combiner K1, . . . , Kp ? 12 / 16 Nathalie Villa-Vialaneix
  • 30. Approche multigraphes Combiner les informations un type d’information → un noyau Ki Comment combiner K1, . . . , Kp ? Proposition : Utilisation d’un noyau K = p i=1 αiKi et optimisation des αi. 12 / 16 Nathalie Villa-Vialaneix
  • 31. Approche multigraphes Approche supervisée Hypothèse : On sait si certains Documents/Mots sont pertinents pour la requête 13 / 16 Nathalie Villa-Vialaneix
  • 32. Approche multigraphes Approche supervisée Hypothèse : On sait si certains Documents/Mots sont pertinents pour la requête Document 1 Document 2 Document n ... Requête Mot 1 Mot 2 Mot 3 Mot 4 Mot m Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent : Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Mot m. 13 / 16 Nathalie Villa-Vialaneix
  • 33. Approche multigraphes Méthodologie Apprentissage de la règle de décision (pertinent/non pertinent) à partir du noyau K par un SVM : min w,b,ξ wT w + C i ξi tel que : yi wT φ(xi) + b ≥ 1 − ξi et ξi ≥ 0 pour tout i = 1, . . . , n où xi sont les sommets du graphe dont la pertinence est connue (n sommets) ; φ est le plongement associé au noyau K : φ(xi), φ(xj) = K(xi, xj) (φ non explicite grâce à l’“astuce noyau”) ; Solution par programmation quadratique. 14 / 16 Nathalie Villa-Vialaneix
  • 34. Approche multigraphes Méthodologie Apprentissage de la règle de décision (pertinent/non pertinent) à partir du noyau K par un SVM Prédiction (pertinent: 1/non pertinent: −1) pour un sommet non connu xnew : P(xnew) = Sign   n i=1 βiK(xi, xnew) + b   pour w = n i=1 βiK(xi, xnew). 14 / 16 Nathalie Villa-Vialaneix
  • 35. Approche multigraphes Comment optimiser K = p j=1 αjKj ? [Lanckriet et al., 2004] : La qualité de prédiction est bornée par une fonction de la solution optimale du problème quadratique précédent (pour Tr(K) fixée). 15 / 16 Nathalie Villa-Vialaneix
  • 36. Approche multigraphes Comment optimiser K = p j=1 αjKj ? [Lanckriet et al., 2004] : La qualité de prédiction est bornée par une fonction de la solution optimale du problème quadratique précédent (pour Tr(K) fixée). ⇒ Minimisation en αj de la solution (SDP) noyau optimisé et règle de décision. 15 / 16 Nathalie Villa-Vialaneix
  • 37. Approche multigraphes Conclusion et perspectives Avantage/inconvénient de l’approche 1 La requête fait partie du modèle : approche peu utilisable “online” ; 2 Par contre, approche adaptée pour du relevance feedback. 16 / 16 Nathalie Villa-Vialaneix
  • 38. Approche multigraphes Conclusion et perspectives Avantage/inconvénient de l’approche 1 La requête fait partie du modèle : approche peu utilisable “online” ; 2 Par contre, approche adaptée pour du relevance feedback. Perspectives 1 Création d’un dépôt pour des jeux de test avec génération de multigraphes à la volée (format graphML) : en cours (manquent une inclusion facile des relations termes/termes et des fonctionnalités sur les sorties graphML). 2 Étude des problèmes de passage à la grande échelle de l’algorithme précédent (vers une utilisation “online”) et choix de noyaux appropriés aux diverses informations. 3 Tests... 16 / 16 Nathalie Villa-Vialaneix
  • 39. Quelques références Lanckriet, G., Cristianini, N., Bartlett, P., El Ghaoui, L., and Jordan, M. (2004). Learning the kernel matrix with semidefinite programming. Journal of Machine Learning Research, 5:27–72. Merci de votre attention... 16 / 16 Nathalie Villa-Vialaneix