SlideShare una empresa de Scribd logo
1 de 22
A quoi peut servir LDA / LSI dans un
    moteur de recherche ?
    8.3.12




1
Introduction


•   Techniques de modélisation de corpus de documents
    •   LSI : Latent Semantic Indexing
    •   LDA : Latent Dirichlet Allocation


•   Projection des documents dans un espace vectoriel
•   Réduction de dimensions
    •   Approche algébrique
    •   Approche probabiliste


•   Comment se servir de ces modèles en recherche
    d’informations?

•   50 ans de recherche en IR en 30 minutes…
Vector Space Model (année 60-70)


• Représenter un document par un vecteur de mots de très
  grande dimension (Gérald Salton)
Vector Space Model


• Chaque entrée (dimension) du vecteur correspond à un mot
  différent, la valeur de l’entrée est typiquement le nombre
  d’occurrences (mais peut être plus complexe : TF.IDF [1983])

• Le nombre de mot/dimension est typiquement > 1.000.000
   • Suppression des stops words (le, la, les, …)
   • Stemming : supprime la fin des mots
       • Demanderaient, Demandes, Demander… devient « Demand »


• Sur le web, un document peut être un site web, une page web,
  un paragraphe sur une page...

• Comparer des documents == Comparer des vecteurs
Exemple


 Ensemble de documents (Deerwester et al. 1990)
Exemple



  Matrice d’association Mots - Documents

                 c1   c2   c3   c4    c5   m1   m2   m3   m4
Hypothèses


• Hypothèses du modèle vectoriel en « sac de mots »

   • Tous les mots jouent le même rôle : Agrégation (par comptage,
     TFIDF…) sur toutes les occurrences d’un mot

       • L’ordre des mots dans un document n’est pas important


       • L’ordre des documents n’est pas important


• Reste nécessaire pour tous les modèles suivants
Mon premier moteur de recherche


• Ensemble de documents : le web
• Comment trouver le document le plus pertinent pour une
  requête donnée?
   • Une requête est un petit document
   • Calcul la similarité entre la requête et tous les documents
   • Retourne le plus proche


• Qu’est ce que deux documents similaires?
• Qu’est ce que deux vecteurs documents similaires?
Similarité entre deux vecteurs documents




                           Simple, rapide à calculer
                             (vecteurs très creux)




                                             xT y
                           cos(x, y )
                                        || x || || y ||
Latent Semantic Indexing


• Vecteurs de trop grandes dimensions

• Pas de prise en compte de la synonymie / polysémie
   • Regrouper les mots de même sens
   • Modéliser les thèmes d’intérêts


• Réduction de dimension du VSM
   • Introduction de topics latent
   • Groupe ensemble des mots co-occurrents (dans un même document)
   • Diminution du bruit, principalement sur les fréquences faibles
SVD
Selection des topics
Probabilistic Latent Semantic Indexing


• Un model génératif probabiliste
   • Supposons que le texte a été produit par un processus aléatoire dont
     les paramètres sont inconnus
   • Calculer les paramètres qui explique le mieux les datas disponibles
   • Produire un texte avec les même propriétés


• Le modèle probabiliste :
Le modèle pLSI : vue génération


                  d
                                           Pour chaque mot du document d,
                                            Choisir un topic z
                                             conformement à une loi
                                             multinomial conditionné par d
 zd1        zd2         zd3          zd4
                                            Engendrer un mot
                                             conformément à une
                                             multinomial de parametre
 wd1        wd2         wd3          wd4     donné par z


       Modèle Probabilistic Latent
       Semantic Indexing (pLSI)
Apprentissage par méthode EM


 Likelihood




 E-step



 M-step
Exemple
Mesure de pertinence


• Supposons que l’on connaisse un ensemble de « réponses
  correctes » pour une requête donnée. On les appelle des
  réponses pertinentes pour cette requête.

• Précision : pourcentage des documents retournés qui sont
  pertinents

• Rappel : pourcentage de documents retournés sur l’ensemble
  de tous les documents

• F-mesure = 2.Précision.Rappel/(Précision+Rappel)
Efficacité
Le modèle LDA




   z1   z2   z3   z4   z1   z2   z3   z4    z1   z2   z3    z4

   w1   w2   w3   w4   w1   w2   w3   w4    w1   w2   w3    w4


 Pour chaque document,
 Choisir ~Dirichlet( )
 Pour chacun des N mots:
    Choisir un topic zn» Multinomial( )
    Choisir un mot wn conformément à p(wn|zn, ), une
     distribution multinomiale de paramètre correspondant
     au topic zn.
Estimation du modèle


• Plusieurs techniques ont vues le jour simultanément :

   • Inférence variationelle – Blei et al. 2002
   • Méthode Expectation-Propagation – Minka et Lafferty 2002
   • Echantillonneur de Gibbs – Griffiths et Steyvers 2002


• Calcul des paramètres du modèle
   • Matrice des probabilités mots/topics
   • Vecteur de probabilités topics/documents
Expérimentation


 Wikipedia – 3.2 millions de documents – 100k dimensions – 100 topics

 Temps : 11hrs Core Duo 2.5Ghz 4Go / 3h20 sur 4 workers 2ghz Xeons 4Go
Références



• GenSim : module python de calcul du LSI / LDA online distribué
  basé sur Hoffman et al. 2010

• Online Learning for Latent Dirichlet Allocation – Hoffman, Blei,
  Bach 2010
• Latent Dirichlet Allocation – Blei, Ng, Jordan 2003
• Probabilistic Latent Semantic Indexing – Hoffman 1999
• Indexing by Latent Semantic Analysis – Deerwester, Dumais,
  Harshman 1990

Más contenido relacionado

Similar a LDA & LSI : à quoi peuvent-ils servir dans un moteur de recherche

Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationcatherine roussey
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresRobert Viseur
 
Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022François-Xavier Boffy
 
Modèles de données et langages de description ouverts 2021-2022 - 1
Modèles de données et langages de description ouverts   2021-2022 - 1Modèles de données et langages de description ouverts   2021-2022 - 1
Modèles de données et langages de description ouverts 2021-2022 - 1François-Xavier Boffy
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Desconnets Jean-Christophe
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de donnéesAbdoulaye Dieng
 
Les ontologies et les graphes RDF
Les ontologies et les graphes RDFLes ontologies et les graphes RDF
Les ontologies et les graphes RDFRadhouani Mejdi
 
Syntaxe concrète des DSL en IDM [avec Xtext]
Syntaxe concrète des DSL en IDM [avec Xtext]Syntaxe concrète des DSL en IDM [avec Xtext]
Syntaxe concrète des DSL en IDM [avec Xtext]Olivier Le Goaër
 
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETICNoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETICLa FeWeb
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02ABES
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IAhabib200
 
Service sémantique de découverte de données géospatiales
Service sémantique de découverte de données géospatialesService sémantique de découverte de données géospatiales
Service sémantique de découverte de données géospatialesACSG Section Montréal
 
Approche systémique de processus
Approche systémique de processusApproche systémique de processus
Approche systémique de processusPatrick Ostertag
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTCHAKER ALLAOUI
 

Similar a LDA & LSI : à quoi peuvent-ils servir dans un moteur de recherche (20)

Lsi
Lsi Lsi
Lsi
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
Créer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libresCréer un moteur de recherche avec des logiciels libres
Créer un moteur de recherche avec des logiciels libres
 
Skos transformation
Skos transformationSkos transformation
Skos transformation
 
Modèles de données et langages de description ouverts 5 - 2021-2022
Modèles de données et langages de description ouverts   5 - 2021-2022Modèles de données et langages de description ouverts   5 - 2021-2022
Modèles de données et langages de description ouverts 5 - 2021-2022
 
Metadonnees -- une typologie
Metadonnees -- une typologieMetadonnees -- une typologie
Metadonnees -- une typologie
 
Adbs2012 presentation
Adbs2012 presentationAdbs2012 presentation
Adbs2012 presentation
 
Modèles de données et langages de description ouverts 2021-2022 - 1
Modèles de données et langages de description ouverts   2021-2022 - 1Modèles de données et langages de description ouverts   2021-2022 - 1
Modèles de données et langages de description ouverts 2021-2022 - 1
 
Indexation et ri
Indexation et riIndexation et ri
Indexation et ri
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...
 
Introduction aux bases de données
Introduction aux bases de donnéesIntroduction aux bases de données
Introduction aux bases de données
 
Les ontologies et les graphes RDF
Les ontologies et les graphes RDFLes ontologies et les graphes RDF
Les ontologies et les graphes RDF
 
Syntaxe concrète des DSL en IDM [avec Xtext]
Syntaxe concrète des DSL en IDM [avec Xtext]Syntaxe concrète des DSL en IDM [avec Xtext]
Syntaxe concrète des DSL en IDM [avec Xtext]
 
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETICNoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
NoSQL: Quoi, quand et pour qui par Orlando Cassano du CETIC
 
Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02Adbs2012presentation 120527125034-phpapp02
Adbs2012presentation 120527125034-phpapp02
 
le NLP à l'ére de l'IA
le NLP à l'ére de l'IAle NLP à l'ére de l'IA
le NLP à l'ére de l'IA
 
Service sémantique de découverte de données géospatiales
Service sémantique de découverte de données géospatialesService sémantique de découverte de données géospatiales
Service sémantique de découverte de données géospatiales
 
Approche systémique de processus
Approche systémique de processusApproche systémique de processus
Approche systémique de processus
 
8.mcd
8.mcd8.mcd
8.mcd
 
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoTBenchmarking NoSQL DataBase dans le cadre d'un projet IoT
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
 

Más de Philippe YONNET

WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxPhilippe YONNET
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxPhilippe YONNET
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxPhilippe YONNET
 
IA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxIA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxPhilippe YONNET
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperPhilippe YONNET
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Philippe YONNET
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsPhilippe YONNET
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021Philippe YONNET
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEOPhilippe YONNET
 
Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Philippe YONNET
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020Philippe YONNET
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Philippe YONNET
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages ampPhilippe YONNET
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenPhilippe YONNET
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéPhilippe YONNET
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first indexPhilippe YONNET
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?Philippe YONNET
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonPhilippe YONNET
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile PagesPhilippe YONNET
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GooglePhilippe YONNET
 

Más de Philippe YONNET (20)

WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptxWEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
WEBINAR TOPICAL CLUSTERS 9 JUIN 2022.pptx
 
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptxWEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
WEBINAR SEO INTERNATIONAL 5 mai 2022.pptx
 
IMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptxIMPACT DE L'IA SUR LE SEO.pptx
IMPACT DE L'IA SUR LE SEO.pptx
 
IA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptxIA DANS L'ALGORITHME DE GOOGLE.pptx
IA DANS L'ALGORITHME DE GOOGLE.pptx
 
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet NeperNo Code et SEO sont ils compatibles ? Philippe Yonnet Neper
No Code et SEO sont ils compatibles ? Philippe Yonnet Neper
 
Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022Webinar marketplace 9 mars 2022
Webinar marketplace 9 mars 2022
 
Apprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split TestsApprenons à faire des SEO Split Tests
Apprenons à faire des SEO Split Tests
 
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
L'IA dans l'algorithme de Google - Matin neperien 7 juillet 2021
 
Nouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEONouvelles architectures de sites web et SEO
Nouvelles architectures de sites web et SEO
 
Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021Matin neperien : quelles actions lancer en digital en 2021
Matin neperien : quelles actions lancer en digital en 2021
 
Ab testing seo 22 dec 2020
Ab testing seo   22 dec 2020Ab testing seo   22 dec 2020
Ab testing seo 22 dec 2020
 
Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020Core web vitals - Webinar Neper du 3 décembre 2020
Core web vitals - Webinar Neper du 3 décembre 2020
 
Webinar Semrush Neper - quel ROI pour les pages amp
Webinar Semrush Neper - quel ROI pour les pages  ampWebinar Semrush Neper - quel ROI pour les pages  amp
Webinar Semrush Neper - quel ROI pour les pages amp
 
L'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot EvergreenL'impact sur le SEO de Googlebot Evergreen
L'impact sur le SEO de Googlebot Evergreen
 
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échouéLe Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
Le Edge SEO : comment faire du SEO dans le Cloud quand tout le reste a échoué
 
2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index2018 le seo à l heure du mobile first index
2018 le seo à l heure du mobile first index
 
Tuniseo 2017 année charnière pour le SEO ?
Tuniseo  2017 année charnière pour le SEO ?Tuniseo  2017 année charnière pour le SEO ?
Tuniseo 2017 année charnière pour le SEO ?
 
Search Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyonSearch Foresight - Word Embeddings - 2017 avril lyon
Search Foresight - Word Embeddings - 2017 avril lyon
 
Accelerated Mobile Pages
Accelerated Mobile PagesAccelerated Mobile Pages
Accelerated Mobile Pages
 
Les critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon GoogleLes critères de qualité de vos pages web selon Google
Les critères de qualité de vos pages web selon Google
 

LDA & LSI : à quoi peuvent-ils servir dans un moteur de recherche

  • 1. A quoi peut servir LDA / LSI dans un moteur de recherche ? 8.3.12 1
  • 2. Introduction • Techniques de modélisation de corpus de documents • LSI : Latent Semantic Indexing • LDA : Latent Dirichlet Allocation • Projection des documents dans un espace vectoriel • Réduction de dimensions • Approche algébrique • Approche probabiliste • Comment se servir de ces modèles en recherche d’informations? • 50 ans de recherche en IR en 30 minutes…
  • 3. Vector Space Model (année 60-70) • Représenter un document par un vecteur de mots de très grande dimension (Gérald Salton)
  • 4. Vector Space Model • Chaque entrée (dimension) du vecteur correspond à un mot différent, la valeur de l’entrée est typiquement le nombre d’occurrences (mais peut être plus complexe : TF.IDF [1983]) • Le nombre de mot/dimension est typiquement > 1.000.000 • Suppression des stops words (le, la, les, …) • Stemming : supprime la fin des mots • Demanderaient, Demandes, Demander… devient « Demand » • Sur le web, un document peut être un site web, une page web, un paragraphe sur une page... • Comparer des documents == Comparer des vecteurs
  • 5. Exemple Ensemble de documents (Deerwester et al. 1990)
  • 6. Exemple Matrice d’association Mots - Documents c1 c2 c3 c4 c5 m1 m2 m3 m4
  • 7. Hypothèses • Hypothèses du modèle vectoriel en « sac de mots » • Tous les mots jouent le même rôle : Agrégation (par comptage, TFIDF…) sur toutes les occurrences d’un mot • L’ordre des mots dans un document n’est pas important • L’ordre des documents n’est pas important • Reste nécessaire pour tous les modèles suivants
  • 8. Mon premier moteur de recherche • Ensemble de documents : le web • Comment trouver le document le plus pertinent pour une requête donnée? • Une requête est un petit document • Calcul la similarité entre la requête et tous les documents • Retourne le plus proche • Qu’est ce que deux documents similaires? • Qu’est ce que deux vecteurs documents similaires?
  • 9. Similarité entre deux vecteurs documents Simple, rapide à calculer (vecteurs très creux) xT y cos(x, y ) || x || || y ||
  • 10. Latent Semantic Indexing • Vecteurs de trop grandes dimensions • Pas de prise en compte de la synonymie / polysémie • Regrouper les mots de même sens • Modéliser les thèmes d’intérêts • Réduction de dimension du VSM • Introduction de topics latent • Groupe ensemble des mots co-occurrents (dans un même document) • Diminution du bruit, principalement sur les fréquences faibles
  • 11. SVD
  • 13. Probabilistic Latent Semantic Indexing • Un model génératif probabiliste • Supposons que le texte a été produit par un processus aléatoire dont les paramètres sont inconnus • Calculer les paramètres qui explique le mieux les datas disponibles • Produire un texte avec les même propriétés • Le modèle probabiliste :
  • 14. Le modèle pLSI : vue génération d Pour chaque mot du document d,  Choisir un topic z conformement à une loi multinomial conditionné par d zd1 zd2 zd3 zd4  Engendrer un mot conformément à une multinomial de parametre wd1 wd2 wd3 wd4 donné par z Modèle Probabilistic Latent Semantic Indexing (pLSI)
  • 15. Apprentissage par méthode EM  Likelihood  E-step  M-step
  • 17. Mesure de pertinence • Supposons que l’on connaisse un ensemble de « réponses correctes » pour une requête donnée. On les appelle des réponses pertinentes pour cette requête. • Précision : pourcentage des documents retournés qui sont pertinents • Rappel : pourcentage de documents retournés sur l’ensemble de tous les documents • F-mesure = 2.Précision.Rappel/(Précision+Rappel)
  • 19. Le modèle LDA z1 z2 z3 z4 z1 z2 z3 z4 z1 z2 z3 z4 w1 w2 w3 w4 w1 w2 w3 w4 w1 w2 w3 w4  Pour chaque document,  Choisir ~Dirichlet( )  Pour chacun des N mots:  Choisir un topic zn» Multinomial( )  Choisir un mot wn conformément à p(wn|zn, ), une distribution multinomiale de paramètre correspondant au topic zn.
  • 20. Estimation du modèle • Plusieurs techniques ont vues le jour simultanément : • Inférence variationelle – Blei et al. 2002 • Méthode Expectation-Propagation – Minka et Lafferty 2002 • Echantillonneur de Gibbs – Griffiths et Steyvers 2002 • Calcul des paramètres du modèle • Matrice des probabilités mots/topics • Vecteur de probabilités topics/documents
  • 21. Expérimentation Wikipedia – 3.2 millions de documents – 100k dimensions – 100 topics Temps : 11hrs Core Duo 2.5Ghz 4Go / 3h20 sur 4 workers 2ghz Xeons 4Go
  • 22. Références • GenSim : module python de calcul du LSI / LDA online distribué basé sur Hoffman et al. 2010 • Online Learning for Latent Dirichlet Allocation – Hoffman, Blei, Bach 2010 • Latent Dirichlet Allocation – Blei, Ng, Jordan 2003 • Probabilistic Latent Semantic Indexing – Hoffman 1999 • Indexing by Latent Semantic Analysis – Deerwester, Dumais, Harshman 1990