3. Ranking – Conception Globale
3/46
Lorsque l'utilisateur donne une requête, une
comparaison de mots est fait pour obtenir les
documents les plus pertinents à la requête. Les
documents pertinents sont ensuite classés en fonction
de leur degré de pertinence, importance..
C’est le Ranking
12/27/2013
4. Pourquoi le Ranking ?
4/46
Avec le grand nombre de pages web qui existent
aujourd'hui, les moteurs de recherche prennent un rôle
important dans l'Internet actuel.
Mais même si elles permettent de trouver des pages
pertinentes pour un sujet de recherche, de nos jours, le
nombre de résultats renvoyés est souvent trop grand
pour être exploré avec soin.
12/27/2013
5. Le rôle de Ranking
5/46
Le rôle des algorithmes de classement est donc de:
sélectionnez les pages qui sont probablement en mesure de
satisfaire les besoins de l'utilisateur, et de les amener dans
les premières positions.
12/27/2013
10. Vector Space Model
10/46
Vector Space Model a été largement utilisé dans le
domaine IR traditionnelle
La plupart des moteurs de recherche utilisent également
des mesures de similarité basées sur ce modèle pour
classer les documents sur le Web
Chaque terme , i, dans un document ou une requête, j,
possède un poids de valeur réelle, Wij.
Le modèle crée un espace dans lequel les documents
et les requêtes sont représentés par des vecteurs
12/27/2013
12. Vector space model
12/46
Les poids associés aux termes sont calculés sur la base
de deux numéros:
En terme de fréquence fij: le nombre d’occurrence
du
terme yj dans le document xi
Document de fréquence inverse: gj=log(N/dj)
avec N est le nombre de documents total et dj est le
nombre de documents contenant le terme yj
12/27/2013
13. Vector space model
13/46
TF-IDF [ Term Frequency – Inverst document Frequency ]
méthode pour calculer les poids
wij = tfij idfi = tfij log2 (N/ dfi)
Avec tfij=fij / max(fij )
Exemple:
Considérant un document contenant les termes de fréquences données
A(3), B(2), C(1)
Supposons une collection contenant 10 000 documents et
fréquences des documents pour ces termes sont les suivants:
A:50, B:1300, C:250
Donc :
A: tf = 3/3 et idf = log2(10000/50) = 7.6 => TF-IDF = 7.6
B: tf = 2/3 et idf = log2 (10000/1300) = 2.9 => TF-IDF = 2.0
C: tf = 1/3 et idf = log2 (10000/250) = 5.3 => TF-IDF =12/27/2013
1.8
14. Mesure de similarité
14/46
Une mesure de similarité est une fonction qui
calcule le degré de similarité entre deux
vecteurs
L'utilisation d'une mesure de similarité entre la
requête et chaque document:
Permet de classer les documents trouvés dans
l'ordre de pertinence présumée
But de Ranking
12/27/2013
15. Mesure de similarité
15/46
Similarité entre les vecteurs pour un document di et la
requête q peut être calculé comme le produit intérieur vecteur
Mesure combien de termes sont identifiés mais pas
combien de termes qui ne le sont pas
12/27/2013
19. PageRank
19/46
PageRank est un algorithme d'analyse des liens qui attribue
une pondération numérique à chaque page Web, dans le but
de «mesurer» l'importance relative.
Une excellente façon de hiérarchiser les résultats des
recherches par mot clé web
Chaque lien pointant d’une page à une autre est considéré
comme un vote pour cette page
Le PageRank d'une page A est donnée comme suit :
PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )
12/27/2013
20. PageRank
20/46
les PageRanks forment un indicateur d’importance pour
évaluer les pages Web
PageRank est également affiché sur la barre d'outils de votre
navigateur si vous avez installé la barre d'outils Google
(http://toolbar.google.com/)
12/27/2013
21. PageRank
21/46
Chaque page comporte un certain nombre de
outlinks (outedges) et backlinks (inedges)
D
B
A
C
E
• B et C sont les backlinks de A
• D et E sont les outlinks de12/27/2013
A
22. PageRank
22/46
Deux cas du PageRank sont intéressants:
1) PageRank des Pages Web varient
considérablement en termes de nombre de
backlinks qu'ils ont.
Par exemple, la page d'accueil de Netscape a 62 804
backlinks par rapport à la plupart des pages qui ont
juste un peu de backlinks.
12/27/2013
23. PageRank
23/46
2) Backlinks provenant des pages importantes
véhiculent plus d'importance à une page.
Par exemple, si une page web a un lien de la page
d'accueil de Yahoo, il peut être juste un lien, mais il est
très important
12/27/2013
24. PageRank
24/46
Conclusion de deux cas du PageRank:
Une page peut avoir un PageRank élevé:
si il ya beaucoup de pages qui pointent vers elle
Ou
si il y a peu de pages qui pointent vers elle mais
qui ont un PageRank élevé
12/27/2013
25. Exemple 2 PageRank
25/46
A
B
Nous ne connaissons pas le PR des deux pages, donc il nous faut une
valeur de départ : 1.0 par exemple
PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )
PR(A)
= 0.15 + 0.85 * ( 1 /1 )
=1
PR(B)
= 0.15 + 0.85 * ( 1 / 1 )
=1
les valeurs ne changent pas...
Prenons une valeur de départ différente : 0
12/27/2013
29. Language Model For IR
29/46
L'approche du Langage Model For IR : un
document est un bon match pour une requête si
le modèle de document est susceptible de
générer la requête, qui à son tour se produit si
le document contient les mots de la requête
12/27/2013
30. Query likelihood Model
30/46
P (d | q):
La probabilité qu'un utilisateur interrogeant
une requête q, aura le document d à l'esprit
=> P (d | q) = P (q | d) P (d) / P (q)
P (q) - même pour tous les documents =>
ignoré
P (d) - souvent considérée comme uniforme
dans les documents => ignoré
=>Classement par P (q | d)
12/27/2013
31. Query likelihood Model
31/46
P (q | d) : la probabilité qu'une requête Q soit
générer par un modèle de langage provenant de
documents d
Algorithme:
Déduire un LM pour chaque document.
Estimation de P (Q/Mdi) , la probabilité de
génération de la requête en fonction de chacun de
ces modèles de document.
Classez les documents selon ces12/27/2013
probabilités
1.
2.
3.
35. Fondateur
35/46
Hypertext Induced Topic Search (HITS) ou
Hubs and Authorities est un algorithme
d’analyse de lien développé par Jon Kleinberg
en 1998 pour prioriser les pages web
12/27/2013
36. Concept de l’algorithme
36/46
Hits est un algorithme de recherche par
requête qui priorise les pages web en
récupérant tous les in links et les out links
tout en se basant sur l’analyse du contenu
textuel de la requête donnée
12/27/2013
37. HITS
37/46
Quand un utilisateur fait entrer une requête,
HITS procède comme le suivant:
Récupère
la liste des pages relatives retournées
par le moteur de recherche
Classifier
les pages récupérées en 2 types de
Ranking :
authority ranking et hub ranking
12/27/2013
38. Hubs et Authorities
38/46
A est une authority
A est une hub
• Une page web est nommée Authority si elle est pointée par plusieurs
hyperlink
12/27/2013
• Une page web est nommée Hub si elle pointe sur plusieurs hyperlink
39. Hubs et Authorities
39/46
Authority : des pages qui contiennent des
informations importantes ciblées pour le sujet
L’Authority contient notre données cibles
Hub: des pages qui contiennent des liens vers
des authorities
Le hub est une page intermédiaire qui nous aide à
trouver notre données cibles
12/27/2013
40. Le score d’Authority
40/46
Le score d’une page Authority est la somme des
scores de toutes les pages qui pointent vers elle
Sc(
Sc(B C)
)
Sc(
D)
Sc(A)= Sc(B)+ Sc(C)+ Sc(D)
12/27/2013
Le score Authority estime l’importance que apporte le contenu de cette
page
41. Le score du Hub
41/46
Le score d’une page Hub est la somme des
scores de toutes les pages qu’elle pointe sur
Sc(A)= Sc(B)+ Sc(C)+ Sc(D)
Sc(B
)
Sc(
C)
Sc(
D)
Le score hub estime l’importance des liens qu’elle pointe
12/27/2013
sur
42. Affichage
42/46
Après avoir calculer les scores des hubs et
authorities, le navigateur affiche les pages web
comme suit:
1.
Les pages Authority par ordre décroissant de
score, qui contiennent les données visées
2.
Les pages Hub par ordre décroissant de score,
qui contiennent les informations qui m’ont aidé à
attendre mon sujet cible
12/27/2013
43. Conclusion
43/46
Les algorithmes de Ranking facilitent la vie
des utilisateurs de web en évitant que ces
derniers se perdent dans des milliers et des
milliers de pages web non classées
12/27/2013
44. Références
44/46
Alessio Signorini. "A Survey of Ranking Algorithms". Tiré de
http://homepage.divms.uiowa.edu/~asignori/phd/report/a-surveyof-ranking-algorithms.pdf. (2005)
Ian Rogers. "The Google Pagerank Algorithm and How It
Works". Tiré de http://www.sirgroane.net/google-page-rank/
"Lecture #3: PageRank Algorithm - The Mathematics of Google
Search". Tiré de
http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Le
cture3/lecture3.html
12/11/2013
fij= frequency of term i in document jMay want to normalize term frequency (tf) by dividing by the frequency of the most common term in the document:tfij=fij/ maxi{fij}dfi = document frequency of termi= number of documents containing termiidfi = inverse document frequency of termi, = log2 (N/ dfi) (N: total number of documents)
D1 est 6 fois mieux que D2 utilisant cosinus similitude mais seulement 5 fois mieux utiliser le produit intérieur
les PageRanks forment une distribution de probabilité sur des pages Web , de sorte que la somme de toutes les pages Web \ ' PageRanks seront une PageRank est également affiché sur la barre d'outils de votre navigateur si vous avez installé la barre d'outils Google (http://toolbar.google.com/)
. Ce couvre à la fois le cas où une page a de nombreux backlinks et quand une page a un peu de backlinks hautement cotées.
. Ce couvre à la fois le cas où une page a de nombreux backlinks et quand une page a un peu de backlinks hautement cotées.
Nous remarquons que les valeurs augmentent à chaque itération.l’algorithme nous précisant que le PR moyen de toutes les pages du Web est égal à 1. Est-ce que nos valeurs de PR calculées ne peuvent pas augmenter indéfiniment et dépasser 1, ce qui invaliderait la formule ?Essayons avec une valeur supérieure pour voir ce qui se passe : prenons une valeur 2.0 pour redémarrer notre expérience.
A l’heure actuelle, Google a près de 4 milliards de pages dans sa base, ce qui pourrait nécessiter plusieurs milliards d’itérations.C’est ici que le facteur d’amortissement joue son rôle. S’il est choisi trop élevé, le calcul demandera un nombre d’itérations énorme, alors que s’il est trop bas les valeurs ne convergeront pas véritablement, mais finiront par osciller autour de la valeur théorique vraie, un peu à la manière d’un pendule.Avec un facteur d’amortissement de 0.85, il nous faut une quarantaine d’itérations pour affiner le calcul du PageRank.
P(d\q): objectifest d avoir le document pertinent a partir de la requete