Ranking (par IBRAHIM Sirine et TANIOS Dany)

1

RANKING
Présenté par : IBRAHIM Sirine
TANIOS Dany
Présenté à : Prof. CHBEIR Richard
12/27/2013

Plan
2/46



Introduction au Ranking



Les modèles de Ranking
 Vector

space model
 PageRank
 Language Model For IR
 HITS


Conclusion
12/27/2013

Ranking – Conception Globale
3/46



Lorsque l'utilisateur donne une requête, une
comparaison de mots est fait pour obtenir les
documents les plus pertinents à la requête. Les
documents pertinents sont ensuite classés en fonction
de leur degré de pertinence, importance..

C’est le Ranking
12/27/2013

Pourquoi le Ranking ?
4/46



Avec le grand nombre de pages web qui existent
aujourd'hui, les moteurs de recherche prennent un rôle
important dans l'Internet actuel.



Mais même si elles permettent de trouver des pages
pertinentes pour un sujet de recherche, de nos jours, le
nombre de résultats renvoyés est souvent trop grand
pour être exploré avec soin.

12/27/2013

Le rôle de Ranking
5/46



Le rôle des algorithmes de classement est donc de:
sélectionnez les pages qui sont probablement en mesure de
satisfaire les besoins de l'utilisateur, et de les amener dans
les premières positions.

12/27/2013

Moteur de recherche
6/46

Le moteur de recherche est un simple outil pour nous

12/27/2013

Le contenu réel des moteurs
7/46

12/27/2013

8/46

12/27/2013

9/46

12/27/2013

Vector Space Model
10/46









Vector Space Model a été largement utilisé dans le
domaine IR traditionnelle
La plupart des moteurs de recherche utilisent également
des mesures de similarité basées sur ce modèle pour
classer les documents sur le Web
Chaque terme , i, dans un document ou une requête, j,
possède un poids de valeur réelle, Wij.
Le modèle crée un espace dans lequel les documents
et les requêtes sont représentés par des vecteurs

12/27/2013

Vector space model
11/46

12/27/2013

Vector space model
12/46



Les poids associés aux termes sont calculés sur la base
de deux numéros:




En terme de fréquence fij: le nombre d’occurrence
du
terme yj dans le document xi
Document de fréquence inverse: gj=log(N/dj)
avec N est le nombre de documents total et dj est le
nombre de documents contenant le terme yj

12/27/2013

Vector space model
13/46



TF-IDF [ Term Frequency – Inverst document Frequency ]
méthode pour calculer les poids
 wij = tfij idfi = tfij log2 (N/ dfi)
 Avec tfij=fij / max(fij )

Exemple:
 Considérant un document contenant les termes de fréquences données
A(3), B(2), C(1)
 Supposons une collection contenant 10 000 documents et
fréquences des documents pour ces termes sont les suivants:
A:50, B:1300, C:250
Donc :
A: tf = 3/3 et idf = log2(10000/50) = 7.6 => TF-IDF = 7.6
B: tf = 2/3 et idf = log2 (10000/1300) = 2.9 => TF-IDF = 2.0
C: tf = 1/3 et idf = log2 (10000/250) = 5.3 => TF-IDF =12/27/2013
1.8

Mesure de similarité
14/46



Une mesure de similarité est une fonction qui
calcule le degré de similarité entre deux
vecteurs



L'utilisation d'une mesure de similarité entre la
requête et chaque document:
Permet de classer les documents trouvés dans
l'ordre de pertinence présumée
But de Ranking
12/27/2013

Mesure de similarité
15/46

Similarité entre les vecteurs pour un document di et la
requête q peut être calculé comme le produit intérieur vecteur

Mesure combien de termes sont identifiés mais pas
combien de termes qui ne le sont pas
12/27/2013

Mesure de Similarité
16/46



Exemple:
D1 = 2T1 + 3T2 + 5T3



D2 = 3T1 + 7T2 +

1T3


=>
=>

Q = 0T1 + 0T2 + 2T3
sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10
sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2

12/27/2013

Mesure de Similarité Cosinus
17/46

MSC mesure le cosinus de l'angle entre les deux vecteurs

D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 10 / (4+9+25)(0+0+4) = 0.81
D2 = 3T1 + 7T2 + 1T3 CosSim(D2 , Q) = 2 / (9+49+1)(0+0+4) = 0.13
Q = 0T1 + 0T2 + 2T3
12/27/2013

18/46

12/27/2013

PageRank
19/46









PageRank est un algorithme d'analyse des liens qui attribue
une pondération numérique à chaque page Web, dans le but
de «mesurer» l'importance relative.
Une excellente façon de hiérarchiser les résultats des
recherches par mot clé web
Chaque lien pointant d’une page à une autre est considéré
comme un vote pour cette page
Le PageRank d'une page A est donnée comme suit :
PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )

12/27/2013

PageRank
20/46

les PageRanks forment un indicateur d’importance pour
évaluer les pages Web
PageRank est également affiché sur la barre d'outils de votre
navigateur si vous avez installé la barre d'outils Google
(http://toolbar.google.com/)

12/27/2013

PageRank
21/46



Chaque page comporte un certain nombre de
outlinks (outedges) et backlinks (inedges)
D

B

A
C

E

• B et C sont les backlinks de A
• D et E sont les outlinks de12/27/2013
A

PageRank
22/46



Deux cas du PageRank sont intéressants:

1) PageRank des Pages Web varient
considérablement en termes de nombre de
backlinks qu'ils ont.
Par exemple, la page d'accueil de Netscape a 62 804
backlinks par rapport à la plupart des pages qui ont
juste un peu de backlinks.

12/27/2013

PageRank
23/46

2) Backlinks provenant des pages importantes
véhiculent plus d'importance à une page.

Par exemple, si une page web a un lien de la page
d'accueil de Yahoo, il peut être juste un lien, mais il est
très important

12/27/2013

PageRank
24/46



Conclusion de deux cas du PageRank:
Une page peut avoir un PageRank élevé:

si il ya beaucoup de pages qui pointent vers elle
Ou
si il y a peu de pages qui pointent vers elle mais
qui ont un PageRank élevé
12/27/2013

Exemple 2 PageRank
25/46

A

B

Nous ne connaissons pas le PR des deux pages, donc il nous faut une
valeur de départ : 1.0 par exemple
PR (A) = (1 -d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C (Tn) )
PR(A)

= 0.15 + 0.85 * ( 1 /1 )

=1

PR(B)

= 0.15 + 0.85 * ( 1 / 1 )

=1

les valeurs ne changent pas...
Prenons une valeur de départ différente : 0

12/27/2013

Exemple PageRank
26/46



Première itération


PR(A) = 0.15 + 0.85 * 0 = 0.15

 PR(B)


= 0.15 + 0.85 * 0.15 = 0.2775

Deuxième itération






PR(A) = 0.15 + 0.85 * 0.2775 = 0.385875

PR(B) = 0.15 + 0.85 * 0.385875 = 0.47799375

Troisième itération




PR(A) = 0.15 + 0.85 * 0.47799375 = 0.5562946875
PR(B) = 0.15 + 0.85 * 0.5562946875 = 0.622850484375
...
12/27/2013

Exemple PageRank
27/46



prenons une valeur 2.0 pour redémarrer notre
expérience.
 PR(A)

= 0.15 + 0.85 * 2 = 1.85
 PR(B) = 0.15 + 0.85 * 1.85 = 1.7225
cela baisse, essayons une fois de plus :
 PR(A) = 0.15 + 0.85 * 1.7225 = 1.614125
 PR(B) = 0.15 + 0.85 * 1.614125 = 1.52200625


Nos valeurs continuent à converger vers 1

12/27/2013

28/46

12/27/2013

Language Model For IR
29/46



L'approche du Langage Model For IR : un
document est un bon match pour une requête si
le modèle de document est susceptible de
générer la requête, qui à son tour se produit si
le document contient les mots de la requête

12/27/2013

Query likelihood Model
30/46



P (d | q):
La probabilité qu'un utilisateur interrogeant
une requête q, aura le document d à l'esprit
=> P (d | q) = P (q | d) P (d) / P (q)
P (q) - même pour tous les documents =>
ignoré
P (d) - souvent considérée comme uniforme
dans les documents => ignoré
=>Classement par P (q | d)
12/27/2013

31/46



P (q | d) : la probabilité qu'une requête Q soit
générer par un modèle de langage provenant de
documents d



Algorithme:
Déduire un LM pour chaque document.
Estimation de P (Q/Mdi) , la probabilité de
génération de la requête en fonction de chacun de
ces modèles de document.
Classez les documents selon ces12/27/2013
probabilités

1.
2.

3.

32/46

12/27/2013

33/46

Exemple
:

12/27/2013

Ranking Models
34/46

12/27/2013

Fondateur
35/46



Hypertext Induced Topic Search (HITS) ou
Hubs and Authorities est un algorithme
d’analyse de lien développé par Jon Kleinberg
en 1998 pour prioriser les pages web

12/27/2013

Concept de l’algorithme
36/46



Hits est un algorithme de recherche par
requête qui priorise les pages web en
récupérant tous les in links et les out links
tout en se basant sur l’analyse du contenu
textuel de la requête donnée

12/27/2013

HITS
37/46



Quand un utilisateur fait entrer une requête,
HITS procède comme le suivant:
 Récupère

la liste des pages relatives retournées
par le moteur de recherche

 Classifier

les pages récupérées en 2 types de

Ranking :
authority ranking et hub ranking
12/27/2013

Hubs et Authorities
38/46

A est une authority

A est une hub

• Une page web est nommée Authority si elle est pointée par plusieurs
hyperlink
12/27/2013
• Une page web est nommée Hub si elle pointe sur plusieurs hyperlink

Hubs et Authorities
39/46



Authority : des pages qui contiennent des
informations importantes ciblées pour le sujet




L’Authority contient notre données cibles

Hub: des pages qui contiennent des liens vers
des authorities


Le hub est une page intermédiaire qui nous aide à
trouver notre données cibles

12/27/2013

Le score d’Authority
40/46



Le score d’une page Authority est la somme des
scores de toutes les pages qui pointent vers elle

Sc(
Sc(B C)
)

Sc(
D)

Sc(A)= Sc(B)+ Sc(C)+ Sc(D)
12/27/2013
Le score Authority estime l’importance que apporte le contenu de cette
page

Le score du Hub
41/46



Le score d’une page Hub est la somme des
scores de toutes les pages qu’elle pointe sur
Sc(A)= Sc(B)+ Sc(C)+ Sc(D)

Sc(B
)

Sc(
C)

Sc(
D)

Le score hub estime l’importance des liens qu’elle pointe
12/27/2013
sur

Affichage
42/46



Après avoir calculer les scores des hubs et
authorities, le navigateur affiche les pages web
comme suit:
1.

Les pages Authority par ordre décroissant de
score, qui contiennent les données visées

2.

Les pages Hub par ordre décroissant de score,
qui contiennent les informations qui m’ont aidé à
attendre mon sujet cible
12/27/2013

Conclusion
43/46



Les algorithmes de Ranking facilitent la vie
des utilisateurs de web en évitant que ces
derniers se perdent dans des milliers et des
milliers de pages web non classées

12/27/2013

Références
44/46



Alessio Signorini. "A Survey of Ranking Algorithms". Tiré de
http://homepage.divms.uiowa.edu/~asignori/phd/report/a-surveyof-ranking-algorithms.pdf. (2005)



Ian Rogers. "The Google Pagerank Algorithm and How It
Works". Tiré de http://www.sirgroane.net/google-page-rank/



"Lecture #3: PageRank Algorithm - The Mathematics of Google
Search". Tiré de
http://www.math.cornell.edu/~mec/Winter2009/RalucaRemus/Le
cture3/lecture3.html

12/11/2013

Ranking (par IBRAHIM Sirine et TANIOS Dany)

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Ranking (par IBRAHIM Sirine et TANIOS Dany)

Similar a Ranking (par IBRAHIM Sirine et TANIOS Dany) (20)

Más de rchbeir

Más de rchbeir (13)

Ranking (par IBRAHIM Sirine et TANIOS Dany)

Notas del editor