SlideShare una empresa de Scribd logo
1 de 34
Descargar para leer sin conexión
LES CRITÈRES CONSTITUTIFS
DU WEBSPAM
Guillaume et Sylvain Peyronnet
QU’EST-CE QUE LE WEBSPAM ?
Une tentative de définition	

Le webspam, c’est ce qui est conçu dans le but d’attirer des
internautes venus des moteurs de recherche vers une ou
plusieurs pages web données.	

La frontière est floue	

Il est parfois difficile de faire la différence entre une page de
« faible qualité » légitime et du webspam de « bonne qualité ».
QU’EST-CE QUE LE WEBSPAM ?
Une question d’intention	

C’est avant tout la volonté de « nuisance » qui caractérise le webspam.	

Finalement, une question de jugement	

La méthode standard pour déterminer ce qu’est le webspam, c’est
l’analyse du comportement des êtres humains face aux pages web.	

• Monitoring du comportement des internautes dans le moteur (retour
post-visite, temps passé, etc.)	

• Quality Rating
2TYPES DE WEBSPAM
Zoltán Gyöngyi, Hector Garcia-Molina. Web SpamTaxonomy. First International Workshop on Adversarial
Information Retrieval on the Web (at the 14th International World Wide Web Conference), Chiba, Japan, 2005.
2TYPES DE WEBSPAM
Zoltán Gyöngyi, Hector Garcia-Molina. Web SpamTaxonomy. First International Workshop on Adversarial
Information Retrieval on the Web (at the 14th International World Wide Web Conference), Chiba, Japan, 2005.
2 ? Non, 3 types
de webspam
3TYPES DE WEBSPAM
Les liens népotiques	

Il s’agit des liens que les référenceurs obtiennent entre eux, sur leurs réseaux.	

Les structures d’amplification du PageRank	

Il s’agit des schémas de linking qui améliorent de manière optimale le
PageRank.	

Le contenu « spammy »	

Il s’agit du contenu conçu pour maximiser la pertinence d’une page web ou
pour remplir au kilomètre des pages web de faible importance.
POURQUOI 3TYPES ?
Un moteur construit son classement en choisissant les pages les plus
importantes parmi celles qui sont pertinentes
Pertinence pour R
Classement global
+-
des liens !
un schéma
optimal sur ces
liens
du contenu
optimisé !
un bon
positionnement+ + =
POSITIONNEMENT 

VERSUS SPAM
Il ne faut pas confondre !	

Un critère de positionnement et un critère de spam sont deux choses indépendantes	

• un critère peut être les deux à la fois (EMD par exemple)	

• Il y a un traitement séparé des deux	

Il y a interférence	

Quand on regarde les SERPs, il est difficile de déterminer les critères de positionnement
car les filtres anti-spam agissent après eux.	

Dans tous les cas, on ne sait que corréler	

Au mieux, on ne sait que mettre en correspondance des comportements co-incidentaux.
On ne peut jamais déterminer la cause exacte d’un phénomène observé dans les SERPs.
POSITIONNEMENT 

VERSUS SPAM
Ce n’est pas parce qu’un critère est corrélé positivement pour
le positionnement que son optimisation n’est pas considérée
comme du spam.
Source : http://moz.com/search-ranking-factors
COMBATTRE LE WEBSPAM
Détection et suppression : filtrage	

• Déterminer les caractéristiques du spam	

• Détecter les pages et liens qui ont ces caractéristiques	

• Les supprimer de l’index ou moduler la transmission de PR	

Déclassement : update	

• Sans forcément le détecter	

•Annuler son effet sur les résultats du classement
COMBATTRE LE WEBSPAM
Détection et suppression : filtrage	

• Déterminer les caractéristiques du spam
• Détecter les pages et liens qui ont ces caractéristiques	

• Les supprimer de l’index ou moduler la transmission de PR	

Déclassement : update	

• Sans forcément le détecter	

•Annuler son effet sur les résultats du classement
LES LIENS NÉPOTIQUES
Reconnaître les liens « sans valeur »	

Recognizing Nepotistic Links on theWeb

Davison,AAAI-2000 Workshop on Artificial Intelligence for
Web Search
LES LIENS NÉPOTIQUES
Construction d’un filtre utilisant 75 critères, dont :	

• même <title>	

• domaines identiques	

• les premiers octets de l’IP sont identiques	

• il y a plus de X liens sortants de la page source	

• whois « similaires »	

Taux d’erreur : 9%
LE SPAM STRUCTUREL
Son objectif est de maximiser le PageRank d’une page cible	

• /! Ne pas confondre PageRank réel et Toolbar PageRank (le PR)	

• Il existe des structures pour atteindre l’optimal : 	

Zoltán Gyöngyi, Hector Garcia-Molina. Link Spam Alliances. 31st International Conference on
Very Large Data Bases (VLDB), 2005.

Elles sont détectables !

Thomas Largillier, Sylvain Peyronnet: Using Patterns in the Behavior of the Random Surfer to
Detect Webspam Beneficiaries.WISE Workshops 2010: 241-253	

• Les spammeurs utilisent des structures non-optimales plus discrètes
LE SPAM STRUCTUREL

(RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!)
Quantité %
Spam 116 401 16.85
Spam lié 16 497 5.54
Non
spam
609 307 11.46
Quantité %
Spam 8 406 1.22
Spam lié 88 069 29.58
Non
spam
132 931 2.50
LE SPAM STRUCTUREL

(RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!)
Les motifs spammants usuels sont de deux types
Caractéristique du SPAM !
LE SPAM STRUCTUREL

(RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!)
Caractéristique de ceux qui profitent du SPAM !
Les motifs spammants usuels sont de deux types
LE SPAM STRUCTUREL

(RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!)
Caractéristique de ceux qui profitent du SPAM !
Les motifs spammants usuels sont de deux types
Ces deux types de motifs sont détectables
LE SPAM STRUCTUREL

(RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!)
Caractéristique de ceux qui profitent du SPAM !
Les motifs spammants usuels sont de deux types
Ces deux types de motifs sont détectables	

Le réseau naturel n’est pas détectable !
SPAM DE CONTENU
Son objectif est d’optimiser la pertinence d’une page ou de créer des pages dotées de « contenus » en
série	

Un article à connaître, publié en 2006	

Detecting spam web pages through content analysis	

• Par Ntoulas, Najork, Manasse et Fetterly	

• UCLA + Microsoft, publié à WWW 2006	

Article qui fournit une méthode de détection basée sur un dataset réel	

• Provenant d’un crawl de MSN Bot d’Août 2004	

•105.5 millions de pages dont 55 millions en anglais	

•18 000 pages ont été classées à la main (spam / non spam)	

• Sur les 18 000, 14% de spam	

Cet article présente la méthodologie standard pour créer un filtre
SPAM DE CONTENU EN 2006
SPAM DE CONTENU EN 2006
SPAM DE CONTENU EN 2006
Et de nombreux autres critères, dont : 	

• nombre de points/slashs/chiffres dans le nom de domaine	

• taille du nom de domaine	

• nombre de mots dans la page	

• fraction du texte d’ancre	

• taille moyenne des mots	

!
SPAM DE CONTENU EN 2006
SPAM DE CONTENU EN 2006
Résultats
Taux de reconnaissance du spam > 85%
Faux positifs ~ 1%
ETUDE WEBSPAM 2014
L’étude de Ntoulas, Najork, Manasse et Fetterly est ancienne	

• Nous sommes en train de la refaire grâce à la communauté
(MERCI)	

• Nous étudions de nouveaux critères	

• Nous avons choisi une granularité plus fine (SPAM / LQ / HQ)	

!
ETUDE WEBSPAM 2014
Trois étapes :
1. le crawl	

2. la notation humaine	

3. l’analyse des critères	

Livrables :	

• dataset qualifié	

• des critères effectifs pour détecter le spam	

• un classifieur
On devrait en être au 3…

Vous devriez être en train de
voir les nouveaux critères…	

Mais ce n’est pas le cas, vous
allez découvrir pourquoi
maintenant…
LE CRAWL
L’objectif :
Obtenir 500 000 pages aléatoires représentatives du web	

Pour cela, il faut crawler environ 1 milliard d’URL différentes et
tirer au hasard parmi elles.	

Nous en sommes là.
LE CRAWL
L’objectif :
Obtenir 500 000 pages aléatoires représentatives du web	

Pour cela, il faut crawler environ 1 milliard d’URL différentes et
tirer au hasard parmi elles.	

Nous en sommes là.
Les problèmes :	

• divers problèmes matériels	

• dataset non représentatif	

• « it’s a trap ! »
LA NOTATION
L’objectif :
Obtenir 5 notes pour chaque page du sous-dataset retenu	

Pour cela, chaque page est présentée à un « quality rater » choisi
aléatoirement	

Le QR note chaque page : SPAM oux LQ oux HQ oux NSP	

Une page a ensuite un score de qualité dépendant des 5 notes
attribuées	

On calculera le score Kappa lié au dataset
LA NOTATION
L’objectif :
Obtenir 5 notes pour chaque page du sous-dataset retenu	

Pour cela, chaque page est présentée à un « quality rater » choisi
aléatoirement	

Le QR note chaque page : SPAM oux LQ oux HQ oux NSP	

Une page a ensuite un score de qualité dépendant des 5 notes
attribuées	

On calculera le score Kappa lié au dataset
http://webspam.peyronnet.eu/demande.php
L’ANALYSE DES CRITÈRES
L’objectif :
Vérifier la validité des critères précédemment obtenus par
Ntoulas et al.	



Fournir de nouveaux critères.	

!
L’ANALYSE DES CRITÈRES
Quelques nouveaux critères potentiels :
• Ratio DF/NF : Ratio entre le nombre de liens en DoFollow et NoFollow	

• Proximité sémantique : Est-ce que l’émetteur d’un lien est sur la même thématique que celui qui reçoit le lien ?	

• Positions des liens : emplacement des liens sur la page	

• Signaux d’auteur et partages sociaux	

• TTFB versus chargement complet	

• Résidu post-lemmatisation	

• Coefficient de clustering	

!
!
MERCI !
@gpeyronnet - @speyronnet

Más contenido relacionado

La actualidad más candente

Référencement naturel - SEO - Points principaux
Référencement naturel - SEO - Points principauxRéférencement naturel - SEO - Points principaux
Référencement naturel - SEO - Points principauxNadège tétaz
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Olivier Andrieu
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seoPhilippe YONNET
 
Référencement naturel, social et stratégie de contenu
Référencement naturel, social et stratégie de contenuRéférencement naturel, social et stratégie de contenu
Référencement naturel, social et stratégie de contenuFrédéric BARDEAU
 
Formation SEO & PCC - Agadir Maroc
Formation SEO & PCC - Agadir MarocFormation SEO & PCC - Agadir Maroc
Formation SEO & PCC - Agadir Marocydebbagh
 
les clés du référencement naturel (focus 2014)
les clés du référencement naturel (focus 2014)les clés du référencement naturel (focus 2014)
les clés du référencement naturel (focus 2014)echangeurba
 
Recherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWebRecherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWebAysun Akarsu
 
La casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitAymeric Bouillat
 

La actualidad más candente (8)

Référencement naturel - SEO - Points principaux
Référencement naturel - SEO - Points principauxRéférencement naturel - SEO - Points principaux
Référencement naturel - SEO - Points principaux
 
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
Cocon, metamots et plus si affinités sémantiques. Seo campus-03-2017
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seo
 
Référencement naturel, social et stratégie de contenu
Référencement naturel, social et stratégie de contenuRéférencement naturel, social et stratégie de contenu
Référencement naturel, social et stratégie de contenu
 
Formation SEO & PCC - Agadir Maroc
Formation SEO & PCC - Agadir MarocFormation SEO & PCC - Agadir Maroc
Formation SEO & PCC - Agadir Maroc
 
les clés du référencement naturel (focus 2014)
les clés du référencement naturel (focus 2014)les clés du référencement naturel (focus 2014)
les clés du référencement naturel (focus 2014)
 
Recherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWebRecherche & SEO / Aujourd'hui & Demain QueDuWeb
Recherche & SEO / Aujourd'hui & Demain QueDuWeb
 
La casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfait
 

Similar a Peyronnet webspam-seocampus

Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...Julien Ferras
 
Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...SEO Camp Association
 
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...SEO CAMP
 
Pénalités Google : Google Penguin, Google Panda : quelle stratégie de Google?
Pénalités Google : Google Penguin, Google Panda : quelle stratégie de Google?Pénalités Google : Google Penguin, Google Panda : quelle stratégie de Google?
Pénalités Google : Google Penguin, Google Panda : quelle stratégie de Google?Woptimo
 
Les penalites de Google : SEO Camp'us 2012
Les penalites de Google : SEO Camp'us 2012Les penalites de Google : SEO Camp'us 2012
Les penalites de Google : SEO Camp'us 2012Woptimo
 
Les outils SEO ne servent à rien - SEOCamp'us 2018
Les outils SEO ne servent à rien - SEOCamp'us 2018Les outils SEO ne servent à rien - SEOCamp'us 2018
Les outils SEO ne servent à rien - SEOCamp'us 2018Daniel Roch - SeoMix
 
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentationRentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation:ratio
 
Atelier : Personnaliser sa stratégie SEO
Atelier : Personnaliser sa stratégie SEOAtelier : Personnaliser sa stratégie SEO
Atelier : Personnaliser sa stratégie SEOGrégory Florin
 
7 conseils pour améliorer son référencement naturel (SEO)
7 conseils pour améliorer son référencement naturel (SEO)7 conseils pour améliorer son référencement naturel (SEO)
7 conseils pour améliorer son référencement naturel (SEO)Editoile
 
Seo camp'us 2018 - cloaking is not a crime : Patrick Valibus
Seo camp'us 2018 - cloaking is not a crime : Patrick ValibusSeo camp'us 2018 - cloaking is not a crime : Patrick Valibus
Seo camp'us 2018 - cloaking is not a crime : Patrick ValibusPatrick Valibus
 
Cloaking is not a crime - Seo camp'us 2018
Cloaking is not a crime - Seo camp'us 2018Cloaking is not a crime - Seo camp'us 2018
Cloaking is not a crime - Seo camp'us 2018SEO Camp Association
 
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni' SEO
 
Quelle stratégie SEO restera efficace dans les mois qui viennent
Quelle stratégie SEO restera efficace dans les mois qui viennentQuelle stratégie SEO restera efficace dans les mois qui viennent
Quelle stratégie SEO restera efficace dans les mois qui viennentPhilippe YONNET
 
Webschool du Jura - Le référencement par Absolute Création
Webschool du Jura - Le référencement par Absolute CréationWebschool du Jura - Le référencement par Absolute Création
Webschool du Jura - Le référencement par Absolute Créationmariejura
 
Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Philippe YONNET
 
Quels outils statistiques pour mon site ?
Quels outils statistiques pour mon site ?Quels outils statistiques pour mon site ?
Quels outils statistiques pour mon site ?mariejura
 

Similar a Peyronnet webspam-seocampus (20)

Que reste-t-il de notre netlinking
Que reste-t-il de notre netlinkingQue reste-t-il de notre netlinking
Que reste-t-il de notre netlinking
 
Atouts du croisement de données
Atouts du croisement de donnéesAtouts du croisement de données
Atouts du croisement de données
 
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
Comment un grand site média a augmenté son trafic organique de plus de 80% gr...
 
Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...Comment l'un des plus grand site média français a augmenté son trafic organiq...
Comment l'un des plus grand site média français a augmenté son trafic organiq...
 
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
Analyse Logs + crawl : Retour sur 10 ans d’expérience - Mathieu Chapon - SEOC...
 
Pénalités Google : Google Penguin, Google Panda : quelle stratégie de Google?
Pénalités Google : Google Penguin, Google Panda : quelle stratégie de Google?Pénalités Google : Google Penguin, Google Panda : quelle stratégie de Google?
Pénalités Google : Google Penguin, Google Panda : quelle stratégie de Google?
 
Les penalites de Google : SEO Camp'us 2012
Les penalites de Google : SEO Camp'us 2012Les penalites de Google : SEO Camp'us 2012
Les penalites de Google : SEO Camp'us 2012
 
Les outils SEO ne servent à rien - SEOCamp'us 2018
Les outils SEO ne servent à rien - SEOCamp'us 2018Les outils SEO ne servent à rien - SEOCamp'us 2018
Les outils SEO ne servent à rien - SEOCamp'us 2018
 
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentationRentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
Rentrer dans la tête de vos utilisateurs grâce aux statistiques de fréquentation
 
Atelier : Personnaliser sa stratégie SEO
Atelier : Personnaliser sa stratégie SEOAtelier : Personnaliser sa stratégie SEO
Atelier : Personnaliser sa stratégie SEO
 
7 conseils pour améliorer son référencement naturel (SEO)
7 conseils pour améliorer son référencement naturel (SEO)7 conseils pour améliorer son référencement naturel (SEO)
7 conseils pour améliorer son référencement naturel (SEO)
 
Seo camp'us 2018 - cloaking is not a crime : Patrick Valibus
Seo camp'us 2018 - cloaking is not a crime : Patrick ValibusSeo camp'us 2018 - cloaking is not a crime : Patrick Valibus
Seo camp'us 2018 - cloaking is not a crime : Patrick Valibus
 
Cloaking is not a crime - Seo camp'us 2018
Cloaking is not a crime - Seo camp'us 2018Cloaking is not a crime - Seo camp'us 2018
Cloaking is not a crime - Seo camp'us 2018
 
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEOTuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
 
Quelle stratégie SEO restera efficace dans les mois qui viennent
Quelle stratégie SEO restera efficace dans les mois qui viennentQuelle stratégie SEO restera efficace dans les mois qui viennent
Quelle stratégie SEO restera efficace dans les mois qui viennent
 
Webschool du Jura - Le référencement par Absolute Création
Webschool du Jura - Le référencement par Absolute CréationWebschool du Jura - Le référencement par Absolute Création
Webschool du Jura - Le référencement par Absolute Création
 
Conférence SEO Joomla
Conférence SEO JoomlaConférence SEO Joomla
Conférence SEO Joomla
 
Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 
Quels outils statistiques pour mon site ?
Quels outils statistiques pour mon site ?Quels outils statistiques pour mon site ?
Quels outils statistiques pour mon site ?
 
Positionnez-vous sur le Web - Plogg
Positionnez-vous sur le Web - Plogg Positionnez-vous sur le Web - Plogg
Positionnez-vous sur le Web - Plogg
 

Peyronnet webspam-seocampus

  • 1. LES CRITÈRES CONSTITUTIFS DU WEBSPAM Guillaume et Sylvain Peyronnet
  • 2. QU’EST-CE QUE LE WEBSPAM ? Une tentative de définition Le webspam, c’est ce qui est conçu dans le but d’attirer des internautes venus des moteurs de recherche vers une ou plusieurs pages web données. La frontière est floue Il est parfois difficile de faire la différence entre une page de « faible qualité » légitime et du webspam de « bonne qualité ».
  • 3. QU’EST-CE QUE LE WEBSPAM ? Une question d’intention C’est avant tout la volonté de « nuisance » qui caractérise le webspam. Finalement, une question de jugement La méthode standard pour déterminer ce qu’est le webspam, c’est l’analyse du comportement des êtres humains face aux pages web. • Monitoring du comportement des internautes dans le moteur (retour post-visite, temps passé, etc.) • Quality Rating
  • 4. 2TYPES DE WEBSPAM Zoltán Gyöngyi, Hector Garcia-Molina. Web SpamTaxonomy. First International Workshop on Adversarial Information Retrieval on the Web (at the 14th International World Wide Web Conference), Chiba, Japan, 2005.
  • 5. 2TYPES DE WEBSPAM Zoltán Gyöngyi, Hector Garcia-Molina. Web SpamTaxonomy. First International Workshop on Adversarial Information Retrieval on the Web (at the 14th International World Wide Web Conference), Chiba, Japan, 2005. 2 ? Non, 3 types de webspam
  • 6. 3TYPES DE WEBSPAM Les liens népotiques Il s’agit des liens que les référenceurs obtiennent entre eux, sur leurs réseaux. Les structures d’amplification du PageRank Il s’agit des schémas de linking qui améliorent de manière optimale le PageRank. Le contenu « spammy » Il s’agit du contenu conçu pour maximiser la pertinence d’une page web ou pour remplir au kilomètre des pages web de faible importance.
  • 7. POURQUOI 3TYPES ? Un moteur construit son classement en choisissant les pages les plus importantes parmi celles qui sont pertinentes Pertinence pour R Classement global +- des liens ! un schéma optimal sur ces liens du contenu optimisé ! un bon positionnement+ + =
  • 8. POSITIONNEMENT 
 VERSUS SPAM Il ne faut pas confondre ! Un critère de positionnement et un critère de spam sont deux choses indépendantes • un critère peut être les deux à la fois (EMD par exemple) • Il y a un traitement séparé des deux Il y a interférence Quand on regarde les SERPs, il est difficile de déterminer les critères de positionnement car les filtres anti-spam agissent après eux. Dans tous les cas, on ne sait que corréler Au mieux, on ne sait que mettre en correspondance des comportements co-incidentaux. On ne peut jamais déterminer la cause exacte d’un phénomène observé dans les SERPs.
  • 9. POSITIONNEMENT 
 VERSUS SPAM Ce n’est pas parce qu’un critère est corrélé positivement pour le positionnement que son optimisation n’est pas considérée comme du spam. Source : http://moz.com/search-ranking-factors
  • 10. COMBATTRE LE WEBSPAM Détection et suppression : filtrage • Déterminer les caractéristiques du spam • Détecter les pages et liens qui ont ces caractéristiques • Les supprimer de l’index ou moduler la transmission de PR Déclassement : update • Sans forcément le détecter •Annuler son effet sur les résultats du classement
  • 11. COMBATTRE LE WEBSPAM Détection et suppression : filtrage • Déterminer les caractéristiques du spam • Détecter les pages et liens qui ont ces caractéristiques • Les supprimer de l’index ou moduler la transmission de PR Déclassement : update • Sans forcément le détecter •Annuler son effet sur les résultats du classement
  • 12. LES LIENS NÉPOTIQUES Reconnaître les liens « sans valeur » Recognizing Nepotistic Links on theWeb
 Davison,AAAI-2000 Workshop on Artificial Intelligence for Web Search
  • 13. LES LIENS NÉPOTIQUES Construction d’un filtre utilisant 75 critères, dont : • même <title> • domaines identiques • les premiers octets de l’IP sont identiques • il y a plus de X liens sortants de la page source • whois « similaires » Taux d’erreur : 9%
  • 14. LE SPAM STRUCTUREL Son objectif est de maximiser le PageRank d’une page cible • /! Ne pas confondre PageRank réel et Toolbar PageRank (le PR) • Il existe des structures pour atteindre l’optimal : Zoltán Gyöngyi, Hector Garcia-Molina. Link Spam Alliances. 31st International Conference on Very Large Data Bases (VLDB), 2005.
 Elles sont détectables !
 Thomas Largillier, Sylvain Peyronnet: Using Patterns in the Behavior of the Random Surfer to Detect Webspam Beneficiaries.WISE Workshops 2010: 241-253 • Les spammeurs utilisent des structures non-optimales plus discrètes
  • 15. LE SPAM STRUCTUREL
 (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!) Quantité % Spam 116 401 16.85 Spam lié 16 497 5.54 Non spam 609 307 11.46 Quantité % Spam 8 406 1.22 Spam lié 88 069 29.58 Non spam 132 931 2.50
  • 16. LE SPAM STRUCTUREL
 (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!) Les motifs spammants usuels sont de deux types Caractéristique du SPAM !
  • 17. LE SPAM STRUCTUREL
 (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!) Caractéristique de ceux qui profitent du SPAM ! Les motifs spammants usuels sont de deux types
  • 18. LE SPAM STRUCTUREL
 (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!) Caractéristique de ceux qui profitent du SPAM ! Les motifs spammants usuels sont de deux types Ces deux types de motifs sont détectables
  • 19. LE SPAM STRUCTUREL
 (RÉSULTATS OBTENUS SUR UN DATASET FOURNI PARYAHOO!) Caractéristique de ceux qui profitent du SPAM ! Les motifs spammants usuels sont de deux types Ces deux types de motifs sont détectables Le réseau naturel n’est pas détectable !
  • 20. SPAM DE CONTENU Son objectif est d’optimiser la pertinence d’une page ou de créer des pages dotées de « contenus » en série Un article à connaître, publié en 2006 Detecting spam web pages through content analysis • Par Ntoulas, Najork, Manasse et Fetterly • UCLA + Microsoft, publié à WWW 2006 Article qui fournit une méthode de détection basée sur un dataset réel • Provenant d’un crawl de MSN Bot d’Août 2004 •105.5 millions de pages dont 55 millions en anglais •18 000 pages ont été classées à la main (spam / non spam) • Sur les 18 000, 14% de spam Cet article présente la méthodologie standard pour créer un filtre
  • 21. SPAM DE CONTENU EN 2006
  • 22. SPAM DE CONTENU EN 2006
  • 23. SPAM DE CONTENU EN 2006 Et de nombreux autres critères, dont : • nombre de points/slashs/chiffres dans le nom de domaine • taille du nom de domaine • nombre de mots dans la page • fraction du texte d’ancre • taille moyenne des mots !
  • 24. SPAM DE CONTENU EN 2006
  • 25. SPAM DE CONTENU EN 2006 Résultats Taux de reconnaissance du spam > 85% Faux positifs ~ 1%
  • 26. ETUDE WEBSPAM 2014 L’étude de Ntoulas, Najork, Manasse et Fetterly est ancienne • Nous sommes en train de la refaire grâce à la communauté (MERCI) • Nous étudions de nouveaux critères • Nous avons choisi une granularité plus fine (SPAM / LQ / HQ) !
  • 27. ETUDE WEBSPAM 2014 Trois étapes : 1. le crawl 2. la notation humaine 3. l’analyse des critères Livrables : • dataset qualifié • des critères effectifs pour détecter le spam • un classifieur On devrait en être au 3…
 Vous devriez être en train de voir les nouveaux critères… Mais ce n’est pas le cas, vous allez découvrir pourquoi maintenant…
  • 28. LE CRAWL L’objectif : Obtenir 500 000 pages aléatoires représentatives du web Pour cela, il faut crawler environ 1 milliard d’URL différentes et tirer au hasard parmi elles. Nous en sommes là.
  • 29. LE CRAWL L’objectif : Obtenir 500 000 pages aléatoires représentatives du web Pour cela, il faut crawler environ 1 milliard d’URL différentes et tirer au hasard parmi elles. Nous en sommes là. Les problèmes : • divers problèmes matériels • dataset non représentatif • « it’s a trap ! »
  • 30. LA NOTATION L’objectif : Obtenir 5 notes pour chaque page du sous-dataset retenu Pour cela, chaque page est présentée à un « quality rater » choisi aléatoirement Le QR note chaque page : SPAM oux LQ oux HQ oux NSP Une page a ensuite un score de qualité dépendant des 5 notes attribuées On calculera le score Kappa lié au dataset
  • 31. LA NOTATION L’objectif : Obtenir 5 notes pour chaque page du sous-dataset retenu Pour cela, chaque page est présentée à un « quality rater » choisi aléatoirement Le QR note chaque page : SPAM oux LQ oux HQ oux NSP Une page a ensuite un score de qualité dépendant des 5 notes attribuées On calculera le score Kappa lié au dataset http://webspam.peyronnet.eu/demande.php
  • 32. L’ANALYSE DES CRITÈRES L’objectif : Vérifier la validité des critères précédemment obtenus par Ntoulas et al. 
 Fournir de nouveaux critères. !
  • 33. L’ANALYSE DES CRITÈRES Quelques nouveaux critères potentiels : • Ratio DF/NF : Ratio entre le nombre de liens en DoFollow et NoFollow • Proximité sémantique : Est-ce que l’émetteur d’un lien est sur la même thématique que celui qui reçoit le lien ? • Positions des liens : emplacement des liens sur la page • Signaux d’auteur et partages sociaux • TTFB versus chargement complet • Résidu post-lemmatisation • Coefficient de clustering ! !
  • 34. MERCI ! @gpeyronnet - @speyronnet