SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
Link- Spam
Erkennung und Unterdrückung
               Florian Holzhauer
               fh@fholzhauer.de
Spam?

 „Kommerziell motivierter Datenmüll“
 Mail, Telefon, Post, Web, ..
 Hier: Linkspam
  Ziel: Suchmaschinenranking verbessern
  Maschinenoptimiert
Warum Linkspam?

 Gutes Suchranking = $$$
  Höhere Besucherzahlen
  Populärer als die Konkurrenz
 Viele Links auf beworbene Seite
  PageRank
  HITS
 Zusätzlich „Queryoptimierung“
PageRank




 „Google-Algorithmus“
 Oft Verlinkt = Hoher PageRank
  PageRank der verlinkenden Seiten wichtig
 d = Damping factor (meist 0.85)
HITS




 Hub-Rank, Authority-Rank
 Rekursiv
Wie Spam?

 Häufig verlinkt
 Verlinkt durch hoch bewertete Seiten
 Spamseite selbst will nicht unbedingt
  hoch bewertet werden
 Automatisiert
  Selten manuelle Ansätze
Blogspam

 Trackbacks
 Kommentare
 Captchas/ Rechenaufgaben
 Auch Wikis, Gästebücher, Foren
Linkfarm

 Automatisch generiert
 Gegenseitig verlinkt
 Dynamische Inhalte
Erkennung

 Soziale Probleme, technische Lösung
 Neuer Algorithmus -> neuer Spam
 False Positives
 Definition?
Quantitative Eigenschaften

 Domain/URL
 Worthäufigkeiten
 Seiteneigenschaften
  Metatags
 Servereigenschaften
 „nearby duplicates“
 Änderungsfrequenz
Sprachmodell

 Sprachliche Unterschiede
  Blogspam
  Blogbeitrag
  Kommentare
  Verlinkte Seiten
 Kullback Leibler Divergenz
  „Wahrscheinlichkeitsunterschiede“
SVM

 Support Vector Machine
 Trainierbarer Separationsalgorithmus
 Gruppiert in zwei Teile
  Nicht linear separierbar: „Möglichst“ gut
Graphen

 Links = Gerichteter Graph
 Verlinkungsanomalien
 Good Core
 Kombinierbar
Good Core

 Manuell erstellt
 Klein
 Unzuverlässig
 Subjektiv
 Teuer
TrustRank

 Good Core Enfernung = Score
   1*β
 Dämpfungsfaktor
  (1/Linkzahl)*β
 Basiert auf „gewollten Links“?
   Veraltete Links
  Spam!
BadRank




 „Umgedrehter Pagerank“
 E(A) durch Spamfilter
  Nicht unbedingt nötig
ParentPenalty

 Schnittmenge eingehender und
  Ausgehender Links einer Domain
  Gross = Vermutlich Spam
  Matrix (A) = 1 wenn Anzahl > Treshold, sonst 0
ParentPenalty

 Iterieren durch A
 Anzahl eingehender Seiten mit An=1
   > Treshold? -> An=1
 Mehrfache Iteration
 Problem: Treshold-Wahl?
Ausblick

 Idee: Kein absoluter Pagerank?
 Unterschiedliche Benutzer wollen
  unterschiedliche Seiten
 Technischer Wettkampf
 Semantic Web?

Más contenido relacionado

Destacado (20)

Segunda cte octubre 2015
Segunda cte octubre 2015Segunda cte octubre 2015
Segunda cte octubre 2015
 
Me pregunto
Me preguntoMe pregunto
Me pregunto
 
Blogs y empleo
Blogs y empleoBlogs y empleo
Blogs y empleo
 
Ein bisschen über mich selbst und meine Familie
Ein bisschen über mich selbst und meine FamilieEin bisschen über mich selbst und meine Familie
Ein bisschen über mich selbst und meine Familie
 
Brenda y santiago xd
Brenda y santiago xdBrenda y santiago xd
Brenda y santiago xd
 
Imagenes en un blog
Imagenes en un blogImagenes en un blog
Imagenes en un blog
 
U1 lamagiadelacomputadoramac indicaciones1ro
U1 lamagiadelacomputadoramac indicaciones1roU1 lamagiadelacomputadoramac indicaciones1ro
U1 lamagiadelacomputadoramac indicaciones1ro
 
Verlagsprogramm Sprachenlernen24
Verlagsprogramm Sprachenlernen24Verlagsprogramm Sprachenlernen24
Verlagsprogramm Sprachenlernen24
 
Estrabismo no comitante HNCH
Estrabismo no comitante HNCHEstrabismo no comitante HNCH
Estrabismo no comitante HNCH
 
Actividades agosto- octubre 2014 Normal Sor Juana Inés de la Cruz, Tehuacán, ...
Actividades agosto- octubre 2014 Normal Sor Juana Inés de la Cruz, Tehuacán, ...Actividades agosto- octubre 2014 Normal Sor Juana Inés de la Cruz, Tehuacán, ...
Actividades agosto- octubre 2014 Normal Sor Juana Inés de la Cruz, Tehuacán, ...
 
Bebebeto1 130216110416-phpapp01
Bebebeto1 130216110416-phpapp01Bebebeto1 130216110416-phpapp01
Bebebeto1 130216110416-phpapp01
 
Artes
ArtesArtes
Artes
 
U1 conocemosy2do
U1 conocemosy2doU1 conocemosy2do
U1 conocemosy2do
 
Que alimentos comer
Que alimentos comerQue alimentos comer
Que alimentos comer
 
Sintesis
SintesisSintesis
Sintesis
 
Presentacion nucleo segunda
Presentacion nucleo segundaPresentacion nucleo segunda
Presentacion nucleo segunda
 
informe tecnico
informe tecnicoinforme tecnico
informe tecnico
 
Cuetionario h web 2.0
Cuetionario h web 2.0Cuetionario h web 2.0
Cuetionario h web 2.0
 
webinale2011_Daniel Höpfner_Förderprogramme für dummies
webinale2011_Daniel Höpfner_Förderprogramme für dummieswebinale2011_Daniel Höpfner_Förderprogramme für dummies
webinale2011_Daniel Höpfner_Förderprogramme für dummies
 
Ensayo corregido
Ensayo corregidoEnsayo corregido
Ensayo corregido
 

Similar a Linkspam: Erkennung und Unterdrückung

10. SEO Stammtisch Ruhrgebiet
10. SEO Stammtisch Ruhrgebiet10. SEO Stammtisch Ruhrgebiet
10. SEO Stammtisch RuhrgebietLexaT
 
Suchmaschinenoptimierung - Basics
Suchmaschinenoptimierung - BasicsSuchmaschinenoptimierung - Basics
Suchmaschinenoptimierung - BasicsMatthias Hotz
 
OMX 2015 | Tracking: Essentielle Kniffe in Google Analytics
OMX 2015 | Tracking: Essentielle Kniffe in Google AnalyticsOMX 2015 | Tracking: Essentielle Kniffe in Google Analytics
OMX 2015 | Tracking: Essentielle Kniffe in Google AnalyticsDaniel Herndler
 
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die FragenPinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die FragenEvgeni Sereda
 
2015 02-06-vortrag-seo-konferenz
2015 02-06-vortrag-seo-konferenz2015 02-06-vortrag-seo-konferenz
2015 02-06-vortrag-seo-konferenzMatthias Gally
 

Similar a Linkspam: Erkennung und Unterdrückung (8)

1x1 Des Suchmaschinen Erfolges
1x1 Des Suchmaschinen Erfolges1x1 Des Suchmaschinen Erfolges
1x1 Des Suchmaschinen Erfolges
 
10. SEO Stammtisch Ruhrgebiet
10. SEO Stammtisch Ruhrgebiet10. SEO Stammtisch Ruhrgebiet
10. SEO Stammtisch Ruhrgebiet
 
Optimierungspotenziale in der internen Verlinkung 2016 (Justus Blümer)
Optimierungspotenziale in der internen Verlinkung 2016 (Justus Blümer)Optimierungspotenziale in der internen Verlinkung 2016 (Justus Blümer)
Optimierungspotenziale in der internen Verlinkung 2016 (Justus Blümer)
 
Suchmaschinenoptimierung - Basics
Suchmaschinenoptimierung - BasicsSuchmaschinenoptimierung - Basics
Suchmaschinenoptimierung - Basics
 
OMX 2015 | Tracking: Essentielle Kniffe in Google Analytics
OMX 2015 | Tracking: Essentielle Kniffe in Google AnalyticsOMX 2015 | Tracking: Essentielle Kniffe in Google Analytics
OMX 2015 | Tracking: Essentielle Kniffe in Google Analytics
 
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die FragenPinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
Pinguin 4.0 Negative SEO & Positive SEO Test und Antworten auf die Fragen
 
Suchmaschinen Optimierung und Eintrag für Malermeisterbetriebe
Suchmaschinen Optimierung und Eintrag für MalermeisterbetriebeSuchmaschinen Optimierung und Eintrag für Malermeisterbetriebe
Suchmaschinen Optimierung und Eintrag für Malermeisterbetriebe
 
2015 02-06-vortrag-seo-konferenz
2015 02-06-vortrag-seo-konferenz2015 02-06-vortrag-seo-konferenz
2015 02-06-vortrag-seo-konferenz
 

Más de Florian Holzhauer

Varnish PHP Unconference Hamburg 2012
Varnish PHP Unconference Hamburg 2012Varnish PHP Unconference Hamburg 2012
Varnish PHP Unconference Hamburg 2012Florian Holzhauer
 
Entwicklung mit Chef und Vagrant - PHPUG HH
Entwicklung mit Chef und Vagrant - PHPUG HHEntwicklung mit Chef und Vagrant - PHPUG HH
Entwicklung mit Chef und Vagrant - PHPUG HHFlorian Holzhauer
 
Text Link Spam-Erkennung und -Unterdrückung
Text Link Spam-Erkennung und -UnterdrückungText Link Spam-Erkennung und -Unterdrückung
Text Link Spam-Erkennung und -UnterdrückungFlorian Holzhauer
 
Slides Link Spam-Erkennung und -Unterdrückung
Slides Link Spam-Erkennung und -UnterdrückungSlides Link Spam-Erkennung und -Unterdrückung
Slides Link Spam-Erkennung und -UnterdrückungFlorian Holzhauer
 
Jabber is more than instant messaging
Jabber is more than instant messagingJabber is more than instant messaging
Jabber is more than instant messagingFlorian Holzhauer
 

Más de Florian Holzhauer (9)

Varnish PHP Unconference Hamburg 2012
Varnish PHP Unconference Hamburg 2012Varnish PHP Unconference Hamburg 2012
Varnish PHP Unconference Hamburg 2012
 
Entwicklung mit Chef und Vagrant - PHPUG HH
Entwicklung mit Chef und Vagrant - PHPUG HHEntwicklung mit Chef und Vagrant - PHPUG HH
Entwicklung mit Chef und Vagrant - PHPUG HH
 
Text Link Spam-Erkennung und -Unterdrückung
Text Link Spam-Erkennung und -UnterdrückungText Link Spam-Erkennung und -Unterdrückung
Text Link Spam-Erkennung und -Unterdrückung
 
Slides Link Spam-Erkennung und -Unterdrückung
Slides Link Spam-Erkennung und -UnterdrückungSlides Link Spam-Erkennung und -Unterdrückung
Slides Link Spam-Erkennung und -Unterdrückung
 
IP Geolocation
IP GeolocationIP Geolocation
IP Geolocation
 
Jabber is more than instant messaging
Jabber is more than instant messagingJabber is more than instant messaging
Jabber is more than instant messaging
 
DTN Routing Verfahren
DTN Routing VerfahrenDTN Routing Verfahren
DTN Routing Verfahren
 
bephpug - varnish & co
bephpug - varnish & cobephpug - varnish & co
bephpug - varnish & co
 
Jabber/XMPP
Jabber/XMPPJabber/XMPP
Jabber/XMPP
 

Linkspam: Erkennung und Unterdrückung