SlideShare ist ein Scribd-Unternehmen logo
1 von 36
Downloaden Sie, um offline zu lesen
Gefällt mir

396

Analyse	
  von	
  
Crawlingproblemen	
  mit	
  
Logfiles	
  und	
  BI-­‐Tools	
  
	
  
Daniel	
  We>e	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 1

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  

Welche	
  Datenquellen	
  können	
  mir	
  bei	
  der	
  
Analyse	
  von	
  Crawling-­‐Problemen	
  helfen?	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 2

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Server-­‐Logs	
  

GWT	
  

Crawler	
  

Linkdatenbanken	
  

Sistrix	
  und	
  Co.	
  

Vorhandene	
  Datenquellen	
  /	
  Datensilos	
  

Seite 3

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Google-­‐Crawling-­‐Daten	
  
• 
• 
	
  
	
  
	
  
	
  	
  

FAIRRANK SE

URLs	
  von	
  platzierten	
  Seiten	
  
Anzahl	
  Indexierter	
  Seiten	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 4

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Google-­‐Crawling-­‐Daten	
  
•  URLs	
  von	
  platzierten	
  Seiten	
  
Teilweise	
  hilfreich	
  zum	
  Aufspüren	
  von	
  URLs,	
  
welche	
  eigentlich	
  nicht	
  im	
  Index	
  sein	
  sollten,	
  
Infos	
  aber	
  auch	
  in	
  den	
  Logs	
  vorhanden	
  
	
  
•  Anzahl	
  Indexierter	
  Seiten	
  
Nur	
  bedingt	
  nutzbar	
  ...	
  Besser	
  GWT	
  
	
  
	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 5

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Google-­‐Crawling-­‐Daten	
  
FAZIT:	
  Diese	
  Daten	
  helfen	
  uns	
  nur	
  wenig	
  
weiter	
  bzw.	
  bringen	
  bei	
  der	
  Analyse	
  keinen	
  
großen	
  Mehrwert	
  
	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 6

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Linkdatenbanken	
  
• 
	
  
	
  
	
  
	
  	
  

FAIRRANK SE

Ziel-­‐URLs	
  von	
  eingehenden	
  Links	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 7

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Linkdatenbanken	
  
•  Ziel-­‐URLs	
  von	
  eingehenden	
  Links	
  
Teilweise	
  hilfreich	
  zum	
  Aufspüren	
  von	
  URLs,	
  
welche	
  eigentlich	
  nicht	
  im	
  Index	
  sein	
  sollten,	
  
Infos	
  aber	
  auch	
  in	
  den	
  Logs	
  vorhanden	
  
	
  
	
  
	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 8

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Linkdatenbanken	
  
FAZIT:	
  Diese	
  Daten	
  helfen	
  uns	
  nur	
  wenig	
  
weiter	
  bzw.	
  bringen	
  bei	
  der	
  Analyse	
  keinen	
  
großen	
  Mehrwert	
  
	
  
	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 9

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Crawler	
  
• 
• 
• 
• 
• 
	
  
	
  
	
  	
  

FAIRRANK SE

Status	
  Codes	
  
Ladezeiten	
  
URL-­‐Struktur	
  /	
  Klickebenen	
  
HTML-­‐Fehler	
  (im	
  HEAD	
  und	
  im	
  BODY)	
  
Interne	
  Pagerank-­‐Berechnung	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 10

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Crawler	
  
Abbild	
  einer	
  „perfekten	
  Welt“	
  bzw.	
  eines	
  
aktuellen	
  Status	
  
	
  
Der	
  Google-­‐Bot	
  nutzt	
  aber	
  eine	
  Vielzahl	
  
weiterer	
  Informa`onsquellen	
  um	
  Unterseiten	
  
zu	
  finden	
  (Chrome,	
  Toolbar,	
  Verlinkungen,	
  
historische	
  Daten	
  etc.)	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 11

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Crawler	
  
FAZIT:	
  Diese	
  Informa`onen	
  helfen	
  dabei	
  die	
  
Struktur	
  einer	
  Seite	
  zu	
  verbessern,	
  sie	
  lassen	
  
dabei	
  aber	
  die	
  Historie	
  der	
  Domain	
  außer	
  
acht.	
  Weiterhin	
  habe	
  ich	
  keine	
  Informa`onen	
  
darüber	
  was	
  der	
  Googlebot	
  wirklich	
  auf	
  der	
  
Seite	
  macht.	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 12

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Google	
  Webmaster	
  Tools	
  
• 

Crawling	
  Fehler	
  
– 
– 
– 
– 
– 
– 
– 

• 

Crawling	
  Sta`s`ken	
  
– 
– 
– 

• 

DNS	
  Fehler	
  
Serververbindung	
  
Robots.txt	
  
Serverfehler	
  
404	
  
Soc	
  404	
  
Zugriff	
  verweigert	
  
Gecrawlte	
  Seiten	
  pro	
  Tag	
  
Heruntergeladene	
  Kilobyte	
  pro	
  Tag	
  
Durchschni>liche	
  Seitenladezeit	
  

Sitemaps	
  
– 

Eingereicht	
  vs.	
  Indexiert	
  

	
  
	
  
	
  
	
  	
  
FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 13

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Google	
  Webmaster	
  Tools	
  
•  Crawling	
  Fehler	
  
Google	
  liefert	
  hier	
  leider	
  in	
  vielen	
  Fällen	
  nur	
  
„Auszüge“	
  von	
  Problemen	
  
	
  
•  Crawling	
  Sta`s`ken	
  
Diese	
  Daten	
  sind	
  soweit	
  hochaggregiert,	
  dass	
  
sie	
  nur	
  noch	
  grobe	
  Anhaltspunkte	
  liefern	
  und	
  
damit	
  auch	
  nur	
  wenig	
  helfen	
  
	
  
•  Sitemaps	
  
Auch	
  hier	
  erhalte	
  ich	
  keine	
  Detail-­‐
Informa`onen	
  
	
  
	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 14

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Google	
  Webmaster	
  Tools	
  
Fazit:	
  Die	
  GWT	
  helfen	
  bei	
  der	
  Analyse	
  von	
  
Crawling-­‐Fehlern,	
  leider	
  sind	
  die	
  
Informa`onen	
  oc	
  lückenhac	
  und	
  zu	
  hoch	
  
aggregiert	
  und	
  teilweise	
  auch	
  einfach	
  nur	
  
FALSCH!	
  
	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 15

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Server-­‐Logs	
  
• 
• 
• 
• 
• 
• 
	
  
	
  
	
  	
  

FAIRRANK SE

Gesamtbild	
  über	
  die	
  Crawling-­‐Ak`vitäten	
  
des	
  Google-­‐Bots	
  
Datum/Uhrzeit	
  
Bot	
  
Aufgerufene	
  URL	
  
Referrer	
  
Status	
  Code	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 16

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Verfügbare	
  Datenquellen	
  

Server-­‐Logs	
  
• 
• 
• 
• 

FAIRRANK SE

Große	
  Datenmengen	
  
Daten	
  müssen	
  umgeformt	
  und	
  in	
  
Datenbanken	
  eingespielt	
  werden	
  
Daten	
  müssen	
  gefiltert	
  werden	
  
Fazit:	
  Interessante	
  Daten	
  ...	
  aber	
  was	
  
kann	
  ich	
  genau	
  damit	
  machen?	
  Helfen	
  sie	
  
mir	
  wirklich?	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 17

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  

Coole	
  Daten	
  

Crawler	
  

Server-­‐Logs	
  

Zusammenführung	
  von	
  Server-­‐Logs	
  mit	
  Crawling-­‐Daten	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 18

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  

Coole	
  Daten	
  

Zusammenführung	
  von	
  Server-­‐Logs	
  mit	
  Crawling-­‐Daten	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 19

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Analysemöglichkeiten	
  durch	
  die	
  Nutzung	
  von	
  Logfiles	
  mit	
  Crawling-­‐Daten	
  
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 

Welche	
  URLs	
  meiner	
  Seite	
  wurden	
  die	
  letzten	
  4	
  Wochen	
  gecrawlt?	
  
Wie	
  verteilt	
  sich	
  das	
  auf	
  die	
  Klick`efe	
  in	
  meinem	
  Projekt?	
  
Wie	
  hoch	
  ist	
  die	
  durchschni>liche	
  Crawlrate	
  von	
  einzelnen	
  Seiten	
  und	
  von	
  Seitentypen/
Kategorien?	
  
ak`ve	
  URLs	
  nach	
  Status	
  Code	
  
Wie	
  viel	
  Prozent	
  der	
  Crawlrate	
  wird	
  für	
  nicht	
  ak`ve	
  Seiten	
  verwendet?	
  
URLs	
  welche	
  nicht	
  ak`v	
  sind	
  (also	
  im	
  eigenen	
  Crawl	
  nicht	
  vorhanden)	
  jedoch	
  einen	
  
Status	
  200	
  für	
  den	
  Googlebot	
  zurückliefern	
  
Welche	
  ak`ven	
  URLs	
  wurden	
  nicht	
  gecrawlt?	
  
Mi>lerer	
  Zeitraum	
  zwischen	
  Veröffentlichung	
  und	
  erstem	
  Crawl?	
  
.	
  
.	
  

	
  
	
  
	
  
FAIRRANK SE
	
  	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 20

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 21

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  
STRUCR:	
  Keine	
  wesentlichen	
  Fehler	
  gefunden	
  
	
  
	
   Gesamt	
  	
  	
  	
  	
  	
  :	
  2785	
  Seiten	
  
	
   Status	
  200	
  :	
  2687	
  	
  
	
   Status	
  301	
  :	
  48	
  
	
   Status	
  302	
  :	
  21	
  
	
   Status	
  404	
  :	
  32	
  
	
  
	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 22

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  
STRUCR:	
  Keine	
  wesentlichen	
  Fehler	
  gefunden	
  
	
  
	
   Gesamt	
  	
  	
  	
  	
  	
  :	
  2785	
  Seiten	
  
	
   Status	
  200	
  :	
  2687	
  	
  
	
   Status	
  301	
  :	
  48	
  
…	
  und	
  nun	
  die	
  Logfiles	
  J	
  
	
   Status	
  302	
  :	
  21	
  
	
   Status	
  404	
  :	
  32	
  
	
  
	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 23

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  
STRUCR:	
  Keine	
  wesentlichen	
  Fehler	
  gefunden	
  
	
  
	
   Gesamt	
  	
  	
  	
  	
  	
  :	
  2785	
  Seiten	
  
	
   Status	
  200	
  :	
  2687	
  	
  
	
   Status	
  301	
  :	
  48	
  
…	
  und	
  nun	
  die	
  Logfiles	
  
	
   Status	
  302	
  :	
  21	
  
	
   Status	
  404	
  :	
  32	
  
	
  
Gesamt	
  	
  	
  	
  	
  	
  :	
  50.136	
  Unique	
  URLs!	
  
	
  
Status	
  200	
  :	
  25.400!	
  
Status	
  301	
  :	
  23.197	
  
Status	
  30X	
  :	
  822	
  
Status	
  404	
  :	
  1.640	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 24

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 25

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  
	
  
	
  
	
  
Google:	
  50136	
  Unique	
  URLs	
  
	
  
	
  
	
  
	
  
	
  

vs.	
  

STRUCR:	
  2.785	
  Unique	
  URLs	
  

94,45	
  %	
  

der	
  von	
  Google	
  gecrawlten	
  URLs	
  sind	
  
nicht	
  teil	
  der	
  aktuellen	
  Seitenstruktur	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 26

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  

FAIRRANK SE

75,74	
  %	
  
der	
  von	
  Google	
  gecrawlten	
  URLs	
  wurden	
  	
  
in	
  dem	
  Monat	
  nur	
  1mal	
  gecrawlt	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 27

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  

FAIRRANK SE

600mal	
  
wurde	
  die	
  Startseite	
  gecrawled	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 28

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  

Anzahl	
  Crawls	
  pro	
  Monat	
  (Top	
  20)	
  
600	
  

500	
  

400	
  

300	
  

200	
  

100	
  

0	
  
1	
  

FAIRRANK SE

2	
  

3	
  

4	
  

5	
  

6	
  

7	
  

8	
  

9	
  

10	
  

11	
  

12	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

13	
  

14	
  

15	
  

16	
  

Seite 29

17	
  

18	
  

19	
  

20	
  

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  

Crawlrate	
  vs.	
  Klickebene	
  
100%	
  
90%	
  
80%	
  
70%	
  
60%	
  
50%	
  
40%	
  
30%	
  
20%	
  
10%	
  
0%	
  
0	
  

1	
  
Crawled	
  by	
  Google	
  

FAIRRANK SE

2	
  

3	
  

4	
  

Not	
  crawled	
  by	
  Google	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 30

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  

Durchschni>liche	
  Crawls	
  pro	
  Monat	
  je	
  Seite	
  je	
  Klickebene	
  
625	
  

125	
  

25	
  

9	
  

5	
  

10	
  
5	
  
2	
  

1	
  
0	
  

FAIRRANK SE

1	
  

2	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

3	
  

4	
  

Seite 31

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  

Visits	
  vs.	
  Klickebene	
  
100%	
  
90%	
  
80%	
  
70%	
  
60%	
  
50%	
  
40%	
  
30%	
  
20%	
  
10%	
  
0%	
  
0	
  

1	
  
Seiten	
  mit	
  Besuchen	
  

FAIRRANK SE

2	
  

3	
  

4	
  

Seiten	
  ohne	
  Besuche	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 32

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Auswertungen	
  eines	
  echten	
  Kundenprojektes	
  

Anzahl	
  eingehender	
  Links	
  vs.	
  SEO	
  Visits	
  
250	
  

90	
  
80	
  

80	
  

200	
  

70	
  
60	
  

150	
  
100	
  

50	
  
40	
  

205	
  

30	
  
20	
  

50	
  

12	
  

0	
  
Kategorieseiten	
  
Durchschni>lich	
  eingehende	
  Links	
  

FAIRRANK SE

10	
  

16	
  

0	
  

Produktseiten	
  
Durchschni>liche	
  Anzahl	
  SEO	
  Visits	
  

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 33

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Kommende	
  Maßnahmen	
  bei	
  dem	
  konkreten	
  Projekt	
  
• 
• 
• 
• 
• 
• 

Veraltete	
  URLs	
  ohne	
  eingehende	
  Links,	
  welche	
  aktuell	
  per	
  301	
  redirected	
  werden	
  für	
  
den	
  Bot	
  gesperrt	
  oder	
  vor	
  einer	
  Sperrung	
  noch	
  einige	
  Zeit	
  per	
  410	
  antworten.	
  
Bes`mmte	
  URL-­‐Parameter	
  generell	
  für	
  den	
  Bot	
  sperren	
  (in	
  diesem	
  Fall	
  
„recommenda`on-­‐Ids“)	
  
URLs	
  welche	
  per	
  Canonical	
  „umgebogen“	
  sind	
  und	
  keine	
  eingehenden	
  Links	
  haben	
  für	
  
den	
  Bot	
  sperren	
  
Interne	
  Linkstruktur	
  überarbeiten	
  
Englische	
  Version	
  in	
  eigene	
  Domain	
  „abspalten“	
  
404	
  Seiten	
  ggf.	
  durch	
  410	
  ersetzen.	
  

	
  
	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 34

Oktober 2013
SEODAY	
  2013	
  -­‐	
  Analyse	
  von	
  Crawlingproblemen	
  
Fazit	
  
• 
• 

Google	
  vergisst	
  nichts	
  …	
  GAR	
  NICHTS!	
  
Google	
  besucht	
  auch	
  über	
  1,5	
  Jahre	
  später	
  noch	
  URLs,	
  welche	
  per	
  301	
  umgeleitet	
  
werden,	
  oder	
  einen	
  404	
  liefern	
  

• 

Der	
  Googlebot	
  hat	
  im	
  gleichen	
  Zeitraum	
  250%	
  mehr	
  Unique	
  URLs	
  gecrawlt	
  
als	
  der	
  Bingbot	
  
Google	
  arbeitet	
  sehr	
  ineffizient!	
  

• 

•  41,54%	
  der	
  „Googlebot“	
  Requests	
  kamen	
  nicht	
  von	
  Google	
  J	
  
	
  

	
  
	
  
	
  
	
  	
  

FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 35

Oktober 2013
Gefällt mir

396

Vielen	
  Dank	
  

Bildrechte	
  /	
  Lizenzen	
  
Hard	
  disk	
  and	
  database	
  icon	
  ©	
  Scanrail	
  -­‐	
  Fotolia.com	
  
error	
  ©	
  olly	
  -­‐	
  Fotolia.com	
  
FAIRRANK SE

SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette

Seite 36

Oktober 2013

Weitere ähnliche Inhalte

Andere mochten auch

Weninger News Akkreditierung Austria
Weninger News Akkreditierung AustriaWeninger News Akkreditierung Austria
Weninger News Akkreditierung AustriaWerner Weninger
 
Manual de Identidad visual corporativa
Manual de Identidad visual corporativaManual de Identidad visual corporativa
Manual de Identidad visual corporativaDa_luz
 
Webdesign aachen inspiration im beruf
Webdesign aachen   inspiration im berufWebdesign aachen   inspiration im beruf
Webdesign aachen inspiration im berufJohn Morakal
 
Conversión y reparación de datos2012
Conversión y reparación de  datos2012Conversión y reparación de  datos2012
Conversión y reparación de datos2012Luis Ortiz
 
Jambo Bukoba e. V. | Kinder durch Sport stark machen
Jambo Bukoba e. V. | Kinder durch Sport stark machenJambo Bukoba e. V. | Kinder durch Sport stark machen
Jambo Bukoba e. V. | Kinder durch Sport stark machenJambo Bukoba e. V.
 
Relación médico paciente
Relación médico   pacienteRelación médico   paciente
Relación médico pacienteHanae Masuoka
 
Was wir glauben
Was wir glaubenWas wir glauben
Was wir glaubenBLLV
 
Акафист Божией Матери в честь иконы Её «Умягчение злых сердец»
Акафист Божией Матери в честь иконы Её «Умягчение злых сердец»Акафист Божией Матери в честь иконы Её «Умягчение злых сердец»
Акафист Божией Матери в честь иконы Её «Умягчение злых сердец»DimOK AD
 
Sistema de gestion de contenidos
Sistema de gestion de contenidosSistema de gestion de contenidos
Sistema de gestion de contenidosJunior Georghinno
 
Indigenas urbanos en guadalajara
Indigenas urbanos en guadalajaraIndigenas urbanos en guadalajara
Indigenas urbanos en guadalajarayeseniauribe1
 
Clase no3 analisis_de_la_demanda_y_la_oferta
Clase no3 analisis_de_la_demanda_y_la_ofertaClase no3 analisis_de_la_demanda_y_la_oferta
Clase no3 analisis_de_la_demanda_y_la_ofertachuchoborre
 
Infofolder Management und IT - Lehrprogramm
Infofolder Management und IT - LehrprogrammInfofolder Management und IT - Lehrprogramm
Infofolder Management und IT - LehrprogrammCourse MIT
 

Andere mochten auch (20)

Weninger News Akkreditierung Austria
Weninger News Akkreditierung AustriaWeninger News Akkreditierung Austria
Weninger News Akkreditierung Austria
 
Manual de Identidad visual corporativa
Manual de Identidad visual corporativaManual de Identidad visual corporativa
Manual de Identidad visual corporativa
 
B learning
B learningB learning
B learning
 
Webdesign aachen inspiration im beruf
Webdesign aachen   inspiration im berufWebdesign aachen   inspiration im beruf
Webdesign aachen inspiration im beruf
 
Die wendemaschine
Die wendemaschineDie wendemaschine
Die wendemaschine
 
Conversión y reparación de datos2012
Conversión y reparación de  datos2012Conversión y reparación de  datos2012
Conversión y reparación de datos2012
 
Jambo Bukoba e. V. | Kinder durch Sport stark machen
Jambo Bukoba e. V. | Kinder durch Sport stark machenJambo Bukoba e. V. | Kinder durch Sport stark machen
Jambo Bukoba e. V. | Kinder durch Sport stark machen
 
Relación médico paciente
Relación médico   pacienteRelación médico   paciente
Relación médico paciente
 
Los videojuegos en pedagogía
Los videojuegos en pedagogíaLos videojuegos en pedagogía
Los videojuegos en pedagogía
 
Manual plan de vida
Manual plan de vidaManual plan de vida
Manual plan de vida
 
Lindgren astrid -_pippi_langstrumpf
Lindgren astrid -_pippi_langstrumpfLindgren astrid -_pippi_langstrumpf
Lindgren astrid -_pippi_langstrumpf
 
Was wir glauben
Was wir glaubenWas wir glauben
Was wir glauben
 
Акафист Божией Матери в честь иконы Её «Умягчение злых сердец»
Акафист Божией Матери в честь иконы Её «Умягчение злых сердец»Акафист Божией Матери в честь иконы Её «Умягчение злых сердец»
Акафист Божией Матери в честь иконы Её «Умягчение злых сердец»
 
Telecomunicacion
TelecomunicacionTelecomunicacion
Telecomunicacion
 
Sistema de gestion de contenidos
Sistema de gestion de contenidosSistema de gestion de contenidos
Sistema de gestion de contenidos
 
Indigenas urbanos en guadalajara
Indigenas urbanos en guadalajaraIndigenas urbanos en guadalajara
Indigenas urbanos en guadalajara
 
Clase no3 analisis_de_la_demanda_y_la_oferta
Clase no3 analisis_de_la_demanda_y_la_ofertaClase no3 analisis_de_la_demanda_y_la_oferta
Clase no3 analisis_de_la_demanda_y_la_oferta
 
Paseo por segovia
Paseo por segoviaPaseo por segovia
Paseo por segovia
 
La comprension del cerebro jun2011
La comprension del cerebro  jun2011La comprension del cerebro  jun2011
La comprension del cerebro jun2011
 
Infofolder Management und IT - Lehrprogramm
Infofolder Management und IT - LehrprogrammInfofolder Management und IT - Lehrprogramm
Infofolder Management und IT - Lehrprogramm
 

Ähnlich wie SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

Strukturierte daten in der Suchmaschine
Strukturierte daten in der SuchmaschineStrukturierte daten in der Suchmaschine
Strukturierte daten in der SuchmaschineOliver Mösing
 
Google Analytics Konferenz 2013: Alexander Knett, e-dialog: Website Speed Ana...
Google Analytics Konferenz 2013: Alexander Knett, e-dialog: Website Speed Ana...Google Analytics Konferenz 2013: Alexander Knett, e-dialog: Website Speed Ana...
Google Analytics Konferenz 2013: Alexander Knett, e-dialog: Website Speed Ana...e-dialog GmbH
 
Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018
Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018
Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018Bastian Grimm
 
Vortrag technisches SEO Oliver Mösing
Vortrag technisches SEO Oliver MösingVortrag technisches SEO Oliver Mösing
Vortrag technisches SEO Oliver MösingOliver Mösing
 
Google Analytics Workshop Day 2013: Angela Fauck: Extending Reports & Dashboards
Google Analytics Workshop Day 2013: Angela Fauck: Extending Reports & DashboardsGoogle Analytics Workshop Day 2013: Angela Fauck: Extending Reports & Dashboards
Google Analytics Workshop Day 2013: Angela Fauck: Extending Reports & Dashboardse-dialog GmbH
 
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secretsSEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secretsBastian Grimm
 
PERFORMIX.Wien 2016 – Mit Offline Daten zum SEO Erfolg – Stephan Wild (SPAR) ...
PERFORMIX.Wien 2016 – Mit Offline Daten zum SEO Erfolg – Stephan Wild (SPAR) ...PERFORMIX.Wien 2016 – Mit Offline Daten zum SEO Erfolg – Stephan Wild (SPAR) ...
PERFORMIX.Wien 2016 – Mit Offline Daten zum SEO Erfolg – Stephan Wild (SPAR) ...Werbeplanung.at Summit
 
Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014121WATT GmbH
 
medien-sprechstunde: 5 Jahre / 5 Themen / 5 Referentinnen
medien-sprechstunde: 5 Jahre / 5 Themen / 5 Referentinnenmedien-sprechstunde: 5 Jahre / 5 Themen / 5 Referentinnen
medien-sprechstunde: 5 Jahre / 5 Themen / 5 Referentinnenmedien-sprechstunde
 
SEO News Oktober 2022: Google Spam Update / Google Looker
SEO News Oktober 2022: Google Spam Update / Google LookerSEO News Oktober 2022: Google Spam Update / Google Looker
SEO News Oktober 2022: Google Spam Update / Google Lookerdiva-e
 
SEO-Controlling mit Google Analytics koks.digital 2016
SEO-Controlling mit Google Analytics koks.digital 2016SEO-Controlling mit Google Analytics koks.digital 2016
SEO-Controlling mit Google Analytics koks.digital 2016AGOM_Online_Marketing
 
SEMrush Overview Präsentation auf der DiMarEx
SEMrush Overview Präsentation auf der DiMarExSEMrush Overview Präsentation auf der DiMarEx
SEMrush Overview Präsentation auf der DiMarExEvgeni Sereda
 
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...121WATT GmbH
 
SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019Evgeni Sereda
 
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...JustRelate
 

Ähnlich wie SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles (20)

Strukturierte daten in der Suchmaschine
Strukturierte daten in der SuchmaschineStrukturierte daten in der Suchmaschine
Strukturierte daten in der Suchmaschine
 
Google Analytics Konferenz 2013: Alexander Knett, e-dialog: Website Speed Ana...
Google Analytics Konferenz 2013: Alexander Knett, e-dialog: Website Speed Ana...Google Analytics Konferenz 2013: Alexander Knett, e-dialog: Website Speed Ana...
Google Analytics Konferenz 2013: Alexander Knett, e-dialog: Website Speed Ana...
 
Google Search Console für SEO einsetzen!
Google Search Console für SEO einsetzen!Google Search Console für SEO einsetzen!
Google Search Console für SEO einsetzen!
 
Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018
Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018
Data-driven Technical SEO: Logfile Auditing - SEOkomm 2018
 
Vortrag technisches SEO Oliver Mösing
Vortrag technisches SEO Oliver MösingVortrag technisches SEO Oliver Mösing
Vortrag technisches SEO Oliver Mösing
 
Google Analytics Workshop Day 2013: Angela Fauck: Extending Reports & Dashboards
Google Analytics Workshop Day 2013: Angela Fauck: Extending Reports & DashboardsGoogle Analytics Workshop Day 2013: Angela Fauck: Extending Reports & Dashboards
Google Analytics Workshop Day 2013: Angela Fauck: Extending Reports & Dashboards
 
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secretsSEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
SEOday Köln 2020 - Surprise, Surprise - 5 SEO secrets
 
PERFORMIX.Wien 2016 – Mit Offline Daten zum SEO Erfolg – Stephan Wild (SPAR) ...
PERFORMIX.Wien 2016 – Mit Offline Daten zum SEO Erfolg – Stephan Wild (SPAR) ...PERFORMIX.Wien 2016 – Mit Offline Daten zum SEO Erfolg – Stephan Wild (SPAR) ...
PERFORMIX.Wien 2016 – Mit Offline Daten zum SEO Erfolg – Stephan Wild (SPAR) ...
 
Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014Google Analytics & Seo @seosixt wiesn 2014
Google Analytics & Seo @seosixt wiesn 2014
 
Seo Hilfe
Seo HilfeSeo Hilfe
Seo Hilfe
 
medien-sprechstunde: 5 Jahre / 5 Themen / 5 Referentinnen
medien-sprechstunde: 5 Jahre / 5 Themen / 5 Referentinnenmedien-sprechstunde: 5 Jahre / 5 Themen / 5 Referentinnen
medien-sprechstunde: 5 Jahre / 5 Themen / 5 Referentinnen
 
SEO News Oktober 2022: Google Spam Update / Google Looker
SEO News Oktober 2022: Google Spam Update / Google LookerSEO News Oktober 2022: Google Spam Update / Google Looker
SEO News Oktober 2022: Google Spam Update / Google Looker
 
SEO-Controlling mit Google Analytics koks.digital 2016
SEO-Controlling mit Google Analytics koks.digital 2016SEO-Controlling mit Google Analytics koks.digital 2016
SEO-Controlling mit Google Analytics koks.digital 2016
 
SEO in Russland
SEO in RusslandSEO in Russland
SEO in Russland
 
SEOlytics & OPENsiteexplorer
SEOlytics & OPENsiteexplorerSEOlytics & OPENsiteexplorer
SEOlytics & OPENsiteexplorer
 
SEMrush Overview Präsentation auf der DiMarEx
SEMrush Overview Präsentation auf der DiMarExSEMrush Overview Präsentation auf der DiMarEx
SEMrush Overview Präsentation auf der DiMarEx
 
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
Google Analytics Einführung: 5 Tipps wie Du Google Analytics effektiv einsetz...
 
SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019
 
Google (not provided)
Google (not provided)Google (not provided)
Google (not provided)
 
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...
White Paper: Suchmaschinenoptimierung – Websites nachhaltig für Suchmaschinen...
 

SEODAY 2013 - Daniel Wette - Analyse von Crawlingproblemen mit Logfiles

  • 1. Gefällt mir 396 Analyse  von   Crawlingproblemen  mit   Logfiles  und  BI-­‐Tools     Daniel  We>e   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 1 Oktober 2013
  • 2. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Welche  Datenquellen  können  mir  bei  der   Analyse  von  Crawling-­‐Problemen  helfen?   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 2 Oktober 2013
  • 3. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Server-­‐Logs   GWT   Crawler   Linkdatenbanken   Sistrix  und  Co.   Vorhandene  Datenquellen  /  Datensilos   Seite 3 Oktober 2013
  • 4. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Google-­‐Crawling-­‐Daten   •  •            FAIRRANK SE URLs  von  platzierten  Seiten   Anzahl  Indexierter  Seiten   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 4 Oktober 2013
  • 5. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Google-­‐Crawling-­‐Daten   •  URLs  von  platzierten  Seiten   Teilweise  hilfreich  zum  Aufspüren  von  URLs,   welche  eigentlich  nicht  im  Index  sein  sollten,   Infos  aber  auch  in  den  Logs  vorhanden     •  Anzahl  Indexierter  Seiten   Nur  bedingt  nutzbar  ...  Besser  GWT             FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 5 Oktober 2013
  • 6. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Google-­‐Crawling-­‐Daten   FAZIT:  Diese  Daten  helfen  uns  nur  wenig   weiter  bzw.  bringen  bei  der  Analyse  keinen   großen  Mehrwert           FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 6 Oktober 2013
  • 7. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Linkdatenbanken   •            FAIRRANK SE Ziel-­‐URLs  von  eingehenden  Links   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 7 Oktober 2013
  • 8. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Linkdatenbanken   •  Ziel-­‐URLs  von  eingehenden  Links   Teilweise  hilfreich  zum  Aufspüren  von  URLs,   welche  eigentlich  nicht  im  Index  sein  sollten,   Infos  aber  auch  in  den  Logs  vorhanden               FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 8 Oktober 2013
  • 9. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Linkdatenbanken   FAZIT:  Diese  Daten  helfen  uns  nur  wenig   weiter  bzw.  bringen  bei  der  Analyse  keinen   großen  Mehrwert             FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 9 Oktober 2013
  • 10. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Crawler   •  •  •  •  •          FAIRRANK SE Status  Codes   Ladezeiten   URL-­‐Struktur  /  Klickebenen   HTML-­‐Fehler  (im  HEAD  und  im  BODY)   Interne  Pagerank-­‐Berechnung   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 10 Oktober 2013
  • 11. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Crawler   Abbild  einer  „perfekten  Welt“  bzw.  eines   aktuellen  Status     Der  Google-­‐Bot  nutzt  aber  eine  Vielzahl   weiterer  Informa`onsquellen  um  Unterseiten   zu  finden  (Chrome,  Toolbar,  Verlinkungen,   historische  Daten  etc.)         FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 11 Oktober 2013
  • 12. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Crawler   FAZIT:  Diese  Informa`onen  helfen  dabei  die   Struktur  einer  Seite  zu  verbessern,  sie  lassen   dabei  aber  die  Historie  der  Domain  außer   acht.  Weiterhin  habe  ich  keine  Informa`onen   darüber  was  der  Googlebot  wirklich  auf  der   Seite  macht.         FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 12 Oktober 2013
  • 13. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Google  Webmaster  Tools   •  Crawling  Fehler   –  –  –  –  –  –  –  •  Crawling  Sta`s`ken   –  –  –  •  DNS  Fehler   Serververbindung   Robots.txt   Serverfehler   404   Soc  404   Zugriff  verweigert   Gecrawlte  Seiten  pro  Tag   Heruntergeladene  Kilobyte  pro  Tag   Durchschni>liche  Seitenladezeit   Sitemaps   –  Eingereicht  vs.  Indexiert             FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 13 Oktober 2013
  • 14. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Google  Webmaster  Tools   •  Crawling  Fehler   Google  liefert  hier  leider  in  vielen  Fällen  nur   „Auszüge“  von  Problemen     •  Crawling  Sta`s`ken   Diese  Daten  sind  soweit  hochaggregiert,  dass   sie  nur  noch  grobe  Anhaltspunkte  liefern  und   damit  auch  nur  wenig  helfen     •  Sitemaps   Auch  hier  erhalte  ich  keine  Detail-­‐ Informa`onen             FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 14 Oktober 2013
  • 15. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Google  Webmaster  Tools   Fazit:  Die  GWT  helfen  bei  der  Analyse  von   Crawling-­‐Fehlern,  leider  sind  die   Informa`onen  oc  lückenhac  und  zu  hoch   aggregiert  und  teilweise  auch  einfach  nur   FALSCH!           FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 15 Oktober 2013
  • 16. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Server-­‐Logs   •  •  •  •  •  •          FAIRRANK SE Gesamtbild  über  die  Crawling-­‐Ak`vitäten   des  Google-­‐Bots   Datum/Uhrzeit   Bot   Aufgerufene  URL   Referrer   Status  Code   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 16 Oktober 2013
  • 17. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Verfügbare  Datenquellen   Server-­‐Logs   •  •  •  •  FAIRRANK SE Große  Datenmengen   Daten  müssen  umgeformt  und  in   Datenbanken  eingespielt  werden   Daten  müssen  gefiltert  werden   Fazit:  Interessante  Daten  ...  aber  was   kann  ich  genau  damit  machen?  Helfen  sie   mir  wirklich?   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 17 Oktober 2013
  • 18. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Coole  Daten   Crawler   Server-­‐Logs   Zusammenführung  von  Server-­‐Logs  mit  Crawling-­‐Daten   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 18 Oktober 2013
  • 19. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Coole  Daten   Zusammenführung  von  Server-­‐Logs  mit  Crawling-­‐Daten   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 19 Oktober 2013
  • 20. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Analysemöglichkeiten  durch  die  Nutzung  von  Logfiles  mit  Crawling-­‐Daten   •  •  •  •  •  •  •  •  •  •  Welche  URLs  meiner  Seite  wurden  die  letzten  4  Wochen  gecrawlt?   Wie  verteilt  sich  das  auf  die  Klick`efe  in  meinem  Projekt?   Wie  hoch  ist  die  durchschni>liche  Crawlrate  von  einzelnen  Seiten  und  von  Seitentypen/ Kategorien?   ak`ve  URLs  nach  Status  Code   Wie  viel  Prozent  der  Crawlrate  wird  für  nicht  ak`ve  Seiten  verwendet?   URLs  welche  nicht  ak`v  sind  (also  im  eigenen  Crawl  nicht  vorhanden)  jedoch  einen   Status  200  für  den  Googlebot  zurückliefern   Welche  ak`ven  URLs  wurden  nicht  gecrawlt?   Mi>lerer  Zeitraum  zwischen  Veröffentlichung  und  erstem  Crawl?   .   .         FAIRRANK SE     SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 20 Oktober 2013
  • 21. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 21 Oktober 2013
  • 22. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   STRUCR:  Keine  wesentlichen  Fehler  gefunden       Gesamt            :  2785  Seiten     Status  200  :  2687       Status  301  :  48     Status  302  :  21     Status  404  :  32       FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 22 Oktober 2013
  • 23. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   STRUCR:  Keine  wesentlichen  Fehler  gefunden       Gesamt            :  2785  Seiten     Status  200  :  2687       Status  301  :  48   …  und  nun  die  Logfiles  J     Status  302  :  21     Status  404  :  32       FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 23 Oktober 2013
  • 24. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   STRUCR:  Keine  wesentlichen  Fehler  gefunden       Gesamt            :  2785  Seiten     Status  200  :  2687       Status  301  :  48   …  und  nun  die  Logfiles     Status  302  :  21     Status  404  :  32     Gesamt            :  50.136  Unique  URLs!     Status  200  :  25.400!   Status  301  :  23.197   Status  30X  :  822   Status  404  :  1.640   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 24 Oktober 2013
  • 25. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 25 Oktober 2013
  • 26. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes         Google:  50136  Unique  URLs             vs.   STRUCR:  2.785  Unique  URLs   94,45  %   der  von  Google  gecrawlten  URLs  sind   nicht  teil  der  aktuellen  Seitenstruktur   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 26 Oktober 2013
  • 27. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes                   FAIRRANK SE 75,74  %   der  von  Google  gecrawlten  URLs  wurden     in  dem  Monat  nur  1mal  gecrawlt   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 27 Oktober 2013
  • 28. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes                   FAIRRANK SE 600mal   wurde  die  Startseite  gecrawled   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 28 Oktober 2013
  • 29. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   Anzahl  Crawls  pro  Monat  (Top  20)   600   500   400   300   200   100   0   1   FAIRRANK SE 2   3   4   5   6   7   8   9   10   11   12   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette 13   14   15   16   Seite 29 17   18   19   20   Oktober 2013
  • 30. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   Crawlrate  vs.  Klickebene   100%   90%   80%   70%   60%   50%   40%   30%   20%   10%   0%   0   1   Crawled  by  Google   FAIRRANK SE 2   3   4   Not  crawled  by  Google   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 30 Oktober 2013
  • 31. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   Durchschni>liche  Crawls  pro  Monat  je  Seite  je  Klickebene   625   125   25   9   5   10   5   2   1   0   FAIRRANK SE 1   2   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette 3   4   Seite 31 Oktober 2013
  • 32. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   Visits  vs.  Klickebene   100%   90%   80%   70%   60%   50%   40%   30%   20%   10%   0%   0   1   Seiten  mit  Besuchen   FAIRRANK SE 2   3   4   Seiten  ohne  Besuche   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 32 Oktober 2013
  • 33. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Auswertungen  eines  echten  Kundenprojektes   Anzahl  eingehender  Links  vs.  SEO  Visits   250   90   80   80   200   70   60   150   100   50   40   205   30   20   50   12   0   Kategorieseiten   Durchschni>lich  eingehende  Links   FAIRRANK SE 10   16   0   Produktseiten   Durchschni>liche  Anzahl  SEO  Visits   SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 33 Oktober 2013
  • 34. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Kommende  Maßnahmen  bei  dem  konkreten  Projekt   •  •  •  •  •  •  Veraltete  URLs  ohne  eingehende  Links,  welche  aktuell  per  301  redirected  werden  für   den  Bot  gesperrt  oder  vor  einer  Sperrung  noch  einige  Zeit  per  410  antworten.   Bes`mmte  URL-­‐Parameter  generell  für  den  Bot  sperren  (in  diesem  Fall   „recommenda`on-­‐Ids“)   URLs  welche  per  Canonical  „umgebogen“  sind  und  keine  eingehenden  Links  haben  für   den  Bot  sperren   Interne  Linkstruktur  überarbeiten   Englische  Version  in  eigene  Domain  „abspalten“   404  Seiten  ggf.  durch  410  ersetzen.             FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 34 Oktober 2013
  • 35. SEODAY  2013  -­‐  Analyse  von  Crawlingproblemen   Fazit   •  •  Google  vergisst  nichts  …  GAR  NICHTS!   Google  besucht  auch  über  1,5  Jahre  später  noch  URLs,  welche  per  301  umgeleitet   werden,  oder  einen  404  liefern   •  Der  Googlebot  hat  im  gleichen  Zeitraum  250%  mehr  Unique  URLs  gecrawlt   als  der  Bingbot   Google  arbeitet  sehr  ineffizient!   •  •  41,54%  der  „Googlebot“  Requests  kamen  nicht  von  Google  J               FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 35 Oktober 2013
  • 36. Gefällt mir 396 Vielen  Dank   Bildrechte  /  Lizenzen   Hard  disk  and  database  icon  ©  Scanrail  -­‐  Fotolia.com   error  ©  olly  -­‐  Fotolia.com   FAIRRANK SE SEODAY 2013 – Analyse von Crawlingproblemen - Daniel Wette Seite 36 Oktober 2013