2. • Jak funguje vyhledávání a SeznamBot
• Co je to kanonizace teoreticky i prakticky
• Jaké funkčnosti brzy nasadíme
• Tričko?
Ptejte se kdykoliv v průběhu, já to budu dělat taky tak
Co si dnes odnesete
3. • Průběžné otázky
• Každý si počítá sám
• Pls. no black hat ;)
Kvíz o drobnou cenu
6. • Dokument ~ záznam k URL v databázi
• Content ~ stažený obsah URL
• Refresh ~ aktualizace obsahu a stavu URL
• Normalizace URL
• Crawl budget
Terminologie
8. • Dokument ~ webová stránka
• Content ~ stažený obsah URL
• Refresh ~ aktualizace obsahu a stavu URL
• Normalizace URL ~ transformace URL do normálního tvaru
bez ztráty informace
• Crawl budget
Terminologie
10. • Dokument ~ webová stránka
• Content ~ stažený obsah URL
• Refresh ~ aktualizace obsahu a stavu URL
• Normalizace URL ~ transformace URL do normálního tvaru
bez ztráty informace
• Crawl budget ~ průnik URL, které robot chce a
může stáhnout z webu
Terminologie
29. Stejný obsah mají všechny URL,
přes které se dostanu
na stejnou stránku.
Běžný člověk
30. Jaký je rozdíl mezi kanonizací a
normalizací?
Kontrolní otázka
31. • Kanonizace i normalizace shlukují URL
• Normalizace: Technicky stejná URL
• Kanonizace: Lidsky stejná stránka
Rozdíl mezi kanonizací a normalizací
32. • Kanonizace i normalizace shlukují URL
• Normalizace: Technicky stejná stránka
• Kanonizace: Lidsky stejná stránka
např. přesměrování a jeho cíl
Rozdíl mezi kanonizací a normalizací
37. • Přesměrování 1:1, Hashbang, ignorovaný parametr
• Stačí ověřit malý sample URL
Snížení crawl demand složky crawl budgetu
Pravidlová kanonizace stejného obsahu
38. • Všechny následující URL spadnou do stejné kanonické množiny
1. http://zbozi.cz/.../?razeni=nejlevnejsi&_escaped_fragment_=
2. https://www.zbozi.cz/.../
3. http://www.zbozi.cz/.../?razeni=nejlevnejsi
4. https://www.zbozi.cz/.../?_escaped_fragment_=
Robot bude aktualizovat jen č. 4
Ve výsledcích se zobrazí jen č. 2
Příklad kanonizace URL na Zboží.cz
39. • Na Zboží.cz v testu ušetřeno 80 % crawl demand
Častější refresh a větší zastoupení dokumentů
• Na většině velkých webů lze pomocí pravidel snížit CD.
Pravidlová kanonizace má významný efekt
40. • Indexace podle kanonických množin
• Pravidlová kanonizace do Seznam Webmastera
• Automatická detekce kanonizačních pravidel
• Ad-hoc kanonizace stejného obsahu
Další plány s kanonizací stejného obsahu
41. • Přesměrování kvůli změně URL – např. titulek v URL
• Kanonický link – např. z m.novinky.cz na novinky.cz
Kanonizující vs. nekanonizující přesměrování
Ad-hoc kanonizace stejného obsahu
47. • Manuální pravidlová kanonizace stejného obsahu
• Interpretace stránky pro hledání zpravodajství
• Zlepšení funkce výběru stránek do databáze
Teaser: co v blízké době plánujeme nasadit
48. • Jak funguje hledání přirozených výsledků
• Co je to kanonizace obecně
• Jak dělá kanonizaci vyhledávání Seznam.cz
• Co v blízké době nasadíme
Co jsem se snažil sdělit