Chcete vědět víc? Mnoho dalších prezentací, videí z konferencí, fotografií i jiných dokumentů je k dispozici v institucionálním repozitáři NTK: http://repozitar.techlib.cz
2. … search.seznam.cz
Seznam.cz je jednička na českém internetu, od
roku 2005 má vlastní fulltextové vyhledávání
– 350 dotazů za sekundu, ve špičce přes 500
– 15 milionů dotazů denně
– 600 milionů prohledávaných dokumentů
– 10 miliard známých odkazů
– 1000 dokumentů stažených za sekundu
3. Vyhledávač
robot – procházení internetem, rozhodování o
zajímavosti dokumentu a jeho uložení
indexer – zpracování dokumentů pro vyhledávání
hadoop – databáze a distribuované zpracování dat
hledání – zpracování dotazu, zahledání, filtrace,
řazení, zpracování a popisování výsledků
webovka – zobrazení výsledků, upoutávek,
reklamy, sledování dotazů a uživatelské odezvy
4. Cizojazyčné vyhledávání
indexování dokumentů v cizích jazycích a
podpora pro zpracování cizojazyčných dotazů
– 65% čeština
– 25% angličtina
– 3% slovenština
– 3% němčina
– 4% ostatní jazyky
5. Zpracování dotazu
interaktivní – našeptavač, oháčkování, oprava
překlepů, související dotazy
dodatečné – ohýbání slovních tvarů, reformulace
dotazu, synonyma a slova odvozená, zkratky, …
zvláštní operátory pro rozšířené možnosti hledání
7. Relevance
relevance – míra příslušnosti dokumentu k dotazu
určující pořadí výsledků
on-page – vlastnosti získané ze stránky samotné
off-page – informace o stránce závislé na jejím
umístění, prolinkování a návštěvnosti
nutná je detekce a odstranění obsahových duplicit
a redukce podobných výsledků z jedné domény
8. Snippety
snippet – popisek, krátký úryvek výsledku hledání
snippet má umožnit odhad relevance dokumentu
vůči dotazu
9. Snippety
snippet má co nejlépe vystihnout celý dokument
a zvýraznit vyhledaná slova v jejich kontextu
snippet má být informativní a má pomoci uživateli
vybrat si z výsledků hledání ty nejpříhodnější
X
10. Snippety
nová metoda tvorby popisku se snaží
– zahrnout do snippetu co nejužitečnější informaci
– čerpat úryvky nejen z viditelného textu stránky
– vyhnout se opakování textu v popisku
– zlepšit formátování a přehlednost snippetu
podoba popisku závisí na obsahu dokumentu,
proměňuje se ovšem podle znění dotazu
– ovlivnit výběr úryvků do snippetu lze jen nepřímo přes
<meta name="description" content="…" />
11. Osnovy
osnova – výběr pojmenovaných odkazů dovnitř
dokumetu, zpřístupnění vnitřní struktury stránky
12. Osnovy
osnova informuje o rozdělení stránky do různých
tematických nebo logických částí a zpřístupňuje je
osnova může být zobrazena u jakékoliv stránky
s vhodně definovanou strukturou bez ohledu na
doménu nebo typ webu
odkazy do dokumentu jsou vybírány v souvislosti
s dotazem a nemusejí směřovat jen na prvních
několik oddílů textu
osnovy sestavujeme nezávisle na jazyce dokumentu
či dotazu
13. Aktuálnost
datum a čas publikování u zpravodajských článků
a novinek z vybraných zdrojů, ve dvou formátech
15. Miniaplikace a odpovídač
kalkulačka poštovní směrovací čísla
převod jednotek a měn kódy bank a pojišťoven
výpočet BMI důležitá telefonní čísla
převod římských číslic kalorické hodnoty jídel
morseovka telefonní předčíslí států
éčka kódy letišť
16. Skokani internetu
dotazy hledané výrazně častěji než dříve
– Perseidy 2012 – Karlštejnský jablečný koláč
– Medaile LOH 2012 pořadí – Moderní pětiboj
– Souhvězdí Perseus – Lori štíhlý
– Úplněk srpen 2012 – Náhrdelníky akce
– Půjčka před výplatou – Antiperspirant
– Význam příjmení – www.ceecr.cz
– Aktuální teplota v Praze – Karezza
– Lymfatické masáže – Technologie hifu
– Rychlá půjčka ihned – Fata morgana
– Večerníček znělka – Africký hrnec