2. Webová archivace
“Web archiving is the process of collecting portions of the
World Wide Web to ensure the information is preserved in
an archive for future researchers, historians, and the
public.”
3.
4. Typy webu
• Surface web - běžně přístupná část webu
• Deep web (invisible, hidden) - dynamický obsah,
kontextuální, privátní, skriptovaný atd.
• Dark web (darknet) - obvykle nelegální obsah, těžko
dosažitelný (P2P)
5. Proč archivovat web?
“Je snazší nalézt exemplář filmu z roku
1924, než webové stránky z roku 1994.”
M.S. Ankerson. “Writing web histories with an eye on the analog past.” 2012.
http://nms.sagepub.com/content/14/3/384.full.pdf+html
6. Co stojí za to archivovat?
• V dnešní době můžeme jen hádat.
• Lidstvo nikdy nedokáže kategorizovat všechna data na
světě.
7. Co stojí za to archivovat?
“more is more, less is less”
vs.
“hoarding is not a strategy”
8. Personální
• pro osobní potřebu
• firemní archivace
• neřeší rozdíly mezi surface x deep
Typy archivace
Institucionální
• za účelem uchování kulturního
dědictví
• knihovny, univerzity
• často web-scale archiving
9. Web scale archiving
Webové archivy se snaží archivovat tak velkou část
internetu, že není možné kontrolovat akvizici, ochranu,
zpřístupnění ani kontrolu kvality jednotlivých webových
stránek pouze lidskými silami.
10. Limity webové archivace
• legislativa + budget
• web 2.0 (streaming, dynamický a personalizovaný obsah)
• další technické překážky
11. Technické překážky
• Flash, Ajax, JavaScript …
• technických překážek je mnoho, řešení?
• univerzální řešení neexistuje
12. Kdo jsou webové archivy
• Internet Archive (archive.org)
• Národní knihovny
• Univerzity, neziskové organizace
13. V Evropě budujeme dark archivy
• veřejně nepřístupné archivy
• většinou pouze v místě samé, někdy ani to ne
• autorský zákon, knihovní licence
14. Sklizně a semínka
Sklizně - procesy automatického stahování a sběru dat z
vybraných webových zdrojů (vytváření kopií)
Semínka - jednotlivé URL adresy, které jsou předmětem
archivace, jeden zdroj může mít více semínek (např. při
přesměrování, nebo změně adresy)
Sklízeč - počítačový program, který dokáže automaticky
procházet a stahovat webové stránky. Sklízeče používají
zejména internetové vyhledávače a také webové archivy
17. Celoplošné sklízení
1. všechno, celý web (Internet Archive)
2. předem definovaná část webu (národní web, TLD)
• Semínka nevybírají kurátoři
• Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně
automatizovaně
• nutnost definovat výsek, který chceme sklízet (všichni
nemůžou být IA)
18. Výběrové sklízení
• Semínka připravují kurátoři
• Důraz na kvalitu: obsahovou, technickou (QA)
• na základě tématu, události
20. Instantní archivace
• news, social media
• technicky náročné (výpočetní výkon, nárok na kurátory)
• RSS
• často je aplikovaná při zvláštních událostech
21. Instantní archivace - příklady
“(…) a Ukrainian separatist leader also known as
Strelkov, or someone acting on his behalf, posted a
message on VKontakte, a Russian social-media site:
“We just downed a plane, an AN-26.” (An Antonov 26 is
a Soviet-built military cargo plane.) The post includes
links to video of the wreckage of a plane; it appears to
be a Boeing 777. (…)”
http://www.newyorker.com/magazine/2015/01/26/cobweb
22.
23. Social media
• všichni chtějí, ale nikdo to pořádně neumí = problém
• individuální nastavení pro každou službu
• technicky náročné
• podobná situace i pro digitální knihovny, databáze atd.
24. w
w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz