SlideShare a Scribd company logo
1 of 24
Download to read offline
Kurz webové archivace
AISV143
Webová archivace
“Web archiving is the process of collecting portions of the
World Wide Web to ensure the information is preserved in
an archive for future researchers, historians, and the
public.”
Typy webu
• Surface web - běžně přístupná část webu
• Deep web (invisible, hidden) - dynamický obsah,
kontextuální, privátní, skriptovaný atd.
• Dark web (darknet) - obvykle nelegální obsah, těžko
dosažitelný (P2P)
Proč archivovat web?
“Je snazší nalézt exemplář filmu z roku
1924, než webové stránky z roku 1994.”
M.S. Ankerson. “Writing web histories with an eye on the analog past.” 2012. 

http://nms.sagepub.com/content/14/3/384.full.pdf+html
Co stojí za to archivovat?
• V dnešní době můžeme jen hádat.
• Lidstvo nikdy nedokáže kategorizovat všechna data na
světě.
Co stojí za to archivovat?
“more is more, less is less”
vs.
“hoarding is not a strategy”
Personální
• pro osobní potřebu
• firemní archivace
• neřeší rozdíly mezi surface x deep
Typy archivace
Institucionální
• za účelem uchování kulturního
dědictví
• knihovny, univerzity
• často web-scale archiving
Web scale archiving
Webové archivy se snaží archivovat tak velkou část
internetu, že není možné kontrolovat akvizici, ochranu,
zpřístupnění ani kontrolu kvality jednotlivých webových
stránek pouze lidskými silami.
Limity webové archivace
• legislativa + budget
• web 2.0 (streaming, dynamický a personalizovaný obsah)
• další technické překážky
Technické překážky
• Flash, Ajax, JavaScript …
• technických překážek je mnoho, řešení?
• univerzální řešení neexistuje
Kdo jsou webové archivy
• Internet Archive (archive.org)
• Národní knihovny
• Univerzity, neziskové organizace
V Evropě budujeme dark archivy
• veřejně nepřístupné archivy
• většinou pouze v místě samé, někdy ani to ne
• autorský zákon, knihovní licence
Sklizně a semínka
Sklizně - procesy automatického stahování a sběru dat z
vybraných webových zdrojů (vytváření kopií)
Semínka - jednotlivé URL adresy, které jsou předmětem
archivace, jeden zdroj může mít více semínek (např. při
přesměrování, nebo změně adresy)
Sklízeč - počítačový program, který dokáže automaticky
procházet a stahovat webové stránky. Sklízeče používají
zejména internetové vyhledávače a také webové archivy
Technologie
Základní typologie akvizice
celoplošné sklízení
kvantita > kvalita
výběrové sklízení
kvalita > kvantita
Celoplošné sklízení
1. všechno, celý web (Internet Archive)
2. předem definovaná část webu (národní web, TLD)
• Semínka nevybírají kurátoři
• Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně
automatizovaně
• nutnost definovat výsek, který chceme sklízet (všichni
nemůžou být IA)
Výběrové sklízení
• Semínka připravují kurátoři
• Důraz na kvalitu: obsahovou, technickou (QA)
• na základě tématu, události
IIPC collaborative collection
Europan Refugee Crisis, World War I.
https://archive-it.org/home/IIPC
Instantní archivace
• news, social media
• technicky náročné (výpočetní výkon, nárok na kurátory)
• RSS
• často je aplikovaná při zvláštních událostech
Instantní archivace - příklady
“(…) a Ukrainian separatist leader also known as
Strelkov, or someone acting on his behalf, posted a
message on VKontakte, a Russian social-media site:
“We just downed a plane, an AN-26.” (An Antonov 26 is
a Soviet-built military cargo plane.) The post includes
links to video of the wreckage of a plane; it appears to
be a Boeing 777. (…)”
http://www.newyorker.com/magazine/2015/01/26/cobweb
Social media
• všichni chtějí, ale nikdo to pořádně neumí = problém
• individuální nastavení pro každou službu
• technicky náročné
• podobná situace i pro digitální knihovny, databáze atd.
w
w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz

More Related Content

Similar to Kurz webové archivace 2018/1

Knihovna 2.0
Knihovna 2.0Knihovna 2.0
Knihovna 2.0
JanKanka
 
Výkonnost webových aplikací
Výkonnost webových aplikacíVýkonnost webových aplikací
Výkonnost webových aplikací
Taste Medio
 

Similar to Kurz webové archivace 2018/1 (11)

Uchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentůUchování a trvalé zpřístupnění webových dokumentů
Uchování a trvalé zpřístupnění webových dokumentů
 
Komu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access GreenhornsKomu se nelení, tomu se zelení - Open Access Greenhorns
Komu se nelení, tomu se zelení - Open Access Greenhorns
 
Kurz webové archivace III.
Kurz webové archivace III.Kurz webové archivace III.
Kurz webové archivace III.
 
Kurz webové archivace 2017/2
Kurz webové archivace 2017/2Kurz webové archivace 2017/2
Kurz webové archivace 2017/2
 
Knihovna 2.0
Knihovna 2.0Knihovna 2.0
Knihovna 2.0
 
Webarchiv jako digitální knihovna
Webarchiv jako digitální knihovnaWebarchiv jako digitální knihovna
Webarchiv jako digitální knihovna
 
Open source v e learningu
Open source v e learninguOpen source v e learningu
Open source v e learningu
 
Knihovna 2.0 + Google Docs
Knihovna 2.0 + Google DocsKnihovna 2.0 + Google Docs
Knihovna 2.0 + Google Docs
 
Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia Informační zdroje pro obor klasická studia
Informační zdroje pro obor klasická studia
 
Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0
 
Výkonnost webových aplikací
Výkonnost webových aplikacíVýkonnost webových aplikací
Výkonnost webových aplikací
 

More from Webarchive of National Library of the Czech Republic

More from Webarchive of National Library of the Czech Republic (19)

Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka
 
Inzerát datovy analytik_wa
Inzerát datovy analytik_waInzerát datovy analytik_wa
Inzerát datovy analytik_wa
 
Sys admin wa_rvv
Sys admin wa_rvvSys admin wa_rvv
Sys admin wa_rvv
 
Volné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivuVolné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivu
 
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
 
Volné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivuVolné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivu
 
Webarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvoláchWebarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvolách
 
Datovy analytik
Datovy analytikDatovy analytik
Datovy analytik
 
Webarchiv CZ 2017
Webarchiv CZ 2017Webarchiv CZ 2017
Webarchiv CZ 2017
 
Kurz webové archivace 2017/4
Kurz webové archivace 2017/4Kurz webové archivace 2017/4
Kurz webové archivace 2017/4
 
Kurz webové archivace 2017/3
Kurz webové archivace 2017/3Kurz webové archivace 2017/3
Kurz webové archivace 2017/3
 
WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?
 
WARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verzeWARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verze
 
Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.
 
Kurz webové archivace II.
Kurz webové archivace II.Kurz webové archivace II.
Kurz webové archivace II.
 
Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.
 
Prezentace obsahu webového archivu
Prezentace obsahu webového archivuPrezentace obsahu webového archivu
Prezentace obsahu webového archivu
 
Infrastruktura památníku českého webu a zkušenosti s Heritrixem
Infrastruktura památníku českého webu a zkušenosti s HeritrixemInfrastruktura památníku českého webu a zkušenosti s Heritrixem
Infrastruktura památníku českého webu a zkušenosti s Heritrixem
 
Veřejné služby pro Dark archives
Veřejné služby pro Dark archivesVeřejné služby pro Dark archives
Veřejné služby pro Dark archives
 

Kurz webové archivace 2018/1

  • 2. Webová archivace “Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in an archive for future researchers, historians, and the public.”
  • 3.
  • 4. Typy webu • Surface web - běžně přístupná část webu • Deep web (invisible, hidden) - dynamický obsah, kontextuální, privátní, skriptovaný atd. • Dark web (darknet) - obvykle nelegální obsah, těžko dosažitelný (P2P)
  • 5. Proč archivovat web? “Je snazší nalézt exemplář filmu z roku 1924, než webové stránky z roku 1994.” M.S. Ankerson. “Writing web histories with an eye on the analog past.” 2012. 
 http://nms.sagepub.com/content/14/3/384.full.pdf+html
  • 6. Co stojí za to archivovat? • V dnešní době můžeme jen hádat. • Lidstvo nikdy nedokáže kategorizovat všechna data na světě.
  • 7. Co stojí za to archivovat? “more is more, less is less” vs. “hoarding is not a strategy”
  • 8. Personální • pro osobní potřebu • firemní archivace • neřeší rozdíly mezi surface x deep Typy archivace Institucionální • za účelem uchování kulturního dědictví • knihovny, univerzity • často web-scale archiving
  • 9. Web scale archiving Webové archivy se snaží archivovat tak velkou část internetu, že není možné kontrolovat akvizici, ochranu, zpřístupnění ani kontrolu kvality jednotlivých webových stránek pouze lidskými silami.
  • 10. Limity webové archivace • legislativa + budget • web 2.0 (streaming, dynamický a personalizovaný obsah) • další technické překážky
  • 11. Technické překážky • Flash, Ajax, JavaScript … • technických překážek je mnoho, řešení? • univerzální řešení neexistuje
  • 12. Kdo jsou webové archivy • Internet Archive (archive.org) • Národní knihovny • Univerzity, neziskové organizace
  • 13. V Evropě budujeme dark archivy • veřejně nepřístupné archivy • většinou pouze v místě samé, někdy ani to ne • autorský zákon, knihovní licence
  • 14. Sklizně a semínka Sklizně - procesy automatického stahování a sběru dat z vybraných webových zdrojů (vytváření kopií) Semínka - jednotlivé URL adresy, které jsou předmětem archivace, jeden zdroj může mít více semínek (např. při přesměrování, nebo změně adresy) Sklízeč - počítačový program, který dokáže automaticky procházet a stahovat webové stránky. Sklízeče používají zejména internetové vyhledávače a také webové archivy
  • 16. Základní typologie akvizice celoplošné sklízení kvantita > kvalita výběrové sklízení kvalita > kvantita
  • 17. Celoplošné sklízení 1. všechno, celý web (Internet Archive) 2. předem definovaná část webu (národní web, TLD) • Semínka nevybírají kurátoři • Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně automatizovaně • nutnost definovat výsek, který chceme sklízet (všichni nemůžou být IA)
  • 18. Výběrové sklízení • Semínka připravují kurátoři • Důraz na kvalitu: obsahovou, technickou (QA) • na základě tématu, události
  • 19. IIPC collaborative collection Europan Refugee Crisis, World War I. https://archive-it.org/home/IIPC
  • 20. Instantní archivace • news, social media • technicky náročné (výpočetní výkon, nárok na kurátory) • RSS • často je aplikovaná při zvláštních událostech
  • 21. Instantní archivace - příklady “(…) a Ukrainian separatist leader also known as Strelkov, or someone acting on his behalf, posted a message on VKontakte, a Russian social-media site: “We just downed a plane, an AN-26.” (An Antonov 26 is a Soviet-built military cargo plane.) The post includes links to video of the wreckage of a plane; it appears to be a Boeing 777. (…)” http://www.newyorker.com/magazine/2015/01/26/cobweb
  • 22.
  • 23. Social media • všichni chtějí, ale nikdo to pořádně neumí = problém • individuální nastavení pro každou službu • technicky náročné • podobná situace i pro digitální knihovny, databáze atd.
  • 24. w w w w w w Děkuji za pozornost! Mgr. Jaroslav Kvasnica jaroslav.kvasnica@nkp.cz