Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Budoucnost českého webového archivu

1.353 visualizaciones

Publicado el

Představení českého webového archivu na konferenci Inforum 2015 Webarchiv.cz) se stará o dlouhodobou ochranu českých digitálních online zdrojů. Prezentace byla primárně zaměřena na nově vznikající způsoby zpřístupnění dat v archivu pro potencionální uživatele. Jelikož se domníváme, že pouhé vyhledávání pomocí URL nebo klíčových slov není dostatečné, pro tak velký a specifický objem dat, kterým webový archiv je.

  • Sé el primero en comentar

Budoucnost českého webového archivu

  1. 1. Webarchiv Budoucnost českého webového archivu
  2. 2. Jsme Webarchiv digitální knihovna, která uchovává webové zdroje pro budoucí generace. www Pokud je nebudeme průběžně archivovat, zmizí významná součást národního kulturního dědictví.
  3. 3. Jak archivujeme? Provádíme kompletní archivaci “celého” českého webu. W W W W W W W W Souběžně probíhá výběrová a tematická archivace.
  4. 4. Bohužel! Ne všechna data jsou dostupná online. w Může za to současná podoba autorského zákona, která byla vytvořena pro knihy. Pro přístup k celému archivu musíte prozatím až k nám.
  5. 5. Budoucnost Webový archiv není jen skladiště URL, na které usedá prach. Pracujeme na vytvoření fulltextu celého archivu. Potřebujeme porozumět tomu, co nesou jednotlivé digitální objekty a co budou znamenat historicky. wwW Čeká nás otevření Webarchivu analytickému výzkumu a propojení našich dat s jinými archivy.
  6. 6. Bude možné studovat 90. léta a dál bez webových archivů? Ian Milligan
  7. 7. Webový archiv Živý web
  8. 8. Bude možné studovat 90. léta a dál bez webových archivů? Ne.
  9. 9. ~210 TB komprimovaných dat ~4 miliardy digitálních objektů ~1,2 miliónu webových stránek *.cz
  10. 10. méně jak ~1% webových stránek Webarchivu, je volně přístupné z Internetu w
  11. 11. METADATA W W W W W W W W
  12. 12. URL, Timestamp, SHA-1, Size, Outlinks, Content-Type, IP, Response, Title, Author ... WWW
  13. 13. Ian Milligan, opět
  14. 14. Identifikace formátu jednotlivých dig. objektů verze PDF, HTML, MS Word apod. Extrakce plného textu z HTML, PDF, DOC apod.
  15. 15. Rozponání žánru např. recenze, rozhovor, článek apod. Identifikace entit např. místa, osoby, události apod. Identifikace témat a klíčových slov např. Volby 2013, Útok ISIS, Ukrajinská krize Rozpoznání jazyka dokumentu
  16. 16. Obrazový hash hledání podobných obrázků Audio2text prohledávání audiovizuáních dokumentů Slovní popis obrázků včetně klíčových slov černé a ryšavé koťátko si hrají na zelené trávě Rozpoznávání tváří
  17. 17. A co zajímá vás?
  18. 18. w w w w w w Děkujeme za pozornost! Jaroslav Kvasnica Rudolf Kreibich

×