Este documento presenta el proyecto de la Biblioteca Nacional de España para archivar la web española. Se describe el marco legal que permite el proyecto, los primeros pasos realizados en colaboración con Internet Archive, y los planes futuros que incluyen duplicar la colección actual a través de más recolecciones masivas y selectivas, mejorar el acceso a la colección, y realizar rastreos de forma autogestionada. También se analizan cuestiones como los criterios de selección, los límites legales, y cómo garantizar un acceso
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
Archivo Web BNE
1. Mar Pérez Morillo – Jefe del Servicio de Coordinación Web
Icíar Muguerza López – Servicio de Coordinación Web
Cita en la BNE / Salón de Actos / 8 de Junio de 2011
PATRIMONIO DEL FUTURO Y
FUTURO DEL PATRIMONIO
2. Biblioteca Nacional de España
ÍNDICE
1. INTRODUCCIÓN:
La importancia del medio
Características de la web
¿Por qué archivar la web? El Patrimonio Digital
La misión del bibliotecario ante los “nacidos digitales”
2. INICIATIVAS MUNDIALES
Proyectos internacionales: Internet Archive, IIPC, Minerva, Pandora, BnF, British Library
Proyectos nacionales: PADICAT, ONDARENET
3. ASPECTOS TÉCNICOS
• ¿Cómo se archiva Internet? Recolección masiva/selectiva/híbrida
• Nociones esenciales: herramientas y formato de archivo WARC
4. EL PROYECTO DE LA BNE
Marco legal
El Internet Archive y el archivo web de la BNE
Estado actual: tamaño de la colección, contenido y formato. Hosting. Análisis de la
colección
Nuevo contrato y recolecciones futuras
Uso de la colección
Cooperación con especialistas y otras instituciones
5. CUESTIONES A DEBATE
Archivo de la web española
3. Biblioteca Nacional de España
Ruptura y continuidadRuptura y continuidad
Archivo de la Web española
4. Biblioteca Nacional de España
Afán de permanencia sufre la amenaza de lo
efímero
Hoy los bytes → rivales del papel
Internet → fruto del progreso acumulativo del saber
humano
El medio condiciona
El uso de internet condiciona la producción cultural
Ruptura y continuidadRuptura y continuidad
5. Biblioteca Nacional de EspañaArchivo de la Web española
Grande → casi inabarcable
Global → límites borrosos
Rápida → contenidos efímeros, cambiantes
Intangible → archivos virtuales
Universal
Puzzle
Características de la web
6. Biblioteca Nacional de España
¿Cuánto contenido hay en la web?
Cruzando la frontera de los ZB…
¿Cuánto contenido hay en la web?
Cruzando la frontera de los ZB…
1 B = 1 carácter
10 KB = 1 página escrita
500 MB = 1 CD-ROM
1 GB = 1 película
10 TB = toda la colección
impresa de la LoC
200 PB = todo el material
impreso en la Historia
5 EB = todas las palabras
pronunciadas por el
hombre
1 ZB = todo el universo
digital
Archivo de la Web española
7. Biblioteca Nacional de España
– Directrices de la UNESCO para la Preservación del Patrimonio
Digital (marzo, 2003)
– Recomendación de la Comisión Europea (24 de agosto de 2006)
sobre la digitalización y la accesibilidad en línea del material
cultural y la conservación digital
– Orden CUL/1014/2007, de 30 de marzo, por la que se constituye la
Comisión Española sobre la digitalización y la accesibilidad en línea
del material cultural y la conservación digital
Archivo de la web española
¿Por qué archivar la web?
8. Biblioteca Nacional de España
La misión del bibliotecario
El rol del bibliotecario
descansaba sobre
algunas certidumbres
del mundo impreso…
Archivo de la Web española
Hasta que el advenimiento de
los documentos “nacidos
digitales” nos hace
replantearnos muchas de esas
certidumbres
9. Biblioteca Nacional de EspañaArchivo de la Web española
Primeros proyectos: Internet Archive
10. Biblioteca Nacional de España
400.000
500.000
950.000
2.700.000
150.000.000.000
Horas de televisión
Imágenes en movim.
Grabaciones sonoras
Libros
Páginas web
Archivo de la Web española
Desde
1996
11. Biblioteca Nacional de España
Institución pionera en este campo
Archiva la web desde 1996
Objetivo principal: construir biblioteca de internet
accesible y permanente
Recolecta para distintas instituciones:
– BN de Australia
– LoC
– BNE…
Desde 2001 da acceso público a sus colecciones
(Wayback Machine)
Miembro fundador del IIPC: posición de liderazgo
Internet Archive
12. Biblioteca Nacional de EspañaArchivo de la Web española
LAS DISTINTAS VERSIONES DE LA WEB DE LA BNE
EN LA WAYBACK MACHINE DEL IA
14. Biblioteca Nacional de EspañaArchivo de la Web española
Proyecto PANDORA (Biblioteca Nacional de Australia)
15. Biblioteca Nacional de España
Proyecto PANDORA
(Biblioteca Nacional de Australia)
Uno de los proyectos pioneros mundiales en
este campo (1996)
Colección en línea de publicaciones históricas
relativas a Australia
Archivado selectivo según los criterios de su
política de recolección
Acceso público
Colección organizada por materias
16. Biblioteca Nacional de EspañaArchivo de la Web española
Proyecto MINERVA (Library of Congress)
17. Biblioteca Nacional de España
Proyecto MINERVA (Library of Congress)
La LoC archiva la web desde el año 2000
Colaboración con Internet Archive
Recolección selectiva → asesoría de especialistas
Acceso público
Destacan sus recolecciones por acontecimientos:
– Guerra de Irak (2003)
– 11-S
– Elección papal tras la muerte de Juan Pablo II (2005)
– Elecciones presidenciales EE.UU.
19. Biblioteca Nacional de España
Archivan la web desde 2002 con la colaboración de Internet
Archive
Al amparo de su ley de DL desde 2006
Recolectan:
– El dominio .fr
– Webs en otros dominios con contenidos relativos a
Francia
En 2009 recolectan por sí mismos
Combinan recolecciones masivas y selectivas
Acceso a la colección restringido a investigadores en
terminales de su sede
Archives de l’Internet (BnF)
20. Biblioteca Nacional de EspañaArchivo de la Web española
Panorama internacional:
lista de iniciativas de archivado web
21. Biblioteca Nacional de EspañaArchivo de la Web española
– Fundado en 2003 por 11 bibliotecas nacionales e Internet
Archive
– Adquirir, preservar y hacer accesible la información en
internet para el futuro
– Objetivos:
• Posibilitar recolección, preservación y acceso a largo
plazo a contenidos de internet
• Desarrollar herramientas comunes para crear archivos
internacionales
• Defender iniciativas internacionales con este propósito
• Apoyar a instituciones dedicadas a esta tarea
El International Internet Preservation Consortium (IIPC)
22. Biblioteca Nacional de EspañaArchivo de la Web española
El International Internet Preservation Consortium (IIPC)
– Grupos de trabajo muy activos:
• Recolección
• Acceso
• Preservación
– Proyectos de colaboración:
• Facebook
• Wikileaks
• Terremoto y tsunami en Japón (Internet Archive - National
Diet)
• Olimpiadas 2012
• Memento
23. Biblioteca Nacional de España
La revolución del jazmín: Túnez 2011; archivado a cargo del Internet Archive;
contribuciones de la LOC y la BnF; idiomas: francés, árabe e inglés
Archivo de la Web española
24. Biblioteca Nacional de España
LA BNE UNE SUS ESFUERZOS A LOS DE
ORGANISMOS INTERNACIONALES
Archivo de la Web española
25. Biblioteca Nacional de España
ISO TC 46/SC 8/WG 9
Estadísticas y aspectos de calidad en los archivos web
– Objetivo: elaborar un informe técnico
– Reflejar el estado actual de la cuestión
– Definición de términos y elementos relativos a estos proyectos
– Establecer aspectos cuantificables para medir la calidad
(indicadores)
26. Biblioteca Nacional de EspañaArchivo de la Web española
Proyectos nacionales
PADICAT
ONDARENET
27. Biblioteca Nacional de España
Proyecto pionero en España (2005)
Objetivo: archivar la web catalana
Recolección híbrida:
– Masiva del dominio .cat
– Producción web de las entidades catalanas (convenios)
Recursos fácilmente localizables por:
– Categorías temáticas
– Palabras clave
– URL
Acceso público en línea
Desarrollan CAT (Curator Archiving Tool)
28. Biblioteca Nacional de España
ONDARENET
Proyecto de recolección web del gobierno vasco
Objetivo: recopilar la memoria digital vasca
Modelo de recolección híbrido:
– Recolección integral regional
– Recolección selectiva y temática
29. Biblioteca Nacional de EspañaArchivo de la Web española
Software de rastreo:
rastreador (crawler) a gran escala de
código abierto
respeta exclusiones del tipo robots.txt
diseñado para no interrumpir la
actividad del sitio web rastreado
rastreo continuo
Paquetes de software que utilizan
Heritrix:
Netarchive Suite
Web Curator Tool
CAT (Curator Archiving Tool)
¿Cómo se archiva Internet?
30. Biblioteca Nacional de España
Formato de archivo para almacenamiento
→ WARC (Web ARChive)
Norma ISO 28500:2009:
– guarda contenido junto a información de control de
los protocolos
– guarda metadatos enlazados a otros datos
– permite compresión de datos y preservar integridad
de registros
– permite manejo de registros excesivamente largos
– detecta duplicados y transformaciones posteriores de
un archivo
¿Cómo se archiva Internet?
Archivo de la Web española
31. Biblioteca Nacional de EspañaArchivo de la Web española
¿Cómo se archiva Internet?
Softwares de búsqueda
32. Biblioteca Nacional de EspañaArchivo de la Web española
¿Cómo se archiva Internet?
Almacenamiento
• Reto constante
• Ahorro de espacio, fiabilidad
• Mantener la accesibilidad
• Minimizar riesgo de pérdidas
• Distribución de copias en distintos sitios
• Impedir la degradación de los datos
• El Petabox: 1 PB = 1.000 TB = 1.000.000 GB
33. Biblioteca Nacional de España
El petabox, hoy
Archivo de la Web española
Mayor densidad que el modelo anterior
Diciembre, 2010: almacenamiento total de IA → 5,8PB
34. Biblioteca Nacional de EspañaArchivo de la Web española
Según el alcance:
Masiva
Selectiva
Temática
Por acontecimientos
Híbrida
Ventajas e inconvenientes
Según los permisos:
Sin permiso (al amparo de una ley de DL)
Con permiso expreso de los propietarios
Ventajas e inconvenientes
Tipos de recolección
35. Biblioteca Nacional de España
EL PROYECTO DE LA BNE
Marco legal
– Decreto del 57:
• Preocupación por regular “las obras derivadas
de los inventos modernos”
– Proyecto de ley de DL (2011)
• Publicaciones digitales → patrimonio a preservar
• Acceso y consulta de publicaciones almacenadas
• Sitios web → incluidos en el DL
• Centros de conservación → habilitados para rastrearlos
y conservarlos
• Límites: propiedad intelectual y protección de datos
Archivo de la Web española
36. Biblioteca Nacional de España
EL PROYECTO DE LA BNE
Primeros pasos
• Primer contrato con Internet Archive: 2009-2010
• Objetivo: recolectar, archivar y preservar el dominio .es
• Primeras recolecciones
4 recolecciones masivas: 1 en 2009 y 3 complementarias en
2010
• Después de cada recolección:
Deduplicación
Indización
Rastreo de parcheado
Archivo de la Web española
37. Biblioteca Nacional de España
EL PROYECTO DE LA BNE
Primeros pasos
Archivo de la Web española
38. Biblioteca Nacional de España
EL PROYECTO DE LA BNE
Situación actual (I)
• Resultados:
30 TB de información almacenada
Más de 875 millones de URL:
Más de 317 millones en la primera recolección
Cantidades menores en las tres siguientes complementarias
• Acceso a la colección
• Interfaz de consulta que necesita personalización
• Búsquedas:
Por URL
Por palabra a texto completo (necesita depuración)
Archivo de la Web española
39. Biblioteca Nacional de España
EL PROYECTO DE LA BNE
Situación actual (II)
• Informes
MIME (Multipurpose Internet Mail Extension)
Respuestas de servidores
Servidores
Exclusiones
• Análisis de la colección mediante calas:
Páginas recolectadas con éxito
Niveles de navegación que se han guardado
Porcentaje de webs guardadas que han desaparecido (casi un 3%)
Otros dominios capturados aparte de .es
Aproximación a porcentaje de temáticas
Archivo de la Web española
41. Biblioteca Nacional de España
EL PROYECTO DE LA BNE
Pruebas
Con motivo de las elecciones municipales y autonómicas de 2011
Pruebas de rastreo selectivo de la web española
NetarchiveSuite:
– Software de código abierto y gratuito
– También utilizado por Dinamarca, Francia y Austria
Búsqueda de conclusiones para evaluar capacidad de autogestión
Selección de 23 dominios:
– Cabeceras de prensa
– Medios de comunicación audiovisuales
– Partidos políticos
44. Biblioteca Nacional de España
EL PROYECTO DE LA BNE
Planes inmediatos
• Nuevo contrato con Internet Archive:
2 recolecciones masivas (2011), alternadas con
2 recolecciones selectivas (2011 y 2012):
Temáticas
Acontecimientos (Elecciones Generales 2012)
• Probablemente estaremos cerca de duplicar la colección actual
• Análisis de la colección más de cerca durante los rastreos
• Seguiremos con pruebas de recolección y archivado autogestionadas
Archivo de la Web española
45. Biblioteca Nacional de España
EL PROYECTO DE LA BNE
Planes inmediatos: cooperación
Colaboración para las recolecciones selectivas:
• Personal de la BNE
• Universidades
• Otras instituciones (CSIC, bibliotecas, ministerios…)
Aunar esfuerzos con otros proyectos de archivado web en España:
• PADICAT
• ONDARENET
Cooperación con Comunidades Autónomas ??
archivoweb@bne.es
Archivo de la Web española
46. Biblioteca Nacional de EspañaArchivo de la Web española
EL PROYECTO DE LA BNE
Planes a medio plazo
Trasladar la colección
Dar acceso a los investigadores
Realizar rastreos de la web con medios propios
47. Biblioteca Nacional de EspañaArchivo de la Web española
Cuestiones a debate
¿Podemos capturarlo todo?
¿Debemos capturarlo todo?
Conveniencia de una selección: criterios
Derecho al olvido
Acceso universal
Límites legales
¿Cómo usarán los investigadores estos archivos?
Uso de los metadatos: descriptivos/de preservación
Preservación: emulación/migración
48. Biblioteca Nacional de España
Enlaces de interés
IIPC: www.netpreserve.org
Wiki de proyectos de archivado web:
http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives
Internet Archive: www.archive.org
Preservación digital del dominio .es:
http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html
Heritrix: http://crawler.archive.org/
NetarchiveSuite: http://netarchive.dk/suite/Welcome
NutchWax: http://archive-access.sourceforge.net/projects/nutch/
Blog de Hanzo Archives: http://web.hanzoarchives.com/
Proyecto de Ley de depósito legal:
http://www.congreso.es/portal/page/portal/Congreso/PopUpCGI?CMD=VERLST&
BASE=puw9&DOCS=1-
1&DOCORDER=LIFO&QUERY=%28CDA20110602011808.CODI.%29#(Página1)
Archivo de la Web española
49. Biblioteca Nacional de España
Colecciones web
Wayback Machine: http://www.archive.org/web/web.php
PANDORA (Archivo web de Australia): http://pandora.nla.gov.au
MINERVA (Biblioteca del Congreso):
http://lcweb2.loc.gov/diglib/lcwa/html/lcwa-home.html
Archivo web de la Biblioteca Británica:
http://www.webarchive.org.uk/ukwa/
PADICAT (Patrimonio Digital de Cataluña): http://www.padicat.cat/
ONDARENET (Patrimonio Digital Vasco):
http://www.ondarenet.kultura.ejgv.euskadi.net:8085/consulta/editC
onsultaBase.do?dispatch=editConsultaBase
Archivo de la Web española
50. Biblioteca Nacional de España
Bibliografía
A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of-
webs-past/0
Oxford Internet Institute, “Web archives: the future(s)” [documento de trabajo],
2011, http://www.netpreserve.org/events/Hague/Presentations/OII-IIPC.pdf
E. Bermes, L. Fauduet et al., “A data first approach to digital preservation: the SPAR
project”, World Library and Information Congress: 76th IFLA General Conference
and Assembly (2010), http://www.ifla.org/files/hq/papers/ifla76/157-bermes-
en.pdf
E. Bermes y G. Illien, “Metrics and Strategies for Web Heritage. Management and
Preservation”, 75th IFLA General Conference and Assembly (2009),
http://www.ifla.org/files/hq/papers/ifla75/92-bermes-en.pdf
G. Mohr, et al., “An introduction to Heritrix. An open source archival quality web
crawler”, 4th International Web Archiving Workshop (2004),
http://iwaw.europarchive.org/04/Mohr.pdf
WARC File Format ISO/DIS 28500 (Borrador, 2008),
http://bibnum.bnf.fr/WARC/warc_ISO_DIS_28500.pdf
Archivo de la Web española
52. Biblioteca Nacional de España
Icíar Muguerza López
Mar Pérez Morillo
Servicio de Coordinación Web
archivoweb@bne.es
Pº de Recoletos 20 -22
28071 Madrid
Tfno: 91 580 782
www.bne.es
Archivo de la Web española