El archivo de Internet, bibliotecas que piensan en el futuro
                             Mar Pérez Morillo
   Jefe del Servicio de Coordinación Web, Biblioteca Nacional de España
Índice

        – Contexto
           • Consideraciones generales
        – Panorama internacional
           • IIPC
           • Biblioteca Nacional de Francia
           • Biblioteca Nacional de Austria
           • ISO TC 46/SC 8/WG 9
        – La ley de Depósito Legal
        – El proyecto de la BNE
           • Primeros pasos
           • Situación actual – Planes inmediatos
           • Perspectivas de futuro


BIBLIOTECA NACIONAL DE ESPAÑA      El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                  2
Contexto

  Directrices de la UNESCO para la Preservación del Patrimonio Digital
      (marzo, 2003)

        – Volumen de los datos.

        – Duración de la información en línea (44 días y 2 años).

        – Internet constituye un invalorable espejo de la sociedad.

        – La producción de información en el mundo en medios
          tradicionales disminuye año tras año frente a los objetos digitales
          que crecen sin cesar.




BIBLIOTECA NACIONAL DE ESPAÑA             El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                         3
Contexto: consideraciones generales

        – Tarea llena de retos

        – Finales de los 90: Internet → fundamental en la difusión del
          conocimiento

        – Los documentos en línea desaparecen de repente

        – Falta de perspectiva histórica: valor impredecible

        – La web no es un depósito de ejemplares

        – Características de la web: grande, global, rápida, intangible,
          universal




BIBLIOTECA NACIONAL DE ESPAÑA             El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                         4
Panorama Internacional: IIPC




        – Fundada en 2003 por 11 bibliotecas nacionales e Internet
          Archive
        – Adquirir, preservar y hacer accesible la información en internet
          para el futuro
        – Objetivos:
           • Posibilitar recolección, preservación y acceso a largo plazo
               a contenidos de internet
           • Desarrollar herramientas comunes para crear archivos
               internacionales
           • Defender iniciativas internacionales con este propósito
           • Apoyar a instituciones dedicadas a esta tarea



BIBLIOTECA NACIONAL DE ESPAÑA            El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                        5
Panorama Internacional: IIPC




     – Grupos de trabajo muy activos:
        • Recolección
        • Acceso
        • Preservación
     – Proyectos de colaboración:
        • Facebook
        • Wikileaks
        • Terremoto y tsunami en Japón (Internet Archive - National Diet)
        • Olimpiadas 2012
        • Memento


BIBLIOTECA NACIONAL DE ESPAÑA          El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                      6
Panorama Internacional


        – BnF (Biblioteca Nacional de Francia) → desde 2002
           • Al amparo de su ley de DL
           • Sólo acceso para investigadores en sus instalaciones
           • Combinan recolección masiva y selectiva
           • Empezaron con Internet Archive y se independizaron
        – Biblioteca Nacional de Austria
           • Empezaron haciendo sólo recolección selectiva y por
                acontecimientos
           • En 2010 hicieron su primera recolección del dominio .at
           • Su política es combinar los tres modelos (selectiva, por
                acontecimientos y masiva)
        – Ambas utilizan Netarchive Suite




BIBLIOTECA NACIONAL DE ESPAÑA           El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                       7
Panorama Internacional: Iniciativas de archivado web




BIBLIOTECA NACIONAL DE ESPAÑA   El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                               8
Panorama Internacional: ISO TC 46/SC 8/WG 9

Estadísticas y aspectos de calidad en los archivos web

     – Objetivo: elaborar un informe técnico
     – Definición de términos y elementos relativos a estos proyectos
     – Establecer aspectos cuantificables para medir la calidad
     – Repaso de distintos aspectos relacionados con este tipo de proyectos:
        • Personal
        • Costes
        • Evaluación → establecimiento de indicadores de calidad
        • Tipos de proyectos según distintos criterios
     – Estado actual de la cuestión




 BIBLIOTECA NACIONAL DE ESPAÑA           El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                        9
La Ley de Depósito Legal en España


      – Decreto del 57:
         • Preocupación por regular “las obras derivadas de los inventos
            modernos”
      – Anteproyecto de ley de DL (2011)
         • Publicaciones digitales → patrimonio a preservar
         • Acceso y consulta de publicaciones almacenadas
         • Publicaciones digitales →objeto de DL
         • Sitios web → incluidos en el DL
         • Centros de conservación → habilitados para rastrearlos y
            conservarlos
         • Límites: propiedad intelectual y protección de datos




BIBLIOTECA NACIONAL DE ESPAÑA           El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                       10
El proyecto de la BNE: Primeros pasos


•   Primer contrato con Internet Archive: 2009-2010
•    Objetivo: recolectar, archivar y preservar el dominio .es
•    Primeras recolecciones
       4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010
•    Después de cada recolección:
       Deduplicación
       Indización
       Rastreo de parcheado




BIBLIOTECA NACIONAL DE ESPAÑA              El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                          11
El proyecto de la BNE: Primeros pasos




BIBLIOTECA NACIONAL DE ESPAÑA   El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                               12
El proyecto de la BNE: Situación actual

•   Resultados:
       30 TB de información almacenada
       Más de 875 millones de URL:
           Más de 317 millones en la primera recolección
           Cantidades menores en las tres siguientes complementarias
•    Acceso a la colección
•    Interfaz de consulta que necesita personalización
•    Búsquedas:
       Por URL
       Por palabra a texto completo (necesita depuración)


BIBLIOTECA NACIONAL DE ESPAÑA            El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                        13
El proyecto de la BNE: Situación actual

•   Informes
       MIME (Multipurpose Internet Mail Extension)
       Respuestas de servidores
       Servidores
       Exclusiones
•   Análisis de la colección mediante calas:
       Páginas recolectadas con éxito
       Niveles de navegación que se han guardado
       Porcentaje de webs guardadas que han desaparecido (casi un 3%)
       Otros dominios capturados aparte de .es
       Aproximación a porcentaje de temáticas

BIBLIOTECA NACIONAL DE ESPAÑA            El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                        14
El proyecto de la BNE: Planes inmediatos

•   Perspectivas de crecimiento 2011-2012
•    Nuevo contrato con Internet Archive:
       2 recolecciones masivas (2011), alternadas con
       2 recolecciones selectivas (2011 y 2012):
           Temáticas
           Acontecimientos (Elecciones Generales 2012)
•    Buscar colaboradores para las recolecciones selectivas
•    Probablemente estaremos cerca de duplicar la colección actual
•    Análisis de la colección muy de cerca durante los rastreos
•   Pruebas de rastreo propias con NetarchiveSuite  podremos evaluar en
    algunos aspectos nuestra capacidad de autogestión


BIBLIOTECA NACIONAL DE ESPAÑA               El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                           15
El proyecto de la BNE: Planes inmediatos




BIBLIOTECA NACIONAL DE ESPAÑA   El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                               16
El proyecto de la BNE: Planes inmediatos




BIBLIOTECA NACIONAL DE ESPAÑA   El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                               17
El proyecto de la BNE: Perspectivas de futuro

•   Acceso a la colección ¿en local o en remoto?
•   Personalización de la interfaz
•    Traslado de la colección:
       Propuesta con varias alternativas por parte de IA
       Habilitación de espacio físico
       Recursos para el mantenimiento de la colección
•    Recolectamos nosotros  adopción y desarrollo de un software
•    Gestión de la colección:
       Organización temática
       Planificación de nuevas recolecciones
       Inclusión de otros dominios españoles fuera del .es
•   Colaboración con Comunidades Autónomas (??)


BIBLIOTECA NACIONAL DE ESPAÑA            El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                        18
Referencias de interés

 –   IIPC: www.netpreserve.org
 –   Proyecto Memento: http://www.mementoweb.org/
 –   Wiki de proyectos de archivado web:
     http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives
 –   Internet Archive: www.archive.org
 –   Archivos de internet en la BnF:
     http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_int
     ernet.html
 –   Archivo web de la Biblioteca Nacional de Austria:
     http://www.onb.ac.at/ev/about/webarchive.htm
 –   Preservación digital del dominio .es:
     http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html
 –   NetarchiveSuite: http://netarchive.dk/suite/Welcome
 –   “A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-
     memory-of-webs-past/0

BIBLIOTECA NACIONAL DE ESPAÑA            El archivo de Internet, bibliotecas que piensan en el futuro
                                                                                                        19
Mar Pérez Morillo
    Servicio de Coordinación Web
          mar.perez@bne.es


       Pº de Recoletos, 20-22
            28071 Madrid
               España
         T +34 915 807 800


            www.bne.es



BIBLIOTECA NACIONAL DE ESPAÑA

Archivo web fesabid1

  • 1.
    El archivo deInternet, bibliotecas que piensan en el futuro Mar Pérez Morillo Jefe del Servicio de Coordinación Web, Biblioteca Nacional de España
  • 2.
    Índice – Contexto • Consideraciones generales – Panorama internacional • IIPC • Biblioteca Nacional de Francia • Biblioteca Nacional de Austria • ISO TC 46/SC 8/WG 9 – La ley de Depósito Legal – El proyecto de la BNE • Primeros pasos • Situación actual – Planes inmediatos • Perspectivas de futuro BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 2
  • 3.
    Contexto Directricesde la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003) – Volumen de los datos. – Duración de la información en línea (44 días y 2 años). – Internet constituye un invalorable espejo de la sociedad. – La producción de información en el mundo en medios tradicionales disminuye año tras año frente a los objetos digitales que crecen sin cesar. BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 3
  • 4.
    Contexto: consideraciones generales – Tarea llena de retos – Finales de los 90: Internet → fundamental en la difusión del conocimiento – Los documentos en línea desaparecen de repente – Falta de perspectiva histórica: valor impredecible – La web no es un depósito de ejemplares – Características de la web: grande, global, rápida, intangible, universal BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 4
  • 5.
    Panorama Internacional: IIPC – Fundada en 2003 por 11 bibliotecas nacionales e Internet Archive – Adquirir, preservar y hacer accesible la información en internet para el futuro – Objetivos: • Posibilitar recolección, preservación y acceso a largo plazo a contenidos de internet • Desarrollar herramientas comunes para crear archivos internacionales • Defender iniciativas internacionales con este propósito • Apoyar a instituciones dedicadas a esta tarea BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 5
  • 6.
    Panorama Internacional: IIPC – Grupos de trabajo muy activos: • Recolección • Acceso • Preservación – Proyectos de colaboración: • Facebook • Wikileaks • Terremoto y tsunami en Japón (Internet Archive - National Diet) • Olimpiadas 2012 • Memento BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 6
  • 7.
    Panorama Internacional – BnF (Biblioteca Nacional de Francia) → desde 2002 • Al amparo de su ley de DL • Sólo acceso para investigadores en sus instalaciones • Combinan recolección masiva y selectiva • Empezaron con Internet Archive y se independizaron – Biblioteca Nacional de Austria • Empezaron haciendo sólo recolección selectiva y por acontecimientos • En 2010 hicieron su primera recolección del dominio .at • Su política es combinar los tres modelos (selectiva, por acontecimientos y masiva) – Ambas utilizan Netarchive Suite BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 7
  • 8.
    Panorama Internacional: Iniciativasde archivado web BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 8
  • 9.
    Panorama Internacional: ISOTC 46/SC 8/WG 9 Estadísticas y aspectos de calidad en los archivos web – Objetivo: elaborar un informe técnico – Definición de términos y elementos relativos a estos proyectos – Establecer aspectos cuantificables para medir la calidad – Repaso de distintos aspectos relacionados con este tipo de proyectos: • Personal • Costes • Evaluación → establecimiento de indicadores de calidad • Tipos de proyectos según distintos criterios – Estado actual de la cuestión BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 9
  • 10.
    La Ley deDepósito Legal en España – Decreto del 57: • Preocupación por regular “las obras derivadas de los inventos modernos” – Anteproyecto de ley de DL (2011) • Publicaciones digitales → patrimonio a preservar • Acceso y consulta de publicaciones almacenadas • Publicaciones digitales →objeto de DL • Sitios web → incluidos en el DL • Centros de conservación → habilitados para rastrearlos y conservarlos • Límites: propiedad intelectual y protección de datos BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 10
  • 11.
    El proyecto dela BNE: Primeros pasos • Primer contrato con Internet Archive: 2009-2010 • Objetivo: recolectar, archivar y preservar el dominio .es • Primeras recolecciones  4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010 • Después de cada recolección:  Deduplicación  Indización  Rastreo de parcheado BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 11
  • 12.
    El proyecto dela BNE: Primeros pasos BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 12
  • 13.
    El proyecto dela BNE: Situación actual • Resultados:  30 TB de información almacenada  Más de 875 millones de URL:  Más de 317 millones en la primera recolección  Cantidades menores en las tres siguientes complementarias • Acceso a la colección • Interfaz de consulta que necesita personalización • Búsquedas:  Por URL  Por palabra a texto completo (necesita depuración) BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 13
  • 14.
    El proyecto dela BNE: Situación actual • Informes  MIME (Multipurpose Internet Mail Extension)  Respuestas de servidores  Servidores  Exclusiones • Análisis de la colección mediante calas:  Páginas recolectadas con éxito  Niveles de navegación que se han guardado  Porcentaje de webs guardadas que han desaparecido (casi un 3%)  Otros dominios capturados aparte de .es  Aproximación a porcentaje de temáticas BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 14
  • 15.
    El proyecto dela BNE: Planes inmediatos • Perspectivas de crecimiento 2011-2012 • Nuevo contrato con Internet Archive:  2 recolecciones masivas (2011), alternadas con  2 recolecciones selectivas (2011 y 2012):  Temáticas  Acontecimientos (Elecciones Generales 2012) • Buscar colaboradores para las recolecciones selectivas • Probablemente estaremos cerca de duplicar la colección actual • Análisis de la colección muy de cerca durante los rastreos • Pruebas de rastreo propias con NetarchiveSuite  podremos evaluar en algunos aspectos nuestra capacidad de autogestión BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 15
  • 16.
    El proyecto dela BNE: Planes inmediatos BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 16
  • 17.
    El proyecto dela BNE: Planes inmediatos BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 17
  • 18.
    El proyecto dela BNE: Perspectivas de futuro • Acceso a la colección ¿en local o en remoto? • Personalización de la interfaz • Traslado de la colección:  Propuesta con varias alternativas por parte de IA  Habilitación de espacio físico  Recursos para el mantenimiento de la colección • Recolectamos nosotros  adopción y desarrollo de un software • Gestión de la colección:  Organización temática  Planificación de nuevas recolecciones  Inclusión de otros dominios españoles fuera del .es • Colaboración con Comunidades Autónomas (??) BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 18
  • 19.
    Referencias de interés – IIPC: www.netpreserve.org – Proyecto Memento: http://www.mementoweb.org/ – Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives – Internet Archive: www.archive.org – Archivos de internet en la BnF: http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_int ernet.html – Archivo web de la Biblioteca Nacional de Austria: http://www.onb.ac.at/ev/about/webarchive.htm – Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html – NetarchiveSuite: http://netarchive.dk/suite/Welcome – “A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a- memory-of-webs-past/0 BIBLIOTECA NACIONAL DE ESPAÑA El archivo de Internet, bibliotecas que piensan en el futuro 19
  • 20.
    Mar Pérez Morillo Servicio de Coordinación Web mar.perez@bne.es Pº de Recoletos, 20-22 28071 Madrid España T +34 915 807 800 www.bne.es BIBLIOTECA NACIONAL DE ESPAÑA