Retos y oportunidades en Archivos y Gestión documental ante la Web Semántica. Ana Carrillo Pozas
1. Retos y Oportunidades en
Archivos y Gestión Documental
ante la Web Semántica
Curso impartido en la Escuela Gallega de Administración
Pública, Xunta de Galicia
21 y 22 de abril de 2014
Ana Carrillo Pozas
@anacarrillop
1
2. Objetivos
Entender los retos y oportunidades que plantea la Web
Semántica en la gestión y difusión documental con el fin de
compartir, relacionar y reutilizar la información en Archivos
y otras instituciones culturales.
2
3. De la Web 1.0 a la Web 3.0
Evolución de la Web
En realidad todas las eras de la Web conviven en la Web actual
Web 1.0 (1995)
Internet de las
empresas
Consumidores
Enfocada a empresas
Contenido propietario
Britannica online
HTML, portales
Web 2.0 (2005)
Internet de las
personas
Prosumidores
Redes sociales
Aplicaciones en línea
Definición de estándares
Wikipedia, Blogs, Wikis
Google
Web 3.0 (2015)
Internet de las
cosas
Portable y personal
Construida socialmente y
reinventada contextualmente
Web Semántica
Mashups
RDF/RDFS/OWL
3
4. El problema del acceso a la
información en la Web actual
4
HTML
HTML
href
href href href
href
href
href
href
La web de documentos, tal y como la conocemos
5. Los orígenes de la Web Semántica
5
1994
1st International Conference on the World Wide Web.
“Future directions”.
2001
Berners-Lee, Hendler y Lassila. “The Semantic Web:
A New form of web content that is meaningful to
computers will unleash a revolution of new
possibilities”.
Scientific American, vol. 284 (5), pp. 35-43
Tim Berners-Lee
2006
“Linked Data Principles”
6. 2009: The Next Web
6
http://www.ted.com/talks/tim_berners_lee_on_the_next_web/
7. ¡ Datos crudos !
7
Raw Data Now !
Tim Berners-Lee, 2009
En esta famosa charla Berners-Lee hizo un llamamiento a los gobiernos,
científicos e instituciones a poner sus datos de forma abierta y accesible en
la web, lo que denominó “datos crudos”.
Declaró que si la gente pusiera sus datos en la web (científicos, gobiernos,
comunidades, etc.), serían usados por otras personas para hacer cosas
maravillosas en formas que nunca pudieron haber imaginado.
Tras esta charla de 2009, se inició un movimiento de open data en todo el
mundo.
9. Open Data
= Datos Abiertos
“Open data son todos los datos que
pueden ser utilizados, reutilizados y
redistribuidos libremente por cualquier
persona (OKF, 2012)
Características:
Disponibilidad y acceso.
Reutilización y redistribución.
Participación universal.
10. Open Government Data
= Reutilización de la Información del Sector
Público (RISP)
Es publicar la información del
sector público en formatos
estándares, abiertos e
interoperables, facilitando su
acceso y permitiendo su
reutilización.
10
Relación conceptual entre Gobierno Abierto y Open Data.
Autora: Dra. Flavia Baladán
https://twitter.com/datosgob/status/454586287899422721/photo/1
11. Open Government
= Gobierno Abierto
11
http://esaged.files.wordpress.com/2014/04/transparencia-archivos-esaged-02.jpg
12. Relación entre los conceptos de
Gobierno Abierto
12
Fuente: Fundación Telefónica. Las TICs en el gobierno abierto: Transparencia, participación y colaboración. Ariel, 2011.
Inclusión de las TIC en los
procesos administrativos
internos
Utilización por parte de los
políticos de la Web 2.0
Abarca los procesos electorales
y/o procesos de votación,
deliberación y participación
Apertura de datos al
público y reutilización
Gobierno Abierto:
permite reforzar o restaurar los mecanismos de control y
de exigencia efectiva de rendición de cuentas a políticos y
gestores públicos, así como los mecanismos de pesos y
contrapesos al poder ejecutivo, mediante Transparencia
y derecho de Acceso a la Información Pública.
13. Linked Data
= Datos enlazados
Un conjunto de buenas prácticas para publicar y
conectar datos estructurados en la Web.
13
“The term Linked Data refers to a set of best practices for publishing and
connecting structured data on the Web. These best practices have been
adopted by an increasing number of data providers over the last three
years, leading to the creation of a global data space containing billions of
assertions - the Web of Data”.
Bizer, Heath and Berners-Lee (2009)
14. Principios básicos de Linked Data:
Time Berners-Lee
Utilizar URIs para asignar un nombre (y por tanto identificar) objetos
o recursos.
Utilizar URIs para que los recursos y objetos sean accesibles a
través del protocolo HTTP.
Ofrecer información útil de dichos recursos identificados mediante
URIs, y en formato estándar (RDF, SPARQL).
Incluir enlaces a URIs de datos externos para conectar con recursos
que puedan ser descubiertos por los clientes web.
14
15. Ejemplo de Linked Data: VIAF
15
http://viaf.org/
Ofrece URIs para cada registro único de autoridad.
VIAF es en sí misma una aplicación Linked Data porque genera
automáticamente conexiones a páginas de Wikipedia y a entidades de WorldCat.
16. Linked Open Data
= Datos abiertos enlazados
Son los datos enlazados que se han publicado
explícitamente bajo una licencia abierta.
No todos los datos enlazados son o serán abiertos.
No todos los datos abiertos son o serán enlazados.
#lodlam
16
19. 19
Ejemplo de interfaz de Linked Open Data del LOCAH Linked Archives Hub Project
http://data.archiveshub.ac.uk/page/person/nra/webbmarthabeatrice1858-1943socialreformer
21. 21
Fundación CTIC. Mapa Mundial de catálogos de datos públicos:
http://datos.fundacionctic.org/sandbox/catalog/faceted/
Catalogo mundial de datos públicos
22. Ejemplos de reutilización (RISP)
Oferta Formativa del Sector Público de Empleo del Principado de
Asturias: ejemplo de buscador facetado. Se muestran los cursos en una
línea de tiempo y los centros en que se imparten en un mapa.
Federal IT Spending Dashboard: ejemplo de lo que persigue el gobierno
de EEUU con la “Open Governement Directive”, una directiva en la que el
presidente Obama dio instrucciones a departamentos y agencias del
gobierno para “abrirse” a los ciudadanos. Este sitio web permite ver qué
proyectos TIC están siendo realizados por el gobierno y su planificación.
Zaragoza Estaziona: aplicación móvil desarrollada por el propio
Ayuntamiento de Zaragoza, lo que constituye un servicio de valor añadido
de la propia administración creando nuevas utilidades basadas en sus
propios datos.
22
23. España: Transparencia, Buen Gobierno, Acceso y
Reutilización de la Información Pública
23
Ley 19/2013, de 9 de diciembre de transparencia,
acceso a la información pública y buen gobierno.
Resolución de 19 de febrero de 2013, se la Secretaría de Estado de
Administraciones Públicas, por la que se aprueba la Norma Técnica
de Interoperabilidad de Reutilización de recursos de la información.
Real Decreto 1495/2011, de 24 de octubre, por el que se desarrolla
la Ley 37/2007, de 16 de noviembre, sobre reutilización de la
información del sector público, para el ámbito del sector público
estatal.
Ley 37/2007, de 16 de noviembre, sobre reutilización de la
información del sector público.
24. El presente/futuro de la Administración
española
24
Ley 19/2013
Transparencia,
Acceso a la
Información
Pública y Buen
Gobierno
Ley 37/2007
RISP
Ley 11/2007
Administración
Electrónica
Sobre estas tres leyes pivotará la administración
25. La Tecnología no lo es todo
“La Tecnología por sí misma, no va a conseguir
que una Administración sea más transparente,
abierta, participativa o generadora de
conocimiento.
Lo más importante son los cambios culturales,
procedimentales, organizativos y normativos que
adopte la Administración en su conjunto.”
25
26. La Web Semántica
26
Diapositiva presentada por Berners-Lee en TED 2009, "The Great Unveiling" en Long Beach, CA. USA, 4, Feb 2009
En la Web de
documentos podemos
navegar enlace tras
enlace.
En la Web de datos,
las máquinas
continúan esa
navegación de un
modo más profundo y
ofrecen mucho más
contexto de cualquier
dato.
27. Una definición
27
“La Web Semántica es una extensión de la web actual en la que a la información disponible se le
otorga un significado bien definido que permita a los ordenadores y las personas trabajar en
cooperación. Está basada en la idea de proporcionar en la web datos definidos y enlazados,
permitiendo que aplicaciones heterogéneas localicen, integren, razonen y reutilicen la información
presente en la web”.
Hendler, Miller y Berners-Lee (2002)
29. Arquitectura básica
Web actual
Localización de objetos y recursos
mediante URL.
Uso del protocolo HTTP para
establecer la comunicación entre
clientes y servidores.
Marcado de documentos con el
lenguaje HTML.
Web Semántica
Identificación y referenciación de
recursos mediante URI.
El protocolo HTTP sigue siendo la
base sobre la que se crean el
resto de desarrollos.
Marcado de información en XML.
Dotar de semántica a los recursos
web: RDF, RDFS, OWL.
29
30. Capa Sintáctica
Unicode: estándar de caracteres
universal.
URI (Uniform Resource Identifier):
elemento que permite referenciar e
identificar los recursos de una manera
unívoca.
XML (Extensible Markup Language):
lenguaje de marcado, formato
estándar válido para representar la
información. Va a conformar la base
sintáctica de todo el modelo.
XML Schema: lenguaje de esquema
sintáctico que nos permite definir y
validar tanto su contenido como su
estructura.
30
Esta capa es el basamento del modelo de Web
Semántica
31. Capa Semántica
RDF: la piedra angular sobre la que se
vertebra la estructura semántica de la
Web. Es un modelo de datos que
estructura la información en forma de
tripletas sujeto-propiedad-objeto que
pueden ser representadas en forma
de grafos.
RDF Schema (RDFS): extensión
semántica del RDF, define un lenguaje
con el que es posible describir las
propiedades y las clases de los
recursos RDF así como las jerarquías
entre dichas propiedades y clases.
31
No confundir RDF, que es un modelo de datos, con
la sintaxis en la que puede presentarse RDF:
RDF/XML, RDFa (para documentos HTML), Trutle,
RDF/JSON.
32. Capa Ontológica
OWL: aporta un modelo para la
representación de ontologías. Es una
extensión semántica de RDFS con
una semántica formal mucho más
precisa. Permite crear ontologías a un
nivel muy detallado, expresando
relaciones semánticamente más
avanzadas.
32
33. Capa Lógica
Para el establecimiento de reglas
adicionales se están desarrollando:
SWRL (Semantic Web Rule
Language): lenguaje para la definición
de reglas de inferencia.
RIF (Rule Interchange Format):
vocabulario que permite el intercambio
de reglas entre diferentes lenguajes.
SPARQL: para la búsqueda de
patrones de tripletas RDF y su
consiguiente consulta. Es un lenguaje
de consulta al estilo de SQL.
33
34. Capa de pruebas y confianza
Finalmente, es necesario establecer
mecanismos para evaluar el nivel de
confianza y veracidad de los recursos de
información:
Tecnologías de firma digital y
encriptación de datos.
34
36. Web de Documentos vs Web de Datos
36
dato
dato
dato enlace
enlace
enlace
enlace
enlace
37. Bases sobre las que se asienta la
filosofía de la Web Semántica
Se apoya en mecanismos universales como RDF, OWL y
SPARQL que proporcionan una infraestructura global.
RDF y el mecanismo de URIs son piezas fundamentales para dar
forma a una red de datos enlazados (Linked Open Data) que
permita exponer, compartir y conectar datos, información, recursos
y conocimiento en la web semántica.
37
38. Elementos básicos
URIs: el identificador único del recurso.
RDF: el modelo de datos para la descripción conceptual de
relaciones.
Serialización RDF: lenguaje procesable (RDF-XML)
Vocabularios RDF: define los vocabularios que utilizamos en las
sentencias RDF.
SPARQL: protocolo de búsqueda de sentencias RDF.
38
39. Gramática de relaciones
39
Recurso A Recurso B
relacionado con
sujeto
predicado
objeto
Lo importante son las relaciones. Estos grafos son la base de RDF.
Cada “recurso-relación-recurso” es una sentencia, con una estructura gramatical. Hay reglas para
construir estos “grafos”.
La Web de Documentos tiene relaciones implícitas, pero las máquinas no pueden interpretarlas.
En la Web de Datos hacemos las relaciones explícitas para que las máquinas las “comprendan”.
40. Ejemplo básico de un grafo
40
http://es.wikip
edia.org/wiki/
Rosalia_de_
Castro
Rosalía de Castro
http://purl.org/dc/terms/title
http://bdh.bne.
es/bnesearch/
detalle/bdh000
0058968
http://purl.org/dc/elements/1.1/creator
Cantares gallegos
http://purl.org/dc/terms/title
El grafo podría interpretarse del siguiente modo:
Rosalía de Castro http://es.wikipedia.org/wiki/Rosalia_de_Castro es autora de la obra digitalizada en BDH
http://bdh.bne.es/bnesearch/detalle/bdh0000058968 cuyo título es “Cantares gallegos”.
Las relaciones entre URIs se realizan mediante vocabularios/ontologías controladas.
En este caso. Dublin Core: http://purl.org/dc/terms
41. Modelos de datos RDF para
colecciones de archivos
41
http://sites.tufts.edu/liam/
45. Metadatos y Ontologías
En ellos se fundamenta la representación de la información en la web
semántica.
Metadatos
De propósito general: DCMI (Dublin Core Metadata Initiative)
Para archivos: EDM (Europeana Data Model), EAD (Encoded Archival
Description), EAC-CPF (Encoded Archival Context for Corporate Bodies,
Persons, and Families)
Ontologías: tienen como objetivo describir tipos de entidades y la forma en
la que se relacionan entre sí. Realizan descripciones de objetos, basadas
en los principios de interoperabilidad semántica, mediante la definición de
clases, propiedades, relaciones y axiomas.
45
46. EDM (Europeana Data Model)
Modelo adecuado para descripciones y objetos de archivos, bibliotecas
y museos.
Objetivo: preservar los datos originales manteniendo la
interoperabilidad mediante RDF como modelo de representación. Y
sustentar la búsqueda semántica.
Construido sobre estándares establecidos: RDF(S), OAI-ORE, SKOS y
Dublin Core.
Manual básico de Europeana Data Model:
http://travesia.mcu.es/portalnb/jspui/bitstream/10421/7261/1/EDM_Primer_130714_es.pdf
46
49. EAC-CPF (Encoded Archival Context for
coporate bodies, persons and families)
49
http://eac.staatsbibliothek-berlin.de/
50. Modelo Conceptual de la CNEDA
50
http://www.mcu.es/archivos/docs/NEDA_MCDA_P1_P2_20120618.pdf
http://www.mcu.es/archivos/MC/CNEDA/Presentacion.html
51. Algunas aplicaciones software para
el desarrollo de la Web Semántica
Editores RDF (Protégé, IsaViz)
Herramientas de visualización (RDF Validator, Protégé, IsaViz)
Software de almacenamiento y recuperación (Sesame)
Gestión de contenido semántico (Apache Stanbol)
Plataformas de desarrollo (Perllib, Pyrple, Apache Jena)
Navegadores (Tabulator)
Paquetes de gestión de ontologías (Ontobuilder, Text-to-Onto)
Plataformas de desarrollo de servicios web semánticos (Internet Reasoning
Service)
Motores de inferencia (Pellet)
Aplicaciones web (Swoogle)
Aplicaciones de gestión y publicación de colecciones de datos (CKAN)
“Hay un mercado open source de aplicaciones software para el desarrollo de la web semántica”. Santiago Navarro. En:
Jornada de Web Semántica en archivos, bibliotecas y museos (10 abril 2014). 51
52. Metodología para la Reutilización de la
Información y Transparencia
52
1. Selección
de datos
Análisis de
fuentes de
información,
datos, soportes,
formatos,
herramientas,
usos
Tecnologías
auxiliares
2. Extracción
de datos
Extraer datos de
sus fuentes
primarias
Tecnologías de
digitalización de
la información,
para formatos
analógicos
3.
Catalogación e
Indexación de
datos
Proceso de
limpieza,
catalogación,
asignación de
metadatos,
Dublin Core,
XML, RDF…
4.
Almacenamien
to y Búsqueda
de datos
Almacenamient
o eficiente y con
capacidad de
acceder a los
datos de forma
rápida y segura
Big Data,
almacenamiento
en la nube,
SPARQL
5. Generación
de
conocimiento
Generación de
conocimiento a
partir de la
información en
bruto
Linked Data
6.
Presentación y
Consulta
Garantizar el
acceso a la
información
desde
herramientas y
aplicaciones de
usuario final
Aplicaciones de
visualización,
aplicaciones
móviles,
portales…
CKAN
7. Protección de datos y seguridad
Papel esencial de
Archiveros, Bibliotecarios
53. Requisitos para la transparencia de la
información
53
Datos (no estructurados) disponibles en la Web bajo cualquier formato y en
licencia abierta.
Datos disponibles como datos estructurados.
Datos disponibles en formatos no propietarios.
Utilizar URIs de forma que se puedan referenciar los datos.
Enlazar los datos con otros datos para proporcionar contexto adicional.
Sistema de clasificación de Tim Berners-Lee
sobre la calidad de los datos
El objetivo de la Administración debe ser alcanzar al menos las 3 estrellas en el
corto plazo: catalogar toda la información sobre los datos disponibles en la
actualidad, sea cual sea su formato, primando la exposición de la información.
54. Formatos de Open Data
(según Open Data Handbook)
JSON
XML
RDF
Hojas de Cálculo
CSV
Documento de texto
Texto
Imagen escaneada
Formatos propietarios
HTML
54
55. Proyectos de Gobierno Abierto,
Transparencia y Open Data
55
http://datos.gob.es/content/iniciativas-espanolas
56. 56
Fundación CTIC. Mapa actualizado (marzo 2014) donde se pueden consultar todas las
iniciativas de datos públicos abiertos en el territorio español:
http://datos.fundacionctic.org/2014/03/mapa-actual-de-las-iniciativas-open-data-en-espana/
71. 71
Video: Qué es Linked Open Data según Europeana
http://vimeo.com/album/2072014/video/49231112
72. 72
En la Jornada de Web Semántica en archivos, bibliotecas y museos (10 de abril de 2014,
Madrid), Alfonso Sánchez Mairena presentó la voluntad de caminar hacia la web semántica en
PARES.
http://pares.mcu.es/
73. BNE y Web Semántica
Desde 2010 se viene trabajando en el proyecto de datos
enlazados datos.bne.es, gracias a un acuerdo con UPM
(Ontology Engineering Group).
73
http://www.slideshare.net/DanielVilaSuero/dat
osbnees-20
http://www.slideshare.net/asungomezperez/dat
os-enlazados-en-la-biblioteca-nacional-de-
espaa
http://www.slideshare.net/bne/datos-
enlazados-en-la-bne
74. Caso BNE: El Mapa de Procesos
2011: Definición del Modelo de Gestión
Documental de la BNE.
2012: Desarrollo del Mapa de procesos
de la BNE.
2012: Implantación de la herramienta
Alfresco para la gestión documental.
2013: Despliegue de la gestión
documental por procesos.
74
http://www.slideshare.net/bne/definicin-de-
un-modelo-de-gestin-documental-para-la-
bne
http://blog.bne.es/blog/el-mapa-de-
procesos-un-medio-para-la-
transparencia-de-la-bne/
http://blog.bne.es/blog/gestion-
documental-colaborativa-en-la-intranet/
75. Caso BNE: El Mapa de Procesos
Vinculación entre el Mapa de Procesos y el Sistema de Gestión
Documental:
75
Mapa de Procesos <metadatos> Estructura
documental del
SGD
Proceso <codigoproceso> Espacio de
colaboración
Subproceso <codigosubproceso> Espacio de
colaboración o
Carpeta 1 nivel
Serie <codigosimplificadoserie> Carpeta 2 nivel
Expediente <denominacioncarpeta> Unidad documental
compuesta
Unidad documental <denominacionunicafic
heroENI>
Unidades
documentales
Simples
76. Caso BNE: El Mapa de Procesos
Estructura de información del Mapa de Procesos
76
Campos Información
Nombre del Proceso Adquisiciones
Id Proceso 007
Tipo de proceso Realización
Descripción Proceso por el que se incorporan nuevos materiales o recursos
al fondo de la BNE con el fin de incrementar y enriquecer el
patrimonio bibliográfico.
Entradas Materiales o recursos susceptibles de adquisición
Salidas Materiales o recursos adquiridos y preparados para su proceso
técnico
Áreas implicadas Departamento de Adquisiciones e Incremento del Patrimonio
Legislación y normativa Ley 29/2011, de 29 de julio, de depósito legal…. etc
Procesos asociados Proceso Técnico
Ejemplo de ficha de proceso
77. Caso BNE: El Mapa de Procesos
Reflexión evolutiva del Mapa de Procesos:
No sólo es un instrumento de soporte a la Gestión Documental de la
BNE para respaldar su producción informativa y documental.
Puede ser un medio para la transparencia de la institución, al informar
de qué se hace, cómo y por quién.
Puede ser un instrumento estratégico: para el control de las actividades
y servicios, para servir de apoyo a los programas de evaluación y
calidad de la biblioteca, así como facilitar la adopción de decisiones.
Puede ser un elemento clave en el Plan RISP de la BNE, en la fase de
selección de datos.
Puede ser el esquema de conocimiento de la BNE, enlazado con otros
esquemas de conocimiento, basándose en la web semántica.
ver más: http://blog.bne.es/blog/el-mapa-de-procesos-un-medio-para-la-transparencia-de-la-bne/#sthash.exstEE7E.dpuf
77
78. Caso BNE: El Mapa de Procesos
Objetivos de esta reflexión evolutiva del Mapa de
Procesos:
Mejorar la flexibilidad y rendimiento de la aplicación en su
vinculación con la GD.
Rediseñar la aplicación cambiando el lenguaje de la base de
datos a formatos abiertos y con posibilidad de reutilización por
otras aplicaciones.
Considerar la posibilidad de explotación de los recursos del
mapa en entornos de datos abiertos y semánticos.
Rediseñar el modelo de datos hacia un modelo entidad-relación,
basándose en el Modelo Conceptual de la CNEDA.
78
79. Caso BNE: El Mapa de Procesos
Basándonos en el Modelo de la CNEDA se plantea un modelo de
datos básico con 4 entidades:
Proceso: son los procesos y subprocesos del mapa.
Agente: son las áreas implicadas, unidades productoras y proveedores externos e internos
del mapa.
Documentos: son los elementos series, expedientes y documentos del mapa.
Normas: la legislación y normativa consignada en el mapa.
79
80. Retos para archiveros y gestores de
documentos
Hacer frente al reto de gestionar eficazmente el gran volumen
de documentos que almacenan los archivos e instituciones
culturales para facilitar a sus usuarios un acceso sencillo y
enriquecido que satisfaga sus necesidades de información.
Necesidad de aportar otras soluciones para adaptar servicios a
los entornos de conocimiento.
La curva de aprendizaje de la Web Semántica es muy elevada.
La tecnología de Linked Data no es sencilla.
Dificultad de mantener los datos actualizados.
Cuestiones de licencias de datos.
Faltan más ejemplos de archivos.
80
81. Oportunidades para archiveros y
gestores de documentos
Las leyes de transparencia y reutilización son una oportunidad para los
archivos.
Generación de conocimiento.
Pensar primero, antes de comenzar un proyecto, qué se quiere hacer
con la información: ¿explotarla semánticamente?, ¿abrirla para su
reutilización?, ¿difundirla?
Visibilidad de las instituciones.
Posicionar a los archivos en el espacio global de la información.
Romper el concepto de silo de información.
Valores añadidos:
descripción enriquecida de objetos y repositorios,
contextualización externa,
sistemas de recomendación,
establecimiento de esquemas comunes de conocimiento
81
82. 82
“La web semántica puede dar salida a las relaciones de la
información, de manera automática, si los datos (documentos,
expedientes, personas, lugares....) de los archivos están
correctamente estructurados, normalizados y lo que es más
importante identificados con RDF”, @jmcollado
http://www.slideshare.net/bne/il-ny-a-pas-de-horstexte-challenges-for-archivallinkeddataadrianstevenson
83. Ana Carrillo Pozas
83
Jefe de Servicio de Intranet
Responsable del Sistema de Gestión Documental
y del Mapa de Procesos
Biblioteca Nacional de España
@anacarrillop