Algunos de los aspectos de interoperabilidad en repositorios institucionales: Protocolos, tecnologías, su conexión con la web semántica y linked open data.
1. Interoperabilidad en Repositorios
Institucionales
Emiliano Marmonti
emarmonti@gmail.com / http://emarmonti.com
III Encuentro de desarrolladores de las Redes BVS y asociadas.
11 de Octubre de 2012
2. Atributos de los RI.
• Institucionalmente definido.
– Oficialmente reconocidos. Depósito
compulsivo.
• Científica o académicamente orientado.
– Cubran las áreas de conocimiento de la
institución.
• Acumulativo y perpetuo.
– Preservación.
• Abierto e interoperable.
– Máxima difusión a través de la
colecta. Armonizar derechos de
autor.
3. Repositorios de acceso abierto
Gestionan, centralizan, facilitan el acceso
y preservan sus contenidos.
Los Repositorios de Acceso Abierto, cuyo nombre ha ido en
aumento, son un componente importante de la infraestructura
de e-investigación. El valor real de los repositorios recae en
el potencial de interconexión para crear una red de
repositorios, una red que puede proveer un acceso unificado
a los resultados de la investigación y son (re-) utilizados por
las máquinas y los investigadores.
COAR, 2011
4. Tipos de Repositorios
• Repositorio Temático (Subject-based)
– Colaboran varias instituciones.
– Subdivisiones o colecciones por temas, división
geográfica o institucional.
– Puede ser multitemático (caso arxiv.org)
• Repositorio Institucional.
– Institucionalmente definido / Oficialmente
reconocidos
– Abarcan la áreas de conocimiento de la
institución
• Para tipos específicos de material
– Tesis y disertaciones.
– De Datos Básicos insumo de investigaciones
científicas
5.
6.
7.
8. Repositorios de Acceso Abierto.
Interoperabilidad
“…La interoperabilidad se define 15 niveles!
como la capacidad de
intercambiar y compartir datos • Sintáctica
entre dos sistemas o • Semántica
componentes informáticos sin la • Técnica / Estructural
intervención de un tercer sistema, • Pragmática
de modo que la información o • Organizacional
datos compartidos puedan ser • Conceptual
utilizados sin requerir una • Dinámica
comunicación previa…” • Legal
• Social
• Esquemática o Estructural
The Police InformationTechnology • Intracomunitaria
Organisation añade a la definición de • Política-Humana
interoperabilidad, la capacidad de • Internacional
proporcionar o recibir servicios de otros • Empírica y Física
sistemas
9. Areas de servicios que aprovechan
interoperabilidad en Repositorios
Institucionales
Cosecha
Cosecha
de
Objetos
metadatos
Digitales
compuestos Estadísticas
s de uso
orio
re p osit
s de
er ede Interoperabilidad
d
ación de Repositorios
form
Con
Autoarchivo
“out-of-the-box”
Identificadores
persistentes Identificación
Unificada de
los autores
Basado en draft grupo de trabajo interoperabilidad COAR
10. Interoperabilidad Técnica.
Protocolo SWORD.
Simple Web-service Offering Repository
Deposit
• Especificación abierta que indica como realizar
depósitos en RI y tecnologías similares.
• Creado por las siguientes razones:
– Facilitar la interoperabilidad entre las
aplicaciones.
– Simplificar el proceso de identificación, hallar
la opción apropiada de contribución,
colocación de metadatos mínimos.
– Intentar dotar a las herramientas comunes
usadas por el usuario para la creación de
materiales digitales, las capacidades de
contribución con los RI.
– Actualmente en versión 2.0
18. Interoperabilidad Sintáctica
y Semántica. Metadatos
“Los metadatos o datos representacionales son definidos
como el dato sobre los datos,es un conjunto de elementos
que poseen una semántica comúnmente aceptada, o sea
tratan de representar la información electrónica tan
dispersa y representan a la descripción bibliográfica de
recursos electrónicos”
Rosa San Segundo Manuel
“Es un conjunto de atributos de catalogación de los
documentos que permiten su identificación sin tener que
ejecutarlos”
Ana Pavani
19. Esquemas de METADATOS -
¿Cuáles existen?¿Para que se usan?
Microformatos
Videos / Caso HTML 5 FOAF
De
propósito general
DOAC
Contenidos ODRL Description
Dublin Core, QDC Educativos
MODS of a Career
LOM /
DataCite IEEE 1484.12.1:2002
MS Datos Biológicos Archivo
Darwin Core METS/AIP
Fotografía
Cs de la Salud Exif / Picasa Ciencias Agrarias
HCE / HL7 Agris XML
20. OAI-PMH. Interoperabilidad Técnica
Es un protocolo que permite el intercambio de información referencial
(OAI-PMH) texto completo / objeto digital (OAI-ORE / DIDL) acerca de
recursos de información libremente disponibles a través de la web.
Búsqueda
Mi servidor
RI 1 RI 2 RI 3
Datos & admision protocolo Harvesting (cosechar)
No hay búsqueda completa
Funciona usando el protocolo http y devuelve resultados en
XML. Puede devolver las referencias en los distintos tipos
de metadato admitidos por el servidor
22. ¿Como es un “registro” OAI?
<dc:title>Limits on the cosmological abundance of supermassive compact objects
from a millilensing search in gamma-ray burst data</dc:title>
<dc:creator>Nemiroff, Robert J.</dc:creator>
<dc:creator>Marani, Gabriela F.</dc:creator>
<dc:creator>Norris, Jay P.</dc:creator>
<dc:creator>Bonnell, Jerry T.</dc:creator>
<dc:description> A new search for the gravitational lens effects of a significant
cosmological
density of supermassive compact objects (SCOs) on gamma-ray bursts has yielded...
</dc:description>
<dc:description>Comment: 14 pages including 3 figures, appeared 2001 January
22</dc:description>
<dc:date>2001-01-26</dc:date> Datos para consulta
<dc:type>text</dc:type>
<dc:identifier>http://arXiv.org/abs/astroph/0101488</dc:identifier>
<dc:identifier>Phys.Rev.Lett. 86 (2001) 580</dc:identifier>
</oai_dc:dc>
</metadata>
Datos para acceder al recurso digital
Se puede probar con la URL:
http://arxiv.org/oai2?verb=ListRecords&from=2004-06-16&metadataPrefix=oai_dc
23. Directrices. ¿Que misión
cumplen y cuales existen?
• Un conjunto de “mejores prácticas” para cubrir las
interpretaciones que pueden darse a los estándares de
interoperabilidad.
– Se cubren dos capas de interoperabilidad (sintáctica en el uso de
OAI-PMH y OAI_DC) y semántica, en el uso de vocabularios.
– DRIVER 2.0, OpenAire 1.0, BDCol, SNRD, etc.
• Sirven de orientación a las instituciones que cuentan con
un Repositorio o estén el proceso de implementarlo y
deseen ofrecer su contenido.
• Permitirá la normalización y estandarización en los
metadatos, facilitando la recuperación y ubicación de la
producción científica de su institución
Tomado parcialmente de BDCOL y DRIVER
24. Directrices. ¿Que misión
cumplen y cuales existen?
• DRIVER 2.0. Abarcan desde la demarcación de los
metadatos obligatorios, el uso y ejemplos recomendados
sobre OAI_DC, recomendaciones para el buen uso del
protocolo OAI-PMH, la inclusión de prefijos semánticos
para valores controlados como los aplicables a dc:type y
dc:rights. Puede aplicar sobre oai_dc y sobre DIDL.
• OpenAire 1.0. Directrices que representan la evolución de
DRIVER, entrando en consideración aspectos tales como
la fecha de liberación de embargo de los documentos, se
incluye información específica para la CEE que permite
relacionar los proyectos de investigación de la comunidad
económica europea con la información almacenada en los
Repositorios Institucionales.
25. Directrices. ¿Que misión
cumplen y cuales existen?
• Argentina. Directrices MINCyT-
SNRD.100% compatibles con DRIVER y
OpenAire.
• Colombia. Directrices BDCol. Basadas
en DRIVER.
• Otros países de la región: Adhieren por
lo general a DRIVER.
26. Servicios centralizados.
Conformación de Redes de
Repositorios
Como una de las aplicaciones de las
características de interoperabilidad de los
Repositorios, los servicios centralizados
consumen la información de los mismos
brindando una interfaz única de acceso
para el usuario final.
• Cosechadores
• Agregadores
• Repositorios centralizados
27.
28.
29. Ayuda para la
interoperabilidad.Validador
de directrices
• Validará aspectos de interoperabilidad
estructural o técnica relacionados con el
cumplimiento del protocolo OAI-PMH y
de las directrices DRIVER o SNRD o
OpenAire.
Herramienta
destinada a • Validará la existencia de metadatos
facilitar a los obligatorios definidos por las directrices.
RI aplicar • Validará algunos aspectos de
para integrar interoperabilidad semántica tales como
las redes vocabularios para los tipos de material,
estándar ISO para los idiomas y las
fechas, verificación de las URLs
indicadas como destino del objeto digital
y otras.
30.
31.
32.
33.
34. DataCite
About this Initiative:
DataCite is an international organisation founded in 2009
which promotes the use of Digital Object Identifiers (DOIs) for
published datasets in order to establish easier access to
Define un research data, to increase acceptance of research data as
schema legitimate contributions in the scholarly record, and to support
de
metadatos data archiving to permit results to be verified and re-purposed
para for future study.
datasets
http://
Applications of DataCite:
schema.datacite.org DataCite works with data centres around the world to assign
/meta/kernel-2.2/ persistent identifiers to datasets. Through this work, DataCite
index.html is developing an infrastructure that supports simple and
effective methods for data citation, discovery, and access, as
well as for linking datasets to other related research outputs
such as research articles. Citable datasets become
contributions to scholarly communication, paving the way for
new metrics and publication models that recognise and
reward data sharing.
35.
36. Situación de la Región
en relación a los
Repositorios de acceso
abierto
37. Comparativo región con “mapa-mundi”
No tomar como único indicador número de Repositorios
38. Situación en América Latina en
relación a los Repositorios
Institucionales. Redes Regionales
Red Regional de Repositorios “La Referencia”
– El proyecto surge de RedClara, OUI Financiado por un proyecto BID.
– Creada para generar una estrategia Regional, Marco de acuerdos y
Políticas comunes para la interoperabilidad y la gestión de la
información científica, un Modelo Operativo desarrollado en torno al
Piloto de la red federada de repositorios en la región y Una
estrategia de Capacitación regional.
– Estándar de interoperabilidad:directrices DRIVER. 4 tipos
documentales.
– Hasta el momento 9 países (Argentina, Brasil, Chile, Colombia,
Ecuador, México, Perú, Venezuela y El Salvador).
– Interacción con otras redes, tales como COLABORA. Comunidad
Latinoamericana de Bibliotecas y Repositorios Digitales.
http://lareferencia.redclara.net
39. Redondeando.Protocolos de
Interoperabilidad habitualmente
soportados por las plataformas más
comunes de RI
Solo algunos… y dependiendo de la plataforma…
• OAI-PMH
• OAI-ORE
• SWORD
• Open Search
• RSS Channels
• APIs de Webservices accesibles a través de REST, http o SOAP
(Ex: DSpace-API)
• Protocolos de autenticación tales como los usados por LDAP,
Shibboleth
• PIRUS, SURE, Estadísticas de uso
Aplicaciones de estos protocolos
• Servicios centralizados
• Front-ends Drupal Islandora, WordPress
• Ingesta automatizada a partir de
instrumentos de medición
• Single Sign On
40. RaaS.
¿Quien dijo que los RI debían tener
interface?
Virtual
Aplicaciones que Research
Portal
consumen/proveen del RI Environment Ad-Hoc
Colección
Aplicación
Administradora Específica
Redes Browser Datos Básicos RI
CMS
y SCent usuario (Ej: mobile
e-health portal)
SWORD
OAI-PMH / OAI-ORE Open Search OAI-PMH / REST auth
SWORD
RSS / OAI / REST
Layer de Servicios expuestos por parte del RI
Shibbolet SOAP
Amazon EC2
Aplicación Auth global RI Core U otra inf de almacenamiento cloud
41. Ultima parada de Interoperabilidad.
Web semántica y los Repositorios
Institucionales
Asistimos a diario a iniciativas importantes que se
desarrollan en paralelo.
– Open Data: Las organizaciones (principalmente
gubernamentales) se hallan en el proceso de publicar
los datos que generan con la finalidad de posibilitar
nuevos servicios y aplicaciones a partir de ellos. Un
ejemplo: Periodismo basado en datos.
– Muchas de estas iniciativas liberan sus datos en
formatos tales como CSV, texto plano, XML.
– En estos portales comienza a tomar relevancia la
utilidad / necesidad de publicar sus instancias de
datasets bajo los 4 principios de Linked Open Data
(URIS para dataset propio, http, RDF, linkear con
otras URIs de datasets externos).
– Se comienza a trabajar con nuevas tecnologías tales
como endpoints SPARQL en implementaciones
reales de la Web Of Data o Web Semántica.
45. Un ejemplo (hipótético)
posible aplicable a los RI.
Linked Open Data
Datos
Básicos
insumo RDF Registro OAI
o producto RDF BDD
con
Investigación Terminológica
esteroides RDF
Específica
(Artículo)
Repositorios RDF
de datos
RDF
Datos
académicos de
sus autores (ej: CV)
Proyectos de
Patentes investigación
para esa financiados
Datos geoespaciales disciplina en una disciplina
46. Conclusiones
• Las plataformas de RI son una de las herramientas que permiten
implementar Políticas de Acceso Abierto para la producción
intelectual de las instituciones (OJS, CMSs comunes,etc)
• La ventaja de las plataformas de RI, consiste en que avanzan
permanentemente en el soporte y perfeccionamiento de
protocolos de interoperabilidad. Ex: DSpace 3.0 incorpora
grandes mejoras en procesos selectivos de exposicion de
metadatos OAI-PMH, permite incluso realizar colecciones
virtuales producto de cosecha de otros RIs.
• El Repositorio Institucional tiende a ser una plataforma no-visible
con diferentes “caras” que consumen sus servicios. Estas
fachadas se implementan con herramientas comunes tales como
plataformas de CMSs, aprovechando los protocolos de
interoperabilidad.
• En el ámbito científico, las plataformas de e-research serán
productoras/consumidoras de los recursos del RI. En el ámbito
académico las plataformas virtuales de aprendizaje, serán
productoras/consumidoras de sus contenidos.
• En base a los protocolos de interoperabilidad, es posible brindar
servicios centralizados especializados y/o temáticos en función
de contribuir con la misión de los repositorios en relación a
difundir sus contenidos. Buscadores verticales calificados.
47. Conclusiones (II)
• La interoperabilidad sintáctica y semántica en relación a los
metadatos es el gran desafío de los servicios centralizados.
• Las directrices internacionales vienen a homogeneizar y dar real
valor a la interoperabilidad de las plataformas. Las directrices
son un servicio directo (aunque no lo parezca) al usuario final.
Los servicios de validación ayudan a los gestores de repositorios
no solo a ser interoperables, sino a homogeneizar y unificar
criterios intra-repositorio.
• En el universo de la web-semántica existe una enorme
oportunidad para los RI. Las posibilidades de conexión entre los
metadatos con diferentes endpoints SPARQL haría
enormemente mas rica la información que es presentada al
usuario final.
• En la región se están conformando redes nacionales de
repositorios institucionales, realizando esfuerzos en tiempo y
recursos en acordar criterios, disponer recursos tecnológicos y
generar comunidades en función de elevar los propósitos
originales de los RI hacia la región: Liberar, difundir y preservar
la producción de conocimientos.
48. ¿Preguntas?
Emiliano Marmonti
emarmonti@gmail.com / http://emarmonti.com
III Encuentro de desarrolladores de las Redes BVS y asociadas
11 de Octubre de 2012