El documento discute la importancia de la interoperabilidad de metadatos y datos de investigación. Explica que las e-infraestructuras promueven una ciencia abierta al facilitar el acceso y reutilización de datos. También destaca la necesidad de que los repositorios de datos sean interoperables para que los datos sean fácilmente descubribles, accesibles y reutilizables. Finalmente, señala que los modelos de datos de los repositorios deben poder manejar diferentes tipos de registros para dar cabida a la diversidad de datos en distintos
Gestión datos investigación interoperabilidad metadatos
1. Interoperabilidad, metadatos y datos de investigación
Tony Hernández – Eva Méndez
19 de enero de 2016
Maredata - Seminario sobre Gestión de Datos de Investigación
Barcelona - Infraestructuras y aspectos legales
3. Sobre las e-infraestructuras
• Ciencia basada en uso intensivo
de datos (sensores, scaners,
telescopios, satélites, fotografías,
análisis lingüísticos, datos
económicos, sociológicos…)
• Las e-infraestructuras fomentan la
emergencia de una ciencia abierta.
La recolección y preparación de
datos es cara y lleva mucho tiempo.
Eficiencia de costes.
4. ESFRI Roadmap (European Strategy Forum on Research Infr)
Research Infrastructures
European Strategy Forum on
Research Infrastructures
European Strategy Forum on
5. H2020 - EINFRA
• H2020 - EINFRA 12-2017 - Data and Distributed Computing e-
infrastructures for Open Science.
• El reto: hacer los datos de investigación “descubribles”, accesibles,
evaluables, inteligibles, usables y, cuando sea posible,
interoperables. To make research data discoverable, accessible,
assessable, intelligible, useable, and wherever possible
interoperable.
• ¿Tendremos repositorios temáticos e institucionales como en los
repositorios de resultados de investigación o serán un servicio de las
editoriales de revistas repositorios de revistas?
6. Repositorios de datos de investigación: no hay
demanda pero sí necesidad
● Las agencias financiadoras (EU, NSF, NIH, Wellcome Trust…)
presionan cada vez más para que se diseñen planes de gestión de
datos. Y eso incluye la preservación a largo plazo para su
reutilización y, por tanto, repositorios.
● Sean los repositorios que sean, temáticos, generales,
institucionales… lo importante será que sean interoperables.
7. Interoperabilidad de datasets
Interoperabilidad: función o característica de dos o más sistemas o
componentes para intercambiar información y utilizar la información
intercambiada (IEEE)
Datasets: una colección de datos curados, publicados y disponibles
en uno o varios formatos que permiten que puedan ser reutilizados
con el fin de replicar un análisis o un experimento o tomarlos para
crear otros nuevos.
La interoperabilidad de datos es una característica de los datasets
-y de los servicios de información que dan acceso a esos datasets-
en donde los datos pueden ser fácilmente descubiertos,
recuperados, procesados, reutilizados y re-empaquetados, en el
sentido de operados por otros sistemas.
OAI-PMH
8. Algunos metadatos de más
Además de la información común a
cualquier tipo de recurso (nombre, autor,
fecha de publicación, etc.) las aplicaciones,
la interoperabilidad de este tipo de recurso
exige encontrar más metadatos para poder
comprenderlos y procesarlos.
Cobertura del dataset: tipo de datos, cobertura temática, geográfica,
cronológica, etc.
Especificación técnica para recuperar, analizar y poder representar el dataset
(formato, protocolo, instrumentos, etc)
Condiciones de reutilización (derechos, licencias)
Dimensiones cubiertas por el dataset (temperatura, salinidad,
coordenadas…)
Semántica de las dimensiones (unidades de medida, granularidad temporal,
sintaxis, taxonomías…)
9. Diversidad de los datasets
• La diversidad estructural de los datasets varía mucho en
función del dominio por lo que se requiere que los modelos
de datos de los repositorios puedan manejar distintos tipos
de registros.
• Dublin Core, Ecological Metadata Language, ISO
19115:2003 Geographic information – Metadata (Federal
Geographic Data Committe), Data Catalog Vocabulary
(DCAT), Component Metadata Initiative (CMDI -
CLARIN.EU), Data Documentation Intiative (DDI -ICPSR)
11. Construcción de datasets en ciencias sociales
Datos cuantitativos
• Nombres de variables
• Etiquetas de variables
• Valores perdidos o nulos
• Identificadores geograf.
• Datos geoespaciales
• Pesos de las variables
Datos cualitativos
• Métodos y prácticas utilizadas
• Detalles sobre el diseño de la
entrevista.
• Copia en blanco del
consentimiento informado
• Detalles sobre la selección de
los sujetos.
• Instrucciones que se dieron a
los entrevistadores.
• Copia de guiones o
cuestionarios