Repositorios de datos
científicos
Expositor: Emiliano Marmonti
emarmonti@gmail.com
@emarmonti
24 de Octubre de 2014
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Datos Abiertos
Datos
Gubernamentales
Datos Científicos
Participación ciudadana
Servicios innovadores
● Posibilidad de replicar los resultados
● Evitar el fraude
● Preservación
● Ciencia cooperativa
Difundir!
Particularidades de los datos
científicos
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
A diferencia de otros tipos de información,
se recogen, observan o crean datos de investigación
a los efectos de producir y validar
resultados de investigación originales .
Los datos podrían ser creados por
un equipo de investigación con un propósito
y luego ser
re-usados por otro, con otra finalidad
o para responder otras preguntas.
“Situacionales"
Cámara de seguridad / insumo investigación comportamiento
Clasificación de datos
científicos
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Observacionales: datos capturados en tiempo real, comúnmente únicos
e irremplazables Ej: imágenes cerebrales, encuestas
Experimentales: datos provenientes de resultados experimentales, Ej:
Aquellos que provienen de aparatos de medición en laboratorios,
comúnmente reproducibles, pero caros.
Simulación: datos generados de modelos de prueba donde el modelo y
los metadatos pueden ser mas importantes que los datos de salida del
modelo. Ej: Modelos económicos o climáticos.
Desarrollados o compilados: resultado de procesar y/o combinar datos
“crudos”, comúnmente reproducibles pero caros. Ej. Bases de datos
compiladas,Resultados de text mining, Datos de censos consolidados.
Reference or canonical: Una (estática u orgánica) conglomeración o
collección de datasets mas pequeños (revisados por pares), la mayor
parte de ellos publicados y “curados” Ej. Bancos de datos genéticos,
bases de datos cristalográficas.
Datos primarios vs. Datos
secundarios.
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Dato colectado por
el investigador para conducir
la investigación
Dato colectado
Por alguien más que
El usuario
Incertidumbre
Acerca de
Sobre qué base
Se colectó
Necesidad
De conocer
Todas las
Condiciones de
obtención
Primario Secundario
Qué considera/ría/rá a un
investigador al re-usar un
dataset?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Documentación
Data Management Plan
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Que haría un investigador de
nuestra institución si luego de
tres años de publicado un paper
ampliamente citado
es acusado de falsificar
Los datos?
One study has found that 80 percent of scientific data is lost
within two decades and the odds of sourcing datasets decline
by 17 percent each year.
If data continues to be poorly managed, science will ultimately suffer,
with experiments being hard to replicate, findings called into question,
papers retracted and careers impacted.
Eighty percent of scientific data are lost within
two decades, disappearing into old
email addresses
and obsolete storage devices,
a Canadian study indicated.
Data management plan (II). Cifras
escalofriantes (diría un noticiero).
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
1. Data output is growing rapidly. Ninety percent of all the data in the world
has been generated over the last two years, while scientific data
output is currently increasing at an annual rate of 30 percent.
2. Despite significant investment, data is not being managed effectively
—$1.5 trillion is the current estimated total global spending on research and development,
which could all be at risk.
3. Much of the data generated is lost. In one study, the odds of sourcing datasets declined
by 17 percent each year, with 80 percent of datasets more than 20 years old not available.
4. Much of the data that remains could be unverified. Fifty-four percent of the resources
used across 238 published studies could not be identified, making verification impossible.
5. Time and money is wasted, impacting science and society. Since 2000, more
than 80,000 patients have taken
part in clinical trials based on research that was later retracted because of error or fraud.
The number of retractions due to errors has also grown more than fivefold since 1990.
6. Funders now require data management and sharing policies. Thirty-four countries have signed up
to the “Declaration on Access to Research Data from Public Funding,”
while key funding bodies such as the NIH and Wellcome Trust now
request data management plans be part of applications.
Por donde empezamos?
Por ejemplo, qué antecedentes de planes de
administración de datos científicos hay?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Data management plans are
not one-size-fits-all.
An appropriate data management
plan should take
into consideration, early on in the
data life cycle, the size and complexity
of the data to be collected or assembled,
the likely audience for reuse of the data,
sponsor requirements, and
general legal and
ethical requirements (e.g. that data be shared
in a way that preserves
the confidentiality
of subject information).
Data Management Plan
Template NSF
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Sobre los datos
Data Management Plan
Template NSF
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Sobre los metadatos /
infraestructura /
seguridad
Data Management Plan
Template NSF
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Sobre el presupuesto / propiedad
intelectual y otros.
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Vemos entonces que las entidades financiadoras de I+D
comienzan a solicitar a sus proyectos financiados la existencia de
un plan de administración de datos científicos. Lógicamente
no resulta económico crear un plan específico para cada proyecto, excepto
Situaciones excepcionales.
Y con cual dificultad principal se enfrentan?
De acuerdo a la literatura, a uno muy grande:
La reticencia de la propia comunidad científica
Los repositorios de datos científicos
nacen como producto
De un DMP
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Cuáles son los retos que deben enfrentar los
repositorios de datos científicos?
Los repositorios de datos científicos
sirven (entre otros fines) para validar
resultados de investigación, por tanto
deben vincularse con los
Repositorios institucionales donde
se muestra para qué fueron
usados esos datos
Se asume entonces que el RI y el RDC son
Repositorios distintos dado que difieren en:
● Objetivos
● Técnicas de gestión y mantenimiento
● Políticas de Acceso y depósito
● Tipología
● Cantidad de datos a preservar
● Importancia de la procedencia
● Validez de los datos
● Infraestructura de IT necesaria
● Esquemas de metadatos. Puedo catalogar
con el mismo esquema de metadatos del RI
Datos Científicos? Es mas, puedo catalogar
con un único esquema datos científicos?
Desafío en cuanto a infraestructura
La cantidad de espacio necesario
Excede lo que la institución puede
brindar
Obsolecencia en formatos.
Preservación digital Formación de usuarios y profesionales
de bibliotecas para gestionar estos desafíos
Presupuesto!
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué ejemplos de Repositorios de datos primarios
conocemos?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Cómo atacan algunos de los desafíos los RdC?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué ejemplos de Repositorios de datos primarios
conocemos?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Best practices para el almacenamiento / depósito de
datos
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Cómo intervienen los Bibliotecarios en la
administración de los datos científicos?
+ Citas!
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué tipos de metadatos se reporta (en la literatura
consultada) que poseen o deberían poseer los
datasets?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Porqué es importante citar los datos?
● Importancia: Datos deberían ser considerados productos de
investigación legítimamente citables
Las citas de datos deberían acordarse con la misma importancia
en registros académicos como otros objetos de investigación, tal como
las publicaciones.
● Crédito y atribución: Las citas de datos deberían faciliar otorgar
crédito académico y atribución normativa y legal a todos quienes
contribuyeron a la creación del dataset, reconociendo que un único
estilo o mecanismo de atribución no es aplicable a todos los datasets.
● Evidencia: Siempre que se produzca un reclamo académico por sobre
los datos, el mismo debe ser citado.
● Identificador único (y persistente): El Dataset debe poseer un identificador
único y persistente, accionable por máquina y globlamente usado por una comunidad.
Hay mas!
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué esquemas de metadatos existen para
datasets? (Solo un ejemplo)
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Hay algo similar a DOAR o ROAR para RDCs?
Esquema de
metadatos para
describir
repositorios
de datos?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Hay algo similar a DOAR o ROAR para RDCs?
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué plataformas de software existen para administración de
repositorios de datos? (Dos ejemplos), hay otros casos de
aplicación de plataformas corrientes como Dspace, Eprints o
Fedora
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Qué iniciativas
encontramos hoy en la
región? (no incluyo
participación en
temáticos donde hay
varios países de la
región)
Argentina
Temático Gubernamental México
LAGO Regional
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
Iniciativas en formación en la región
Argentina PLICSS
Chile ChiVO
Bibliografía
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
● Data Management Plans and you. Boston College. 2012
http://www.bc.edu/content/dam/files/offices/ides/docs/eteachingday/2012/E-Teaching-Day-DMP.pdf
● Research Data MANTRA. Online course
http://datalib.edina.ac.uk/mantra/
● Datos abiertos y repositorios de datos: nuevo
reto para los bibliotecarios.
http://eprints.rclis.org/19524/1/postprint_Hernandez_Garcia.pdf
● Love, or loose your data
http://www.laboratoryequipment.com/articles/2014/04/love-or-lose-your-data
● Data management plan as required by NSF
http://thedata.org/book/data-management-plan-template
¿Preguntas?
MUCHAS GRACIAS
Expositor: Emiliano Marmonti
emarmonti@gmail.com
24 de Octubre de 2014
Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C

#Aprender3C - Repositorio de datos primarios

  • 1.
    Repositorios de datos científicos Expositor:Emiliano Marmonti emarmonti@gmail.com @emarmonti 24 de Octubre de 2014 Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C
  • 2.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Datos Abiertos Datos Gubernamentales Datos Científicos Participación ciudadana Servicios innovadores ● Posibilidad de replicar los resultados ● Evitar el fraude ● Preservación ● Ciencia cooperativa Difundir!
  • 3.
    Particularidades de losdatos científicos Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C A diferencia de otros tipos de información, se recogen, observan o crean datos de investigación a los efectos de producir y validar resultados de investigación originales . Los datos podrían ser creados por un equipo de investigación con un propósito y luego ser re-usados por otro, con otra finalidad o para responder otras preguntas. “Situacionales" Cámara de seguridad / insumo investigación comportamiento
  • 4.
    Clasificación de datos científicos Aprender3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Observacionales: datos capturados en tiempo real, comúnmente únicos e irremplazables Ej: imágenes cerebrales, encuestas Experimentales: datos provenientes de resultados experimentales, Ej: Aquellos que provienen de aparatos de medición en laboratorios, comúnmente reproducibles, pero caros. Simulación: datos generados de modelos de prueba donde el modelo y los metadatos pueden ser mas importantes que los datos de salida del modelo. Ej: Modelos económicos o climáticos. Desarrollados o compilados: resultado de procesar y/o combinar datos “crudos”, comúnmente reproducibles pero caros. Ej. Bases de datos compiladas,Resultados de text mining, Datos de censos consolidados. Reference or canonical: Una (estática u orgánica) conglomeración o collección de datasets mas pequeños (revisados por pares), la mayor parte de ellos publicados y “curados” Ej. Bancos de datos genéticos, bases de datos cristalográficas.
  • 5.
    Datos primarios vs.Datos secundarios. Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Dato colectado por el investigador para conducir la investigación Dato colectado Por alguien más que El usuario Incertidumbre Acerca de Sobre qué base Se colectó Necesidad De conocer Todas las Condiciones de obtención Primario Secundario
  • 6.
    Qué considera/ría/rá aun investigador al re-usar un dataset? Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Documentación
  • 7.
    Data Management Plan Aprender3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Que haría un investigador de nuestra institución si luego de tres años de publicado un paper ampliamente citado es acusado de falsificar Los datos? One study has found that 80 percent of scientific data is lost within two decades and the odds of sourcing datasets decline by 17 percent each year. If data continues to be poorly managed, science will ultimately suffer, with experiments being hard to replicate, findings called into question, papers retracted and careers impacted. Eighty percent of scientific data are lost within two decades, disappearing into old email addresses and obsolete storage devices, a Canadian study indicated.
  • 8.
    Data management plan(II). Cifras escalofriantes (diría un noticiero). Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C 1. Data output is growing rapidly. Ninety percent of all the data in the world has been generated over the last two years, while scientific data output is currently increasing at an annual rate of 30 percent. 2. Despite significant investment, data is not being managed effectively —$1.5 trillion is the current estimated total global spending on research and development, which could all be at risk. 3. Much of the data generated is lost. In one study, the odds of sourcing datasets declined by 17 percent each year, with 80 percent of datasets more than 20 years old not available. 4. Much of the data that remains could be unverified. Fifty-four percent of the resources used across 238 published studies could not be identified, making verification impossible. 5. Time and money is wasted, impacting science and society. Since 2000, more than 80,000 patients have taken part in clinical trials based on research that was later retracted because of error or fraud. The number of retractions due to errors has also grown more than fivefold since 1990. 6. Funders now require data management and sharing policies. Thirty-four countries have signed up to the “Declaration on Access to Research Data from Public Funding,” while key funding bodies such as the NIH and Wellcome Trust now request data management plans be part of applications.
  • 9.
    Por donde empezamos? Porejemplo, qué antecedentes de planes de administración de datos científicos hay? Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Data management plans are not one-size-fits-all. An appropriate data management plan should take into consideration, early on in the data life cycle, the size and complexity of the data to be collected or assembled, the likely audience for reuse of the data, sponsor requirements, and general legal and ethical requirements (e.g. that data be shared in a way that preserves the confidentiality of subject information).
  • 10.
    Data Management Plan TemplateNSF Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Sobre los datos
  • 11.
    Data Management Plan TemplateNSF Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Sobre los metadatos / infraestructura / seguridad
  • 12.
    Data Management Plan TemplateNSF Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Sobre el presupuesto / propiedad intelectual y otros.
  • 13.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Vemos entonces que las entidades financiadoras de I+D comienzan a solicitar a sus proyectos financiados la existencia de un plan de administración de datos científicos. Lógicamente no resulta económico crear un plan específico para cada proyecto, excepto Situaciones excepcionales. Y con cual dificultad principal se enfrentan? De acuerdo a la literatura, a uno muy grande: La reticencia de la propia comunidad científica Los repositorios de datos científicos nacen como producto De un DMP
  • 14.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Cuáles son los retos que deben enfrentar los repositorios de datos científicos? Los repositorios de datos científicos sirven (entre otros fines) para validar resultados de investigación, por tanto deben vincularse con los Repositorios institucionales donde se muestra para qué fueron usados esos datos Se asume entonces que el RI y el RDC son Repositorios distintos dado que difieren en: ● Objetivos ● Técnicas de gestión y mantenimiento ● Políticas de Acceso y depósito ● Tipología ● Cantidad de datos a preservar ● Importancia de la procedencia ● Validez de los datos ● Infraestructura de IT necesaria ● Esquemas de metadatos. Puedo catalogar con el mismo esquema de metadatos del RI Datos Científicos? Es mas, puedo catalogar con un único esquema datos científicos? Desafío en cuanto a infraestructura La cantidad de espacio necesario Excede lo que la institución puede brindar Obsolecencia en formatos. Preservación digital Formación de usuarios y profesionales de bibliotecas para gestionar estos desafíos Presupuesto!
  • 15.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué ejemplos de Repositorios de datos primarios conocemos?
  • 16.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Cómo atacan algunos de los desafíos los RdC?
  • 17.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué ejemplos de Repositorios de datos primarios conocemos?
  • 18.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Best practices para el almacenamiento / depósito de datos
  • 19.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Cómo intervienen los Bibliotecarios en la administración de los datos científicos? + Citas!
  • 20.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué tipos de metadatos se reporta (en la literatura consultada) que poseen o deberían poseer los datasets?
  • 21.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Porqué es importante citar los datos? ● Importancia: Datos deberían ser considerados productos de investigación legítimamente citables Las citas de datos deberían acordarse con la misma importancia en registros académicos como otros objetos de investigación, tal como las publicaciones. ● Crédito y atribución: Las citas de datos deberían faciliar otorgar crédito académico y atribución normativa y legal a todos quienes contribuyeron a la creación del dataset, reconociendo que un único estilo o mecanismo de atribución no es aplicable a todos los datasets. ● Evidencia: Siempre que se produzca un reclamo académico por sobre los datos, el mismo debe ser citado. ● Identificador único (y persistente): El Dataset debe poseer un identificador único y persistente, accionable por máquina y globlamente usado por una comunidad. Hay mas!
  • 22.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué esquemas de metadatos existen para datasets? (Solo un ejemplo)
  • 23.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Hay algo similar a DOAR o ROAR para RDCs? Esquema de metadatos para describir repositorios de datos?
  • 24.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Hay algo similar a DOAR o ROAR para RDCs?
  • 25.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué plataformas de software existen para administración de repositorios de datos? (Dos ejemplos), hay otros casos de aplicación de plataformas corrientes como Dspace, Eprints o Fedora
  • 26.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Qué iniciativas encontramos hoy en la región? (no incluyo participación en temáticos donde hay varios países de la región) Argentina Temático Gubernamental México LAGO Regional
  • 27.
    Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C Iniciativas en formación en la región Argentina PLICSS Chile ChiVO
  • 28.
    Bibliografía Aprender 3C Comunidadde Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C ● Data Management Plans and you. Boston College. 2012 http://www.bc.edu/content/dam/files/offices/ides/docs/eteachingday/2012/E-Teaching-Day-DMP.pdf ● Research Data MANTRA. Online course http://datalib.edina.ac.uk/mantra/ ● Datos abiertos y repositorios de datos: nuevo reto para los bibliotecarios. http://eprints.rclis.org/19524/1/postprint_Hernandez_Garcia.pdf ● Love, or loose your data http://www.laboratoryequipment.com/articles/2014/04/love-or-lose-your-data ● Data management plan as required by NSF http://thedata.org/book/data-management-plan-template
  • 29.
    ¿Preguntas? MUCHAS GRACIAS Expositor: EmilianoMarmonti emarmonti@gmail.com 24 de Octubre de 2014 Aprender 3C Comunidad de Conocimiento Colaborativo | www.aprender3c.org | @Aprender3C