Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Workshop de datos científicos. Introducción

1.019 visualizaciones

Publicado el

Material introductorio elaborado por Fernando Ariel López para el Workshop de Datos Científicos

Publicado en: Educación
  • Sé el primero en comentar

Workshop de datos científicos. Introducción

  1. 1. Fernando Ariel López CAICYT – CONICET @fernando__lopez Workshop de Datos Científicos
  2. 2. Big Data: Volumen, Velocidad, Variedad y Veracidad Minería de Datos, Descubrimiento de Conocimiento, Inteligencia de Negocios (Data Mining, Knowledge Discovery, Business Intelligence)
  3. 3. Ciencia Abierta = Open Science
  4. 4. 1) Metodologías Abiertas / Open Methodology (Métodos, procesos, documentos relevantes, etc.) 2) Software y Hardware Libres / Soft and Hard open 3) Datos Abiertos / Open Data (libres para reutilizar) 4) Acceso Abierto / Open Access (libre y gratuito) 5) Revisión por pares Abierto / Open Peer Review (transparencia en los criterios de evaluación y calidad) 6) Recursos Educativos Abiertos / Open Educational Resources (MOOC y REA) Principios de la CIENCIA ABIERTA
  5. 5. → hechos, observaciones o experiencias (basado argumento, teoría o prueba) → pueden ser numéricos, descriptivos o visuales. → pueden ser en estado bruto o analizado, → pueden ser experimentales u observacionales. → pueden ser abiertos o cerrados ¿Qué son los datos de investigación?¿Qué son los datos de investigación?
  6. 6. Los datos incluyen: - cuadernos de laboratorio o de campo, - datos de investigación primaria (en papel o digital), - cuestionarios, - fotografías, audio y videos - desarrollo de modelos Las colecciones datos para la investigación pueden incluir: - diapositivas, diseños, muestras. Procedencia de los datos: cómo, cuándo, donde se recogió y con qué (por ejemplo, instrumentos). ¿Qué son los datos de investigación?¿Qué son los datos de investigación?
  7. 7. ● Es una colección de datos reunidos durante la ejecución de un proyecto de investigación. ● Son objetos digitales compuestos y heterogéneos. ● Constituye la base de la investigación y va asociado a una publicación científica (resultado de la investigación). ● Se almacena y gestiona en Repositorios Interoperables conforme a estándares internacionales. Es el objeto específico de trabajo, control, organización, descripción y preservación de datos científicos DATASET
  8. 8. ACTORES IMPLICADOS - Investigadores [productores de datos] - Agencias de Financiamiento - Universidades y Centros de Investigación - Gestores de datos: ¬ Repositorios Institucionales (corto plazo) ¬ Centro de Datos (mediano-largo plazo) - Usuarios (otros investigadores, ciudadanos, etc.)Sociedad Civil (ONG) + Empresas
  9. 9. Antecedentes: Políticas en las Agencias de Financiamiento ● Estados Unidos: NSF (National Science Foundation), NIH (National Institutes of Health), NASA y NODC (National Oceanographic Data Center). ● Europa: Horizon2020 ● Reino Unido: AHRC, BBSRC, Cancer Research UK, EPSRC, ESRC, MRC, NERC, STFC, WellcomeTrust. ● Australia: ARC ● Regional: OCDE ● Argentina: – Iniciativas Nacionales de Datos http://sistemasnacionales.mincyt.gob.ar/ – Ley Nacional 26.899. Datos primarios en 5 años disponibles. Excepciones
  10. 10. Líneas de Trabajo ● Plan de Gestión de Datos / Data Management Plan (DMP) ● e-Infraestructuras
  11. 11. DATOS PLAN DE GESTIÓN DE DATOS [DMP] Es un documento que describe el tratamiento que van a recibir los datos de investigación generados o recopilados en el transcurso de un proyecto de investigación.
  12. 12. CAICYT- CONICET (Argentina) Propuesta: Plan de Gestión de Datos Científicos Análisis de las actuales Políticas y Requisitos de importantes Agencias de Financiamiento: ● DCC (UK) ● Horizon2020 (UE) ● NSF (EEUU) ● ARC (AU)
  13. 13. e-Infraestructura ● Repositorio Interoperable de Datos – Datos Públicos Argentina (CKAN, OKF), – Zenodo (Invenio, CERN) – DRYAD, PLICSS, LAGOS (DSpace, MIT & HP), – Harvard DATAVERSE (Eprints) ● Plataforma de Trabajo para Investigadores – OSF, HubZero, MyExperiment.org, etc. ● Cluster de Almacenamiento y/o Procesamiento
  14. 14. Los investigadores pueden ser reacios a compartir sus datos públicamente debido a los costos individuales reales y/o percibidos. Mayor resistencia: Cambio Cultural
  15. 15. BENEFICIOS #DatosAbiertos ● Ayuda a verificar los resultados. ● Evitar la fabricación y falsificación de datos. ● Diferentes interpretaciones o enfoques aplicados a datos existentes contribuyen a los avances científicos. ● Optimización en el uso de recursos. ● Preservación a largo plazo bien gestionada, permite mantener la integridad de los datos. TenopirC, Allard S, Douglass K, AydinogluAU, et al. (2011) Data Sharing by Scientists: Practices and Perceptions. PLoSONE 6(6): e21101. doi:10.1371/journal.pone.0021101 http://www.plosone.org/article/info:doi/10.1371/journal.pone.0021101
  16. 16. Debemos desarrollar Políticas y Acciones para Gestionar los Datos Científicos: ● Políticas a nivel de agencias de financiación e institucionales. Definición de roles/responsabilidades de los distintos actores. ● Recursos financieros a largo plazo ya que los datos son acumulativos y se preservan. ● Recursos humanos especializados (para generación de datos, normalización, explotación y preservación). ● Infraestructuras coordinadas para garantizar su interoperabilidad. Entre los requisitos de las infraestructuras destacar: preservación, acceso, data curation, data processing, distribución.
  17. 17. ¿y los Investigadores? ● Colaborar con su formación ● Proveer una infraestructura de trabajo (framework): – Almacenamiento de datos – Curación, Procesamiento, Explotación, Visualización de datos. ● Contar con Repositorios / Centros de Datos: – Identificadores únicos (Autor, Datos, etc.) – Estadísticas de impacto (uso, descarga, citación, etc.) – Preservación Digital
  18. 18. Ciclo de Vida de los Datos ABIERTO
  19. 19. Muchas Gracias Fernando Ariel López CAICYT – CONICET @fernando__lopez
  20. 20. Definición de METADATOS ● "datos sobre los datos" ● son datos altamente estructurados que describen información, describen el contenido, la calidad, la condición y otras características de los datos. ● En los metadatos se describe varios atributos de los objetos de información para otorgarles: significado, contexto y organización
  21. 21. METADATOS ● Selección de Esquemas http://www.dcc.ac.uk/resources/metadata-standards
  22. 22. Ejemplo de Esquemas de Metadatos de ECONOMÍA DDI - Data Documentation Initiative An international standard for describing data from the social, behavioral, and economic sciences. Expressed in XML, the DDI metadata specification supports the entire research data life cycle. SDMX - Statistical Data and Metadata Exchange A set of common technical and statistical standards and guidelines to be used for the efficient exchange and sharing of statistical data and metadata.
  23. 23. Esquema de metadatos DDI ● Documentación http://www.ddialliance.org/Specification/ ● Vocabulario controlado asociado http://www.ddialliance.org/Specification/DDI-CV/ ● Extensiones, Herramientas (editores, etc) y Casos de uso Ejemplos: ● Yale University (EEUU) http://isps.yale.edu/research#.Vl04knYvfIV ● European Center Bank. Statistical Data Warehouse Portal (humanos) http://sdw.ecb.europa.eu/home.do Web service (maquinas) https://sdw-wsrest.ecb.europa.eu/ ● Paneldata.org (Alemania) https://paneldata.org/topics

×