Uso de repositorios para preservación y difusión de datos recolectados por comunidades científicas.
Se incluye:
El problema de la ubicación, preservación y uso de colecciones de datos científicas
Tendencias en la colaboración científica
Herramientas que pueden ayudar a solucionar algunos de los problemas
Este documento describe los retos asociados con la ubicación, preservación y uso de colecciones de datos científicos. Discute las tendencias hacia la colaboración científica mediante el uso de herramientas de información y comunicación. Presenta ejemplos de redes de colaboración internacionales y la Red de Estaciones Bioclimáticas de Mérida como una experiencia local.
O documento fornece um checklist de 28 tarefas e responsabilidades para gerentes de plantão do McDonald's. Estas incluem garantir padrões de higiene, preparação do restaurante, operações, comunicação com a equipe e buscar a satisfação contínua do cliente. O gerente deve seguir esses procedimentos passo-a-passo para assegurar a qualidade, eficiência e atendimento ao cliente.
Este documento fornece um checklist de tarefas e responsabilidades para um funcionário do McDonald's. Inclui itens como a aparência pessoal, preparação do local, hospitalidade com clientes, vendas de festas de aniversário e atividades para crianças. Também inclui seções para pontos positivos e áreas de melhoria a serem avaliados.
Este documento é uma avaliação de desempenho de um instrutor de treinamento em uma lanchonete. A avaliação cobre vários aspectos como aparência pessoal, preparação para treinamentos, condução de treinamentos inicias, comunicação e liderança. O instrutor é avaliado em 29 itens diferentes e recebe feedback sobre pontos positivos e áreas que precisam ser melhoradas.
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGORodrigo Torrens
Este documento describe los retos asociados con la preservación y uso compartido de datos científicos. Explica que la creciente cantidad de datos generados requiere el uso de repositorios de datos, metadatos y estándares para garantizar el acceso a largo plazo. También discute cómo las nuevas tecnologías y formas de colaboración científica pueden ayudar a abordar estos problemas mediante el almacenamiento y compartición de datos en repositorios institucionales y temáticos.
Open Data in the world of Science” by Dr. Claudio GutiérrezLEARN Project
Este documento resume los principales puntos de una presentación sobre datos abiertos en ciencias. Explora las definiciones de datos, datos abiertos y datos científicos. También discute los desafíos de gestionar y jerarquizar la gran cantidad de datos disponibles, así como la necesidad de cambiar las mentalidades sobre la propiedad y el secreto de los datos. Finalmente, propone algunas soluciones como mejorar las interfaces de visualización y enlazar los datos para proveer contexto.
Este documento describe la sociedad del conocimiento y contrasta con la sociedad de la información. Explica que la sociedad del conocimiento se basa en la utilización del conocimiento como motor central, mientras que la sociedad de la información se caracteriza por la capacidad de obtener y procesar información a través de las TIC. También analiza los procesos de creación de conocimiento y las herramientas para gestionar la información y el conocimiento en las organizaciones.
Datos de investigación: reflexiones sobre su acceso abiertoSocialBiblio
Este documento discute el acceso abierto a los datos de investigación. Sostiene que compartir datos tiene beneficios como responder más eficientemente a emergencias y estimular nuevas formas de colaboración científica. Sin embargo, liberar datos no es fácil debido a que requiere esfuerzos de documentación, formatos estandarizados y licencias. El futuro probablemente vea un mayor énfasis en la gestión de datos desde el inicio de los proyectos y una participación más activa de bibliotecas y repositorios para apoyar el acceso abierto a
Este documento describe los retos asociados con la ubicación, preservación y uso de colecciones de datos científicos. Discute las tendencias hacia la colaboración científica mediante el uso de herramientas de información y comunicación. Presenta ejemplos de redes de colaboración internacionales y la Red de Estaciones Bioclimáticas de Mérida como una experiencia local.
O documento fornece um checklist de 28 tarefas e responsabilidades para gerentes de plantão do McDonald's. Estas incluem garantir padrões de higiene, preparação do restaurante, operações, comunicação com a equipe e buscar a satisfação contínua do cliente. O gerente deve seguir esses procedimentos passo-a-passo para assegurar a qualidade, eficiência e atendimento ao cliente.
Este documento fornece um checklist de tarefas e responsabilidades para um funcionário do McDonald's. Inclui itens como a aparência pessoal, preparação do local, hospitalidade com clientes, vendas de festas de aniversário e atividades para crianças. Também inclui seções para pontos positivos e áreas de melhoria a serem avaliados.
Este documento é uma avaliação de desempenho de um instrutor de treinamento em uma lanchonete. A avaliação cobre vários aspectos como aparência pessoal, preparação para treinamentos, condução de treinamentos inicias, comunicação e liderança. O instrutor é avaliado em 29 itens diferentes e recebe feedback sobre pontos positivos e áreas que precisam ser melhoradas.
Repositorios de Datos para comunidades científicas. Caso Comunidad LAGORodrigo Torrens
Este documento describe los retos asociados con la preservación y uso compartido de datos científicos. Explica que la creciente cantidad de datos generados requiere el uso de repositorios de datos, metadatos y estándares para garantizar el acceso a largo plazo. También discute cómo las nuevas tecnologías y formas de colaboración científica pueden ayudar a abordar estos problemas mediante el almacenamiento y compartición de datos en repositorios institucionales y temáticos.
Open Data in the world of Science” by Dr. Claudio GutiérrezLEARN Project
Este documento resume los principales puntos de una presentación sobre datos abiertos en ciencias. Explora las definiciones de datos, datos abiertos y datos científicos. También discute los desafíos de gestionar y jerarquizar la gran cantidad de datos disponibles, así como la necesidad de cambiar las mentalidades sobre la propiedad y el secreto de los datos. Finalmente, propone algunas soluciones como mejorar las interfaces de visualización y enlazar los datos para proveer contexto.
Este documento describe la sociedad del conocimiento y contrasta con la sociedad de la información. Explica que la sociedad del conocimiento se basa en la utilización del conocimiento como motor central, mientras que la sociedad de la información se caracteriza por la capacidad de obtener y procesar información a través de las TIC. También analiza los procesos de creación de conocimiento y las herramientas para gestionar la información y el conocimiento en las organizaciones.
Datos de investigación: reflexiones sobre su acceso abiertoSocialBiblio
Este documento discute el acceso abierto a los datos de investigación. Sostiene que compartir datos tiene beneficios como responder más eficientemente a emergencias y estimular nuevas formas de colaboración científica. Sin embargo, liberar datos no es fácil debido a que requiere esfuerzos de documentación, formatos estandarizados y licencias. El futuro probablemente vea un mayor énfasis en la gestión de datos desde el inicio de los proyectos y una participación más activa de bibliotecas y repositorios para apoyar el acceso abierto a
Acceso abierto a los datos de investigación definición políticas y actoresTorres Salinas
Este documento describe el acceso abierto a los datos de investigación, incluyendo definiciones, políticas y actores involucrados. Explica la evolución desde el acceso abierto a artículos hacia el acceso abierto a datos, y los factores que están fomentando el intercambio de datos. También discute los tipos de datos de investigación, ejemplos de datos, ventajas del intercambio de datos, y canales formales e informales para compartir datos.
El horizonte de la investigación en el siglo xxiHugo Banda
El documento describe los desafíos actuales y futuros de la investigación científica, incluyendo el tsunami de datos, el cuarto paradigma de la ciencia basada en datos, la necesidad de herramientas de eScience como la administración de información de laboratorio y la visualización y análisis de datos a gran escala, y el papel creciente de la computación en la investigación científica.
Taller de Manejo y Almacenamiento de Datos Científicos. Ciudad de Buenos Aires, 6 de Marzo de 2015.
Se realizó en la sede central de CONICET el "Taller de Manejo y Almacenamiento de Datos Científicos", organizado por la Gerencia de Desarrollo Científico y Tecnológico de CONICET.
El taller fue abierto por el Gerente de la Gerencia de Desarrollo Científico y Tecnológico Dr. Jorge Tezón y coordinó el taller la Dra. Patricia Maccagno de la Dirección Convenios y Proyectos de esta Gerencia.
Participaron en el taller representantes de los Observatorios de datos de ACUMAR, del Observatorio Nacional de Degradación de Tierra y Desertificación, del Proyecto Argentino de Monitoreo y Prospección de Ambientes Acuáticos, PAMPA2, de la Red Argentina para el Estudio de la Atmósfera Superior, RAPEAS y de Plataforma Interactiva de Investigación en Ciencias Sociales, PLICCS, de la Gerencia de Desarrollo Científico y Tecnológico y Gerencia de Sistemas de CONICET. Esta misma gerencia presentó también avances en el Repositorio Institucional de CONICET y comentó sobre la evolución de SIGEVA. Participó asimismo un representante de la articulación del PIO-YPF-CONICET.
Durante el taller cada uno de los expositores presentó un panorama del manejo actual de los datos científicos y de las necesidades de control de calidad de datos y metadatos.
CAICYT con la presencia de la Directora Mela Bosch y de Fernando Ariel López de Comunicación Institucional y Diego Ferreyra de Tecnología Documental participó en el cierre y conclusiones del taller. Durante su presentación se indicó el marco general de la problemática de datos abiertos en el mundo y las propuestas CAICYT al respecto. Ver presentación: CAICYT_Datos Científicos. En tal sentido se adelantaron los aspectos del Proyecto Institucional Metodologías en Herramientas Digitales en la Investigación. Además presentaron las bases de un Marco de verificación de calidad de metadata e infraestectura de datos primarios científicos, el cual debería integrar los Planes de Gestión de Datos de los diferentes proyectos y observatorios.
Este documento resume los fundamentos de los depósitos de datos de investigación, los diferentes tipos de datos y repositorios disponibles, cómo encontrar dónde depositar los datos, y presenta algunos casos de éxito. Explica brevemente el ecosistema de ciencia abierta, los tipos de datos como individuales, de proyectos en curso o financiados, y los principales repositorios como Figshare, Dataverse o Zenodo. También menciona ejemplos de investigadores y proyectos que comparten exitosamente sus datos.
El documento presenta un curso para profesionales de la información sobre bibliotecas digitales. El curso se llevará a cabo del 11 al 15 de marzo de 2013 en la Universidad de Guanajuato y cubrirá temas como generalidades de bibliotecas digitales, información digital, servicios, procedimientos, recursos humanos, usuarios y tecnología. El objetivo general es considerar los elementos para diseñar, crear y mantener una biblioteca digital o parte de sus colecciones electrónicas.
Implementación de un Repositorio de Datos Científicos usando DspaceRodrigo Torrens
Edwin Barrios, Rodrigo Torréns
Centro Nacional de Cálculo Científico,
Universidad de Los Andes, (CECALCULA) Mérida, Venezuela
Luis A. Torres
Grupo Halley, de Astronomía y Ciencias Aeroespaciales
Universidad Industrial de Santander Bucaramanga, Colombia
Luis A. Núñez
Centro Virtual de Altos Estudios en Altas Energías
Universidad Industrial de Santander Bucaramanga, Colombia
Centro Nacional de Cálculo Científico, Universidad de Los Andes, (CECALCULA) Mérida, Venezuela
Open Data in a Big World by Fernando Ariel López LEARN Project
Este documento presenta los principios de datos abiertos desarrollados por un grupo de trabajo de cuatro organizaciones científicas internacionales. Describe las responsabilidades de científicos, instituciones, editores, financiadores, asociaciones profesionales y bibliotecas para implementar y promover la apertura de datos. También cubre los límites a la apertura de datos y prácticas como la citación, interoperabilidad y reutilización de datos abiertos.
Informe tecnico
Objetivos:
1. Analizar el problema de la representación de recursos dentro de una biblioteca digital.
2. Analizar las ventajas y desventajas de los distintos paradigmas de bases de datos en cuanto a la representación de los recursos.
3. Proponer un modelo de datos exible para representar los recursos dentro de una biblioteca digital, considerando al menos las siguientes características:
-distintos formatos de metadatos para distintos tipos de recursos;
- varias catalogaciones de un mismo recurso utilizando distintos formatos de metadatos;
- representación de entidades abstractas de forma independiente, permitiendo identi carlas y reutilizarlas;
- relaciones entre recursos;
- relaciones entre entidades abstractas;
- relaciones entre entidades abstractas y recursos.
4. Proponer una arquitectura en capas simple y clara que provea los niveles de abstracción adecuados según los niveles de acceso requeridos.
5. Analizar las técnicas de preservación digital y determinar cuál es la más adecuada para garantizar la preservación tanto de los recursos como de los objetos digitales.
6. Determinar la forma de indexación más adecuada para que la recuperación de los recursos sea e ciente y de buen redimiento. El espacio ocupado por el repositorio debe mantenerse dentro de parámetros aceptables.
7. Desarrollar un prototipo para la representación de los recursos dentro de una biblioteca digital en SeDiCI.
Propuesta técnica aprobada por Resolución 7ma. 24/06/2010 de la Facultad de Informatica de la UNLP.
Expediente: 3300-2042/10-000.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/5567
Repositorios de tesis: Capacidad del sistema académico NEA para la generación...Belarmina Benitez
En el mundo académico existe una gran cantidad de literatura académica y científica, producto de grandes esfuerzos, tanto del Estado como de otras instituciones y obviamente de los estudiosos e investigadores que generan, a diario, conocimiento especializado.
Los repositorios institucionales se han transformado en la opción para sacar a la luz la producción intelectual, habida cuenta de que en ellos es posible reunir, publicar, diseminar y preservar la misma.
La idea de dar visibilidad a dicha producción genera un sinnúmero de desafíos, tanto para las universidades como para los investigadores; problemas que se pueden resumir en la pérdida del anonimato de los autores; la visibilidad de proyectos similares; la posibilidad de compartir recursos humanos y económicos, entre otros.
Esta problemática también está presente en las universidades del NEA (AR), dado que estas instituciones no cuentan con Repositorios Institucionales que alberguen la producción científico-académica generada en ellas.
El presente trabajo pretende describir los elementos necesarios para presentar un acabado diagnóstico de situación que permita impulsar la creación de estos RI para beneficio de la comunidad académica.
Las bibliotecas, y en particular las de Salud, pueden descubrir un mundo de oportunidades en la aplicación del análisis de datos, tanto internos como externos. En esta presentación se presentan distintos aspectos a tener en cuenta al plantearse el papel de las bibliotecas en relación con esta gestión de Big Data, especialmente en el terreno de la investigación en temas de salud y bio.
Seminario Almacenamiento de Datos Ambientales HoyCAESCG.org
Seminario "Almacenamiento de Datos Ambientales Hoy" impartido el 13/12/10 a los participantes del Proyecto Glocharid.
Ponentes: Isaac Francés y Balbino Fernández
Este documento trata sobre las principales iniciativas para la difusión de datos de investigación. Presenta información sobre políticas institucionales de acceso abierto, el plan piloto de datos abiertos de Horizonte 2020 de la Comisión Europea, tipologías de datos de investigación como datos observacionales y experimentales, formas de compartir datos a través de repositorios, y herramientas para la visibilidad y búsqueda de repositorios de datos como Databib y re3data.
Este documento proporciona una introducción a la minería de datos. Explica brevemente la historia y definición de la minería de datos, los principales procesos y técnicas involucrados como la selección de datos, transformación, modelado y evaluación. También discute las herramientas comunes de minería de datos y los campos en los que se puede implementar, incluidos los negocios y el análisis de patrones.
Balance sobre la aplicación de la tecnología del cloud computing en el ámbito de la ciencia
Ignacio Blanquer, Departamento de Sistemas Informáticos. Universidad Politécnica de Valencia.
Jornada 'El impacto de la Nube y el Big Data en la Ciencia'
Repositorios digitales como apoyo a la investigación científicaLibio Huaroto
Este documento presenta un resumen de los repositorios digitales como apoyo a la investigación científica. Introduce conceptos como acceso abierto, iniciativas internacionales como ArXiv, declaraciones como Budapest y Berlín, y casos latinoamericanos como Scielo, BECyT y repositorios en universidades de Bolivia, Brasil y Venezuela. Luego describe el caso de la Universidad Nacional Mayor de San Marcos en el Perú, incluyendo sus repositorios Ateneo, OJS y esfuerzos de digitalización. Finalmente, discute retos como recursos
Cómo fue que surgió lo que llamamos Big Data.
Varias perspectivas sobre qué es Data Science.
Qué estudia exactamente la Ciencia de Datos.
Introducción al Arte de la Ciencia de Datos.
Un resumen de las técnicas más importantes para el Análisis de Redes Sociales (Social Network Analysis), así como de las herramientas usadas en este campo.
Más contenido relacionado
Similar a Repositorios de Datos para comunidades científicas.
Acceso abierto a los datos de investigación definición políticas y actoresTorres Salinas
Este documento describe el acceso abierto a los datos de investigación, incluyendo definiciones, políticas y actores involucrados. Explica la evolución desde el acceso abierto a artículos hacia el acceso abierto a datos, y los factores que están fomentando el intercambio de datos. También discute los tipos de datos de investigación, ejemplos de datos, ventajas del intercambio de datos, y canales formales e informales para compartir datos.
El horizonte de la investigación en el siglo xxiHugo Banda
El documento describe los desafíos actuales y futuros de la investigación científica, incluyendo el tsunami de datos, el cuarto paradigma de la ciencia basada en datos, la necesidad de herramientas de eScience como la administración de información de laboratorio y la visualización y análisis de datos a gran escala, y el papel creciente de la computación en la investigación científica.
Taller de Manejo y Almacenamiento de Datos Científicos. Ciudad de Buenos Aires, 6 de Marzo de 2015.
Se realizó en la sede central de CONICET el "Taller de Manejo y Almacenamiento de Datos Científicos", organizado por la Gerencia de Desarrollo Científico y Tecnológico de CONICET.
El taller fue abierto por el Gerente de la Gerencia de Desarrollo Científico y Tecnológico Dr. Jorge Tezón y coordinó el taller la Dra. Patricia Maccagno de la Dirección Convenios y Proyectos de esta Gerencia.
Participaron en el taller representantes de los Observatorios de datos de ACUMAR, del Observatorio Nacional de Degradación de Tierra y Desertificación, del Proyecto Argentino de Monitoreo y Prospección de Ambientes Acuáticos, PAMPA2, de la Red Argentina para el Estudio de la Atmósfera Superior, RAPEAS y de Plataforma Interactiva de Investigación en Ciencias Sociales, PLICCS, de la Gerencia de Desarrollo Científico y Tecnológico y Gerencia de Sistemas de CONICET. Esta misma gerencia presentó también avances en el Repositorio Institucional de CONICET y comentó sobre la evolución de SIGEVA. Participó asimismo un representante de la articulación del PIO-YPF-CONICET.
Durante el taller cada uno de los expositores presentó un panorama del manejo actual de los datos científicos y de las necesidades de control de calidad de datos y metadatos.
CAICYT con la presencia de la Directora Mela Bosch y de Fernando Ariel López de Comunicación Institucional y Diego Ferreyra de Tecnología Documental participó en el cierre y conclusiones del taller. Durante su presentación se indicó el marco general de la problemática de datos abiertos en el mundo y las propuestas CAICYT al respecto. Ver presentación: CAICYT_Datos Científicos. En tal sentido se adelantaron los aspectos del Proyecto Institucional Metodologías en Herramientas Digitales en la Investigación. Además presentaron las bases de un Marco de verificación de calidad de metadata e infraestectura de datos primarios científicos, el cual debería integrar los Planes de Gestión de Datos de los diferentes proyectos y observatorios.
Este documento resume los fundamentos de los depósitos de datos de investigación, los diferentes tipos de datos y repositorios disponibles, cómo encontrar dónde depositar los datos, y presenta algunos casos de éxito. Explica brevemente el ecosistema de ciencia abierta, los tipos de datos como individuales, de proyectos en curso o financiados, y los principales repositorios como Figshare, Dataverse o Zenodo. También menciona ejemplos de investigadores y proyectos que comparten exitosamente sus datos.
El documento presenta un curso para profesionales de la información sobre bibliotecas digitales. El curso se llevará a cabo del 11 al 15 de marzo de 2013 en la Universidad de Guanajuato y cubrirá temas como generalidades de bibliotecas digitales, información digital, servicios, procedimientos, recursos humanos, usuarios y tecnología. El objetivo general es considerar los elementos para diseñar, crear y mantener una biblioteca digital o parte de sus colecciones electrónicas.
Implementación de un Repositorio de Datos Científicos usando DspaceRodrigo Torrens
Edwin Barrios, Rodrigo Torréns
Centro Nacional de Cálculo Científico,
Universidad de Los Andes, (CECALCULA) Mérida, Venezuela
Luis A. Torres
Grupo Halley, de Astronomía y Ciencias Aeroespaciales
Universidad Industrial de Santander Bucaramanga, Colombia
Luis A. Núñez
Centro Virtual de Altos Estudios en Altas Energías
Universidad Industrial de Santander Bucaramanga, Colombia
Centro Nacional de Cálculo Científico, Universidad de Los Andes, (CECALCULA) Mérida, Venezuela
Open Data in a Big World by Fernando Ariel López LEARN Project
Este documento presenta los principios de datos abiertos desarrollados por un grupo de trabajo de cuatro organizaciones científicas internacionales. Describe las responsabilidades de científicos, instituciones, editores, financiadores, asociaciones profesionales y bibliotecas para implementar y promover la apertura de datos. También cubre los límites a la apertura de datos y prácticas como la citación, interoperabilidad y reutilización de datos abiertos.
Informe tecnico
Objetivos:
1. Analizar el problema de la representación de recursos dentro de una biblioteca digital.
2. Analizar las ventajas y desventajas de los distintos paradigmas de bases de datos en cuanto a la representación de los recursos.
3. Proponer un modelo de datos exible para representar los recursos dentro de una biblioteca digital, considerando al menos las siguientes características:
-distintos formatos de metadatos para distintos tipos de recursos;
- varias catalogaciones de un mismo recurso utilizando distintos formatos de metadatos;
- representación de entidades abstractas de forma independiente, permitiendo identi carlas y reutilizarlas;
- relaciones entre recursos;
- relaciones entre entidades abstractas;
- relaciones entre entidades abstractas y recursos.
4. Proponer una arquitectura en capas simple y clara que provea los niveles de abstracción adecuados según los niveles de acceso requeridos.
5. Analizar las técnicas de preservación digital y determinar cuál es la más adecuada para garantizar la preservación tanto de los recursos como de los objetos digitales.
6. Determinar la forma de indexación más adecuada para que la recuperación de los recursos sea e ciente y de buen redimiento. El espacio ocupado por el repositorio debe mantenerse dentro de parámetros aceptables.
7. Desarrollar un prototipo para la representación de los recursos dentro de una biblioteca digital en SeDiCI.
Propuesta técnica aprobada por Resolución 7ma. 24/06/2010 de la Facultad de Informatica de la UNLP.
Expediente: 3300-2042/10-000.
Ver registro completo en: http://sedici.unlp.edu.ar/handle/10915/5567
Repositorios de tesis: Capacidad del sistema académico NEA para la generación...Belarmina Benitez
En el mundo académico existe una gran cantidad de literatura académica y científica, producto de grandes esfuerzos, tanto del Estado como de otras instituciones y obviamente de los estudiosos e investigadores que generan, a diario, conocimiento especializado.
Los repositorios institucionales se han transformado en la opción para sacar a la luz la producción intelectual, habida cuenta de que en ellos es posible reunir, publicar, diseminar y preservar la misma.
La idea de dar visibilidad a dicha producción genera un sinnúmero de desafíos, tanto para las universidades como para los investigadores; problemas que se pueden resumir en la pérdida del anonimato de los autores; la visibilidad de proyectos similares; la posibilidad de compartir recursos humanos y económicos, entre otros.
Esta problemática también está presente en las universidades del NEA (AR), dado que estas instituciones no cuentan con Repositorios Institucionales que alberguen la producción científico-académica generada en ellas.
El presente trabajo pretende describir los elementos necesarios para presentar un acabado diagnóstico de situación que permita impulsar la creación de estos RI para beneficio de la comunidad académica.
Las bibliotecas, y en particular las de Salud, pueden descubrir un mundo de oportunidades en la aplicación del análisis de datos, tanto internos como externos. En esta presentación se presentan distintos aspectos a tener en cuenta al plantearse el papel de las bibliotecas en relación con esta gestión de Big Data, especialmente en el terreno de la investigación en temas de salud y bio.
Seminario Almacenamiento de Datos Ambientales HoyCAESCG.org
Seminario "Almacenamiento de Datos Ambientales Hoy" impartido el 13/12/10 a los participantes del Proyecto Glocharid.
Ponentes: Isaac Francés y Balbino Fernández
Este documento trata sobre las principales iniciativas para la difusión de datos de investigación. Presenta información sobre políticas institucionales de acceso abierto, el plan piloto de datos abiertos de Horizonte 2020 de la Comisión Europea, tipologías de datos de investigación como datos observacionales y experimentales, formas de compartir datos a través de repositorios, y herramientas para la visibilidad y búsqueda de repositorios de datos como Databib y re3data.
Este documento proporciona una introducción a la minería de datos. Explica brevemente la historia y definición de la minería de datos, los principales procesos y técnicas involucrados como la selección de datos, transformación, modelado y evaluación. También discute las herramientas comunes de minería de datos y los campos en los que se puede implementar, incluidos los negocios y el análisis de patrones.
Balance sobre la aplicación de la tecnología del cloud computing en el ámbito de la ciencia
Ignacio Blanquer, Departamento de Sistemas Informáticos. Universidad Politécnica de Valencia.
Jornada 'El impacto de la Nube y el Big Data en la Ciencia'
Repositorios digitales como apoyo a la investigación científicaLibio Huaroto
Este documento presenta un resumen de los repositorios digitales como apoyo a la investigación científica. Introduce conceptos como acceso abierto, iniciativas internacionales como ArXiv, declaraciones como Budapest y Berlín, y casos latinoamericanos como Scielo, BECyT y repositorios en universidades de Bolivia, Brasil y Venezuela. Luego describe el caso de la Universidad Nacional Mayor de San Marcos en el Perú, incluyendo sus repositorios Ateneo, OJS y esfuerzos de digitalización. Finalmente, discute retos como recursos
Cómo fue que surgió lo que llamamos Big Data.
Varias perspectivas sobre qué es Data Science.
Qué estudia exactamente la Ciencia de Datos.
Introducción al Arte de la Ciencia de Datos.
Un resumen de las técnicas más importantes para el Análisis de Redes Sociales (Social Network Analysis), así como de las herramientas usadas en este campo.
Centro de Teleinformación. Visión personal de la OrganizaciónRodrigo Torrens
El documento describe las características deseadas y no deseadas de una organización eficiente. Entre las características no deseadas se mencionan los criterios de una burocracia tradicional como la especialización, división del trabajo y jerarquía formal. Las características deseadas incluyen que las partes de la organización se autogestionen, el trabajo esté organizado en torno a procesos, y haya comunicación directa entre las partes. El documento también identifica retos como coordinar las diferentes partes de una organización horizontal y crear una nueva cultura organiz
Proyecto GIS: Sistema de Información Bioclimática para MéridaRodrigo Torrens
Este documento describe las fases iniciales de un proyecto para desarrollar un sistema de información bioclimática para el estado Mérida en Venezuela. El proyecto incluirá el diseño e implementación de una red de estaciones que capturarán datos bioclimáticos y un sistema que almacenará, procesará y distribuirá esta información. Se identifican los actores, entidades, procesos y requerimientos clave para el sistema, incluyendo la captura, almacenamiento y visualización de datos, así como el análisis espacial requerido.
Desarrollo de Sistemas de Información BioclimáticaRodrigo Torrens
Identificación, estudio, establecimiento e implementación de estándares y mandatos técnicos para el manejo de la información generada por una red de estaciones bioclimaticas.
Diseñar un sistema de información y programas que sirvan de apoyo al manejo de información recolectada por red de estaciones bioclimaticas.
Implementar prototipos para:
Un sistema central de manejo de datos y metadatos.
Prototipos de captura y recuperación de información que usen tecnologías Internet estándares.
Prototipo de recolección (harvesting) de datos provenientes de estaciones.
Establecer vínculos de trabajo entre científicos ambientales y científicos en el área de la computación y supercomputación.
El documento describe los proyectos de tesis electrónicas en la Universidad de Los Andes en Venezuela. Detalla que la universidad ha estudiado varios proyectos de tesis electrónicas y ha realizado pruebas de publicación de tesis a texto completo usando el software ETD-db de Virginia Tech. El objetivo es institucionalizar el proceso de tesis electrónicas en la universidad y crear una red nacional de servidores de tesis electrónicas para 2004-2006.
Este documento discute el concepto de teleinformación y la sociedad de la información. Resalta que existe una brecha digital entre países ricos y pobres en el acceso a la tecnología. Venezuela ocupa el puesto 39 en el índice de sociedad de la información. El documento también describe varias iniciativas en Venezuela para promover el uso de internet como los infocentros y el gobierno electrónico, pero señala problemas como la falta de infraestructura y capacitación.
Panorama Actual del Acceso Abierto en LatinoamericaRodrigo Torrens
El documento resume el panorama actual del acceso abierto en Latinoamérica. Explica que el acceso abierto requiere que las obras sean de libre acceso y se depositen en repositorios. Aunque ha habido avances, Latinoamérica aún está rezagada con pocas universidades en rankings mundiales, firmantes de declaraciones y repositorios. Se destacan proyectos regionales como la Red Federada Latinoamericana de Repositorios.
LAGOVirtual is an ongoing project to develop a platform to collaborate, in the Large Aperture GRB Observatory (LAGO). This continental-wide observatory is devised to detect high energy component of Gamma Ray Bursts, by using the single particle technique in arrays of Water Cherenkov Detectors (WCD) at high mountain sites
Uso de Dspace en la Universidad de Los Andes, VenezuelaRodrigo Torrens
Este documento provee una introducción a DSpace, una plataforma de software libre para construir repositorios digitales. Explica que DSpace fue desarrollado inicialmente por el MIT y HP y puede almacenar cualquier tipo de información digital. Detalla que la Universidad de Los Andes migró su repositorio institucional a DSpace en 2008 y cómo ha implementado sus funcionalidades. Finalmente, discute algunas características futuras planeadas para DSpace 2.0 y formas en que la comunidad puede involucrarse en su desarrollo.
La iniciativa Open Archives (OAI) desarrolla estándares para facilitar la interoperabilidad y distribución eficiente de contenidos entre repositorios digitales. El protocolo OAI-PMH permite el intercambio de metadatos entre proveedores de datos (repositorios) y proveedores de servicios. Gracias a este protocolo se pueden crear servicios como buscadores federados, servicios de medición de impacto y otros que agregan valor a los contenidos de los repositorios.
Territorio Digital Aula Omnipresente Feria de Innovación CANTV Mayo 2012Rodrigo Torrens
El documento describe los desafíos y servicios de red de la Universidad de Los Andes en Venezuela. La red conecta a más de 60,000 personas a través de 9,000 nodos, 400 equipos de comunicación y 65 puntos de acceso WiFi. La red provee servicios como correo electrónico, videoconferencia, estudios a distancia, repositorios digitales y seguridad de red. El objetivo es expandir la cobertura inalámbrica y federar servicios entre universidades.
ULA Pionera en el Acceso Abierto al ConocimientoRodrigo Torrens
El documento describe la historia del acceso abierto en la Universidad de Los Andes (ULA) en Venezuela desde 1998 hasta 2011. En 1998, la ULA reconoció su responsabilidad de difundir libremente la producción intelectual de la universidad. En 2000, la ULA estableció el repositorio institucional SABER para almacenar y compartir documentos de forma gratuita. Desde entonces, SABER se ha convertido en uno de los mayores repositorios de América Latina, albergando más de 22,000 documentos y 76 revistas electrónicas
Experiencias en la Publicación Electrónica Universitaria. 2003Rodrigo Torrens
SABER-ULA es una herramienta teleinformática que esta contribuyendo a difundir y dar a conocer la producción intelectual y académica de la Universidad de Los Andes.
Necesidades:
Dar a conocer y aprovechar la producción intelectual de todos los miembros de la comunidad universitaria (profesores e investigadores).
Reforzar la presencia en Internet de todos los Centros, Grupos, Institutos, Laboratorios y Postgrados de la Universidad de Los Andes.
Fomentar la creación y difusión de publicaciones electrónicas.
Adicionalmente, tener una fuente de almacenamiento e intercambio de la información producida en la Universidad de Los Andes en todos los campos del conocimiento.
Recomendaciones para la Creación de un Repositorio Institucional basadas en ...Rodrigo Torrens
Funcionamiento de SABER-ULA
Principales grupos de trabajo asociados al servicio
Estrategias de captura de contenidos
Mantenimiento de los servicios
Estrategias y planes de entrenamiento a usuarios
Estrategias de institucionalización de los servicios
Aspectos finales a considerar
Referencias
Implementación de Políticas y Mandatos de Acceso Abierto en Instituciones y U...Rodrigo Torrens
Definición de una contribución de acceso abierto
Condiciones para el Acceso Abierto
Vías para implementar ideas de Acceso Abierto
Declaraciones de Acceso abierto
Políticas de Acceso abierto
Mandatos de Acceso abierto
¿Que esta pasando en el mundo?
Ejemplos de mandatos
Situación en Latinoamérica y Venezuela
¿Que podemos hacer en Venezuela?
Evolución de los Servicios y Herramientas del Repositorio Institucional de la...Rodrigo Torrens
Concepción y características iniciales del servicio de RI
Herramientas y desarrollos iniciales
Actualización de herramientas para el RI
Evolución del uso de los servicios del RI
Estado actual
Repositorios y Acceso Abierto en la ULA
Visibilidad web de los contenidos ULA
Problemas más importantes
Futuro del servicio
¿Hacia dónde vamos?
OJS: Una herramienta de gestión editorial en línea ¿Por qué adoptarlo? Rodrigo Torrens
El documento describe el sistema de gestión editorial en línea Open Journal Systems (OJS). OJS es un software de código abierto lanzado en 2002 que permite gestionar todo el proceso de publicación de revistas académicas en línea de manera gratuita. Más de 5,000 revistas usan OJS en todo el mundo, permitiendo la revisión en línea, el envío de artículos, y la publicación de contenido de manera automatizada. El documento explica las características y beneficios de OJS para revistas universitarias.
Dspace y su uso en el RI de la Universidad de Los Andes, VenezuelaRodrigo Torrens
Este documento provee información sobre DSpace, una plataforma de software libre para construir repositorios digitales. Explica brevemente el origen, características y funcionalidades de DSpace, así como su uso en el Repositorio Institucional de la Universidad de Los Andes en Venezuela. También discute temas de investigación y desarrollo futuros relacionados con DSpace y repositorios institucionales.
Dspace y su uso en el RI de la Universidad de Los Andes, Venezuela
Repositorios de Datos para comunidades científicas.
1. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Repositorios de Datos para
comunidades científicas.
Caso Comunidad LAGO
Parte 1
Cátedra Scientiae. Facultad de Ciencias
Universidad Industrial de Santander
Rodrigo Torréns
José Alejandro Torres Niño
Luis Nuñez
Noviembre, 2011
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 1
2. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Contenido
Hablaremos sobre:
• El problema de la ubicación, preservación y
uso de colecciones de datos científicas
• Tendencias en la colaboración científica
• Herramientas que pueden ayudar a
solucionar algunos de los problemas
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 2
3. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Los datos producto de una
investigación científica
Partamos de las preguntas básicas:
• Los datos que yo necesito…
existen?
• Donde están?
• Como los obtengo?
La mayoria de los científicos se han
planteado estas preguntas alguna vez
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 3
4. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
4 axiomas para la ciencia
intensiva en datos
Acceso Flujo
• Global y abierto • Procesos
• Colecciones completas • Curaduría
• Reservorios distribuidos (BD, • Gerencia y mantenimiento
repositorios de datos, datos • Publicación
en “la nube” ) Compartir
• Preservación • Estándares, XML
Interacción esquemas, ontologías
• Metadata • Redes sociales
• Servicios web de herramientas • Minería de datos
• Reutilización
Claudio Mendoza.
http://cevale2.uis.edu.co/~cevale2/wiki/images/Data_intensive_science.pdf
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 4
5. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Problemas-retos a los que nos
enfrentamos
Tenemos que tener capacidades para…
• Manejar volumen de datos generados actualmente
• Preservarlos
• Encontrarlos
• Compartirlos, distribuirlos
• Usarlos, reusarlos
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 5
6. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
…Problemas a los que nos enfrentamos
Ejemplo de degradación normal de los contenidos de
información asociados con datos y metadatos a través del
tiempo
Momento de publicación
Detalles específicos acerca de la recolección de los
datos se pierden al pasar el tiempo
Retiro o cambio de carrera del
e d s od ne no C
nó ca m o n
r f I
científico recolector
i t
i
Accidente puede destruir datos
y documentación Muerte del investigador y subsecuente perdida
de registros restantes
Tiempo (Michener, 1997)
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 6
7. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
El problema del “diluvio” de datos. La era
del Petabyte
Volumen de datos…
www.wired.com
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 7
8. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Nuevas formas de colaboración
científica
Ante estos retos, tenemos posibilidades y nuevas maneras
de…
• Producir datos,
• de compartirlos (publicarlos), y…
• de trabajar colaborativamente
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 8
9. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Nuevas formas de colaboración
científica
Frecuentemente o cada vez más escuchamos y hablamos de…
• “ciberinfraestructura”
• “e-ciencia”
• “e-investigación”
• “colaboracion ubicua”
• “data-driven Science”
• “computación grid”
• “computación social”
• “acceso abierto al conocimiento”
…refiriendose a nuevas formas de producción y diseminación del conocimiento
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 9
10. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
e-ciencia
• El termino e-ciencia es usado para
representar la creciente colaboración
global de personas y uso de recursos
compartidos, que serán (son) necesarias
para resolver nuevos problemas de la
ciencia y la ingeniería
Tony Hey, Anne Trefethen. The Data Deluge: An e-Science Perspective
http://www.cct.lsu.edu/~kosar/csc7700/papers/Hey03.pdf
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 10
11. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Ejemplos de colecciones de datos:
Datos generados por redes nacionales y mundiales de
investigación (biología, medicina, física, etc.):
• Datos del LHC generados en el CERN
• Datos generados por las redes mundiales de sensores
sísmicos
• Estudios sobre cambios globales (GCMD-NASA)
• Astronomía, los “telescopios virtuales” (Global Internet
Telescope)
• Banco de datos de Proteinas (PDB, Protein Data Bank)
• Datos del genoma humano y de otras especies
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 11
12. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Iniciativas de Acceso Abierto
A esto se unen las iniciativas por el uso sin
restricciones de la información y datos:
• Iniciativas de Acceso Abierto al
Conocimiento (OA, Open Access
Initiatives)
• Movimiento Datos Libres (OD,
Open Data)
• Repositorios Institucionales y por
disciplina (temáticos)
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 12
13. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
CERN LHC
Ejemplos:
-
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 13
14. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Necesidad de usar tecnologías de
información (TICs)
Para…
• Ubicar
• Accesar
• Recuperar
• Compartir
…datos
La mayoría usa
LA RED (la Web) para
satisfacer estas necesidades
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 14
15. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Un objetivo importante
Qué debemos hacer para lograr el…
Uso secundario y a largo
plazo de colecciones de
datos científicos
Se debe…
Garantizar permanencia de
los datos en el tiempo
Poder ubicar y recuperar la
información
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 15
16. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Herramientas
Herramientas organizativas y tecnológicas que pueden hacer esto posible:
Formación de Redes de colaboración entre
científicos y entre usuarios de información
Tecnologías de Información y Comunicaciones
Uso de metadatos y estándares
de intercambio de información
Creación y mantenimiento de
repositorios de datos
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 16
17. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
¿Qué significa la palabra “metadatos”?
• " Datos sobre los datos " .
• "Nivel superior de la información, o instrucciones que
describen el contenido, contexto, calidad, estructura, y
accesibilidad de una colección de datos específica"
(J.K. Michener 1997).
a) b) c) Mc
M
D M2
M1
M D
D D
Metadatos como Metadatos externos al Meta-metadatos
parte de los datos recurso de información (colecciones de metadatos)
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 17
18. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
¿Para qué “metadatos”?
Preguntas que se deberían poder responder usando metadatos:
•Qué datos describe una coleccion de datos científicos?
•Quién produjo la colección?
•Porqué fue creada la colección?
•Cómo fue creada la colección?
•Qué datos componen la colección?
•Cuan confiables son los datos. Que problemas persisten
en la colección?
•Cómo alguien puede obtener una copia de la colección?
•Quién escribio los metadatos?
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 18
19. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
¿Para qué “metadatos”?
• El valor científico y económico de las
colecciones de datos es muy grande
• Para asegurar su uso posterior, la comunidad
científica necesita acceso eficiente a estos datos
• Los datos tienen que ser confiables y
persistentes en el tiempo
• La calidad de los datos debe poder probarse
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 19
20. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
¿Que hacer?
• Tratar a los datos como si fueran una
publicación científica tradicional
– Edición
– Agregación (documentación con metadatos)
– Análisis
– Revisión por pares
– Publicación
…para que sean útiles a los usuarios finales
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 20
21. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Ejemplos de metadatos y de comunidades
que usan metadatos
Muestra datos NBII Documentación de datos
http://www.nbii.gov/ geoespaciales (estándar FGDC)
http://cndg.clearinghouse.gub.uy
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 21
22. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Ejemplos de metadatos y de comunidades
que usan metadatos
Documentación de datos geoespaciales
(Interfaz a Clearinghouse FGDC, GCMD Data Documenter, Data.gov)
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 22
23. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Algunos de los estándares para metadatos
geoespaciales, biológicos, científicos y
ambientales más usados
•FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal
Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov]
•FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov].
•Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la
Tierra. [gcmd.gsfc.nasa.gov]
•Darwin Core (DwC). Colecciones de Historia Natural.
•Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos
ecológicos. Base del estándar EML. [lternet.washington.edu]
•Dublin Core. Estandar general de identificacion de objetos de información en Internet.
[www.dublincore.org]
•CCLRC Scientific metadata model (CSMD). study-data set orientated model
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 23
24. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Repositorios
• Almacenan y preservan la producción de una
institución o de una disciplina científica.
• Contienen información académica y científica. -
Artículos de revista, tesis, congresos, informes,
colecciones de datos, etc.
• Compuestos de Metadatos + documentos.
• Libre acceso a sus contenidos (open access), es
la tendencia actual.
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 24
25. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Repositorios institucionales
• Incluyen los contenidos académicos de una
institución (universidad, centro de investigación,
etc.).
Ejemplos:
• CERN Document Server: http://cdsweb.cern.ch/
• Repositorio SABER-ULA: http://www.saber.ula.ve
• Dspace@MIT: http://dspace.mit.edu
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 25
26. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Repositorios temáticos
• Incluyen los contenidos académicos de una
disciplina o ámbito temático.
Ejemplos:
– E-LIS (biblioteconomía y documentación),
– ArXiv (física),
– Cogprints (psicología),
– Repec (economía).
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 26
27. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Repositorios temáticos
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 27
28. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Repositorios de datos
• Publican y preservan colecciones de datos
• Organizados frecuentemente por disciplinas
científicas como por ejemplo:
– HEP,
– Genómica
– Datos geoespaciales,
– Datos biológicos
– Datos astronómicos
– Datos gubernamentales
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 28
29. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Plataforma Dspace
• DSpace es una plataforma de software de
Código Abierto que provee herramientas de
administración de repositorios para gestionar
muchos tipos de contenidos digitales,
incluyendo colecciones de datos.
www.dspace.org
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 29
30. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
¿Donde usan Dspace?
www.dspace.org
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 30
31. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Repositorios de datos con Dspace
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 31
32. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Dificultades comunes
• Escaso conocimiento de la importancia de la preservación y
posibilidades de uso secundario de los datos
• Poca disposición de los científicos para compartir los datos.
• Poca receptividad o disposición para aportar metadatos que
documenten las colecciones de datos.
• Confusiones y reservas que tienen que ver con los derechos de
propiedad, publicación y uso de los datos.
• Dificultades (aún) con la conexión a internet (conectividad,
velocidad)
• Costos de los instrumentos de captura de datos
• No existe la figura de “gerente local de información”, o es muy
costoso tenerlos
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 32
33. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
El Futuro
• Redes de gestión de conocimientos basadas en datos y metadatos
• Herramientas analíticas "en-línea" con acceso a datos de red de
científicos
• Herramientas que facilitan la creación de diferentes formas de
metadatos
• Creación de más bancos de datos internacionales o federados
perteneciantes a multiples dominios y organizaciones
• Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de
datos” (Datagrids)
• Por último…Comunidades y sociedades del conocimiento
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 33
34. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
A manera de conclusión para esta parte
• El reto para la infraestructura de investigación
actual es facilitar la más amplia diseminación
posible de los descubrimientos científicos
• Estas infraestructuras allanaran el camino para
la e-ciencia, donde los investigadores serán
capaces de producir, gestionar, diseminar y
comparar grandes conjuntos de datos,
magnificando las posibilidaded de nuevos
descubrimientos
Conferencia Berlin 7 http://www.berlin7.org/spip.php?article46
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 34
35. Repositorios de Datos para comunidades científicas.
Caso Comunidad LAGO
Gracias por la atención!!
torrens@ula.ve
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida 35
Notas del editor
Costos de producir nuevas colecciones de datos Dificultades de ubicación de los datos Problemas para identificar calidad y detalles de las colecciones de datos Quien los capturó? Que metodos o procedimientos se usaron Los puedo usar? Cuanto cuestan? Anecdotas sobre ubicacion y uso de datos en Venezuela
Uno de los retos que habremos de enfrentar en esta nueva manera de hacer investigación es manejar, administrar, analizar y preservar un “diluvio de datos” (Hey y Trefethen, 2003a) generado por una red de sensores a escala mundial y experimentos de grandes dimensiones (aceleradores de partículas, red de observatorios terrestres y satelitales, enormes bases de datos genéticas, por mencionar las más impactantes). Este alud de mediciones, desbordando toda capacidad para su manejo que no sea mediante las TIC, convierte a estos instrumentos en herramientas informáticas y a la experimentación en minería de datos. Los grandes productores de datos son colaboraciones mundiales, industriales y multinacionales, las cuales generan ingentes volúmenes de datos que deben ser distribuidos geográficamente y mantenidos por esos proyectos mientras duren. Muchos de esos datos nunca aparecerán publicados y cuando finalice la colaboración, muchas de las medidas experimentales se perderán o serán enviadas a reservorios nacionales (o internacionales) que nada tuvieron que ver con su producción. Gran parte de las decisiones y criterios para generarlos quedarán sepultados en una inmensa correspondencia electrónica que nadie dispondrá (Gray y Szalay, 2002). Igual suerte correrán los datos producidos por multitud de pequeños grupos de investigación quienes, atacando problemas similares, se encuentran distribuidos por toda la geografía mundial. Todos ellos, grandes y pequeños productores de datos enfrentarán los mismos problemas de catalogación, preservación y diseminación de datos y del conocimiento que a partir de éstos surge. Es imperioso planificar y construir repositorios de datos que los almacenen mientras se produzcan y que conserven la traza testimonial de las decisiones y criterios que los generaron (Gray y Szalay, 2002; Karasti y colaboradores, 2006; Borgman y colaboradores, 2007; Murray-Rust, 2008).
Uno de los retos que habremos de enfrentar en esta nueva manera de hacer investigación es manejar, administrar, analizar y preservar un “diluvio de datos” (Hey y Trefethen, 2003a) generado por una red de sensores a escala mundial y experimentos de grandes dimensiones (aceleradores de partículas, red de observatorios terrestres y satelitales, enormes bases de datos genéticas, por mencionar las más impactantes). Este alud de mediciones, desbordando toda capacidad para su manejo que no sea mediante las TIC, convierte a estos instrumentos en herramientas informáticas y a la experimentación en minería de datos. Los grandes productores de datos son colaboraciones mundiales, industriales y multinacionales, las cuales generan ingentes volúmenes de datos que deben ser distribuidos geográficamente y mantenidos por esos proyectos mientras duren. Muchos de esos datos nunca aparecerán publicados y cuando finalice la colaboración, muchas de las medidas experimentales se perderán o serán enviadas a reservorios nacionales (o internacionales) que nada tuvieron que ver con su producción. Gran parte de las decisiones y criterios para generarlos quedarán sepultados en una inmensa correspondencia electrónica que nadie dispondrá (Gray y Szalay, 2002). Igual suerte correrán los datos producidos por multitud de pequeños grupos de investigación quienes, atacando problemas similares, se encuentran distribuidos por toda la geografía mundial. Todos ellos, grandes y pequeños productores de datos enfrentarán los mismos problemas de catalogación, preservación y diseminación de datos y del conocimiento que a partir de éstos surge. Es imperioso planificar y construir repositorios de datos que los almacenen mientras se produzcan y que conserven la traza testimonial de las decisiones y criterios que los generaron (Gray y Szalay, 2002; Karasti y colaboradores, 2006; Borgman y colaboradores, 2007; Murray-Rust, 2008).
Cada vez con mayor frecuencia y efectividad los investigadores de todas las naciones intercambian datos, ideas, publicaciones, referencias y artículos. Si bien una serie de emergentes y novedosos ambientes de colaboración electrónica no terminan de ser utilizados como herramientas cotidianas para estas interacciones (Coles y colaboradores, 2006; Borgman, 2006; De Roure y Frey, 2007; Collins y colaboradores, 2007), el correo electrónico, la mensajería instantánea y, sobre todo LA RED, se erigen como los apoyos y motores a éstas nuevas formas de colaboración ubicua. Pero más allá de este intercambio entre pares, transitamos por la era postgutemberg en la cual los productores de información (investigadores, centros de investigación y-o instituciones académicas) tienen la capacidad de publicar y difundir directamente su producción intelectual, sin intermediarios editoriales y a costos cada vez menores.
Los términos “ciberinfraestructura”, “e-ciencia” y “e-investigación”, han sido acuñados para describir esta nueva forma de producción y diseminación del conocimiento, donde el uso intensivo de las Tecnologías de Información y Comunicación (TIC), la distribución geográfica de los recursos de medición, procesamiento y análisis, pero sobre todo su acceso ubicuo, son sus características más resaltantes y descriptivas (ver Hey y Trefethen (2003b), Foster (2005) y Hey y Trefethen (2005), así como las referencias allí citadas).
Ideally, it should be possible for a user to easily perform tasks such as: Discover the existence of data Access the data for research and analysis Find detailed information describing the data and its production processes Access the data sources and collection instruments from which and with which the data was collected, compiled, and aggregated Effectively communicate with the agencies involved in the production, storage, distribution of the data Share knowledge with other users http://www.opendatafoundation.org/
Colocar aqui la tabla de contenido completa
Colocar aqui la tabla de contenido completa
El problema de los estandares: hay muchos!! Cual usar?? Dublin Core: estandar genérico de identificación de óbjetos de información