Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Organização da informação nos Repositórios de Dados de Pesquisa em Portugal

Apresentação realizada na 11ª ConfOA, de 06 a 08 de outubro de 2020, em formato virtual.

  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Organização da informação nos Repositórios de Dados de Pesquisa em Portugal

  1. 1. Organização da informação nos Repositórios de Dados de Pesquisa em Portugal Elis Gabriela Copa dos Santos Júllia Mendes Pestana dos Santos
  2. 2. INTRODUÇÃO Um das questões que tem se potencializado graças às possibilidades de compartilhamento e colaboração permitidas pela aplicação de tecnologias digitais nos procedimentos científicos é a da abertura da ciência, ou como vem sendo cunhado, o Acesso Aberto (AA) à produção científica. São inúmeras as discussões e os pontos de vista sobre a questão. ​Fecher & Friesike (2014) sugerem que a abertura da ciência está apoiada em cinco escolas de pensamento complementar. Entre elas, a Escola Democrática, aponta a forma desigual como o acesso ao conhecimento está distribuído e propõe que esta desigualdade seja resolvida pelo acesso livre às publicações científicas e aos dados de pesquisa.
  3. 3. A “Declaração sobre o Acesso a Dados de Pesquisa de Financiamento Público” define dados de pesquisa como: […] factual records (numerical scores, textual records, images and sounds) used as primary sources for scientific research, and that are commonly accepted in the scientific community as necessary to validate research findings. A research data set constitutes a systematic, partial representation of the subject being investigated. (OECD, 2004) INTRODUÇÃO
  4. 4. Rousidis et al. (2014), apontam que “dado ao grande volume e a diversidade dos dados científicos, repositórios de pesquisa estão se tornando uma parte integral do processo de comunicação e de colaboração entre pesquisadores e grupos de pesquisa”, contudo devido à multiplicidade de possibilidades relativas aos dados de pesquisa, seus diversos formatos, variadas naturezas e múltiplas extensões, os Repositórios de Dados de Pesquisa (RDP) necessitam de plataformas próprias que acolham estas diferenças. Atualmente estas plataformas estão sendo desenvolvidas por universidades, centros de pesquisa, editores e publicadores. INTRODUÇÃO
  5. 5. INTRODUÇÃO Neste trabalho, nosso objetivo é identificar quais são e como estão organizados os RDP em Portugal.
  6. 6. MÉTODOS Estudo exploratório de abordagem quantitativa realizado em três etapas: Pesquisa Bibliográfica Mapeamento Análise documental
  7. 7. Ficha de caracterização dos repositórios identificados MAPEAMENTO E SELEÇÃO Nome do repositório Instituição responsável Tema/área Tipo de conteúdo Ficha de caracterização dos repositórios selecionados Nome do repositório Instituição responsável Tema/área Atribui metadados aos arquivos? O conteúdo está agregado sob coleções/categorias? Tipos de dados armazenados Observações
  8. 8. REPOSITÓRIOS SELECIONADOS Foram identificados nove repositórios, dos quais dois foram excluídos da pesquisa: o Perdigão Field Experiment e o European Archive of Historical Earthquake Data. Excluído por ser mantido por organismos internacionais e esta pesquisa foca-se exclusivamente em repositórios de instituições portuguesas. Excluído por não manter os conjuntos de dados em acesso aberto, sendo possível visualizar os registros, contudo o acesso aos arquivos requer credenciais atribuídas apenas a indivíduos relacionados ao projeto.
  9. 9. REPOSITÓRIOS SELECIONADOS Nome do repositório Instituição responsável Tema/área Atribui metadados aos arquivos O conteúdo está agregado sob coleções/categorias Tipos de dados armazenados Licenças de uso descritas Observações Antimicrobial Combination Networks (ACN) Universidade do Minho Engenharia Biológica Sim Não Representações gráficas de organismos microbianos e visualizações de redes de interação entre organismos e drogas Sim Há menção sobre a necessidade de citação DataRepositoriUM Universidade do Minho Geral Sim Sim Bases de dados, arquivos tabulares, textos Sim Há menção sobre a necessidade de citação INTEGRALL - The Integron Database Universidade de Aveiro Biologia/ genética Sim Não Representações gráficas de sequências genéticas Sim Repositório de Dados Científicos do Instituto Politécnico de Castelo Branco (RDC-IPCB) Instituto Politécnico de Castelo Branco Geral Sim Sim Bases de dados, arquivos tabulares, textos Sim Não é um repositório independente, mas sim uma coleção dentro do repositório institucional Kinetic models of biological systems (KiMoSys) Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento de Lisboa Biologia Sim Não Modelos sinápticos de sistemas biológicos Sim Há menção sobre a necessidade de citação
  10. 10. REPOSITÓRIOS SELECIONADOS Nome do repositório Instituição responsável Tema/área Atribui metadados aos arquivos O conteúdo está agregado sob coleções/categorias Tipos de dados armazenados Licenças de uso descritas Observações Portulan Clarin Repository (PCR) Universidade de Lisboa e Universidade de Évora Ciências e tecnologias da linguagem Sim Não Textos, códigos-fonte, arquivos de áudio Sim, nos itens em que é possível fazer o download direto Nem todos os registros possuem um item para downloads. Há registros que contem apenas a descrição do conteúdo e no lugar do botão de "download" está um atalho para contato com o detentor do conteúdo. Repositório Dados Científicos (RDC) RCAAP/FCT Geral Sim Sim Bases de dados, arquivos tabulares, textos Sim Repositório piloto de dados resultantes de investigação de instituições portuguesas. Mais de 90% do conteúdo é o mesmo do RDC-IPCB, pois assim como o RCAAP atua como um portal agregador para os repositórios institucionais, este também atua como um agregador para os repositórios (ou coleções) de dados de pesquisa das instituições de pesquisa portuguesas.
  11. 11. Antimicrobial Combination Networks (ACN) É um banco de dados sobre interação medicamentosa, cujo objetivo é preencher uma lacuna verificada pelos seus criadores entre repositórios de agentes microbacterianos e estudos que documentam o efeito de terapias de combinação antimicrobiana. Portanto, o repositório compila dados sobre a combinação de agentes antimicrobianos. O fluxo de trabalho de curadoria de dados combina mineração de texto, curadoria manual especializada e análise de gráficos. Os dados são provenientes de uma abordagem de bioinformática que, por meio de métodos de visualização de redes, cria reconstruções de rede farmacológicas, comumente usadas para mapear os dados resultantes de estudos de combinação e ajudam a explorar novas combinações em escala global. Universidade do Minho
  12. 12. DataRepositoriUM O DataRepositoriUM é o ambiente virtual criado pela Universidade do Minho com a finalidade de ​partilhar, publicar e gerir dados de investigação. Foi implantado em 2019 e abriga os dados de pesquisas conduzidas por pesquisadores filiados à Universidade do Minho. Portanto, pode ser apontado como o primeiro repositório de dados implantado por uma Universidade em Portugal. Está construído sob o sistema Dataverse, um software de código aberto destinado à criação de RDP, desenvolvido pelo Instituto de Ciências Sociais Quantitativas da Universidade de Harvard. Universidade do Minho
  13. 13. The Integron Database O INTEGRALL é uma plataforma web dedicada a compilar informações sobre integrons*, projetada para organizar todos os dados disponíveis para essas estruturas genéticas. O repositório fornece em acesso aberto dados e nomenclaturas de sequências, de forma interativa, bem como seus arranjos moleculares e contextos genéticos. Universidade de Aveiro *Integrons são sistemas genéticos que permitem que as bactérias capturem e expressem cassetes de genes.
  14. 14. Kinetic models of biological systems O KiMoSys é uma aplicação web para modelos cinéticos quantitativos de sistemas biológicos. Modelos cinéticos são construídos interativamente e requerem dados experimentais precisos para a geração e verificação de hipóteses. É um sítio web de acesso livre que combina tarefas de armazenamento, pesquisa e compartilhamento de dados experimentais, bem como ferramentas para criar modelos cinéticos. Destina-se a realizar pesquisas experimentais e computacionais, com o objetivo futuro de fornecer uma plataforma integrada que permita aos usuários acessar dados experimentais e suporte para as tarefas gerais de modelagem cinética, para que as ferramentas usadas em diferentes estágios do fluxo de trabalho computacional possam ser facilmente utilizadas em conjunto. Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento de Lisboa
  15. 15. Portulan Clarin Repository O PCR é uma infraestrutura de investigação destinada ao abrigo de uma coleção de recursos para a ciência, tecnologia, promoção e exploração da linguagem e de áreas relacionadas com a linguagem. Seu objetivo é de impulsionar o avanço da investigação proporcionando recursos, serviços e apoio técnico especializado num vasto leque de áreas, desde as Humanidades e Ciências Sociais, até à Ciência Cognitiva e Inteligência Artificial; promovendo iniciativas de inovação com ferramentas de processamento e conjuntos de dados linguísticos. Universidade de Lisboa e Universidade de Évora
  16. 16. Repositório Dados Científicos O RDC é um projeto piloto que vem sendo conduzido pelo RCAAP com a finalidade de coletar e disponibilizar os dados de pesquisas que receberam financiamento público do governo português por meio da FCT. Da mesma forma que o RCAAP é um diretório que busca registros numa rede de repositórios, o RDC pretende ser ser um portal que aponte para os RDP das instituições de pesquisa portuguesas. RCAAP e FCT
  17. 17. Repositório de Dados Científicos do Instituto Politécnico de Castelo Branco O RDC-IPCB não é um repositório independente, mas sim uma coleção dentro do repositório institucional do Instituto Politécnico Castelo Branco. Está sendo considerado nesta pesquisa devido à quantidade de materiais depositados (1972 registros na data de coleta de dados da pesquisa). Instituto Politécnico de Castelo Branco
  18. 18. Idioma e tipologia Entende-se necessário apontar que embora “ser mantido por uma instituição portuguesa” tenha sido um critério de exclusão neste estudo, o idioma no qual o repositório é apresentado não coincide, obrigatoriamente, com a língua portuguesa. Dos sete repositórios selecionados, quatro têm seus títulos, interface e grande parte do seu conteúdo em língua inglesa. Esse fator se relaciona com a tipologia. Estes mesmos quatro são os repositórios cujo conteúdo é temático, ou seja, ligado a uma área do conhecimento. Os repositórios em língua portuguesa são os que abrigam os dados de pesquisa no âmbito de uma instituição específica, daí perceber-se uma grande similaridade com os repositórios institucionais.
  19. 19. Organização Pressupunha-se que todos os repositórios tivessem uma certa conformidade em sua organização, condizente com a organização observada em outros tipos de repositórios digitais. Contudo, diferentemente de modelos mais tradicionais de repositórios, onde estão armazenados documentos fechados com arquivos para download ou visualização online​, há aqueles que, em função do tipo de dados que armazenam, são, na realidade, são interfaces abastecidas por dados, que mostram seus resultados a partir da interação do usuário com o sistema, gerando visualizações ou fórmulas. Interfaces interativas Modelo tradicional
  20. 20. Busca Nos repositórios que seguem o padrão mais tradicional de organização, percebe-se também maior similaridade no modo de busca do conteúdo. Pesquisa por meio da caixa de busca presente na página inicial ou percorrendo o repositório por: Comunidades e Colecções, Data de publicação, Autor, Título, Assunto, Tipo de Documento e Tipo de Acesso. A busca pode ser feita pela barra de busca textual ou por meio de uma lista com os materiais disponíveis. A pesquisa, realizada em caixas de seleção, pode ser feita por organismo, agente microbiano, combinação microbiana, interação bem como pela combinação de filtros. Permite a busca por meio de uma lista com os códigos identificadores das cadeias genéticas. A busca pode ser feita por meio de consulta a uma lista apresentada com os organismos descritos ou por meio de uma caixa de pesquisa na qual o usuário pode inserir um termo ou um conjunto de termos. Ao encontrar o registro buscado, o usuário pode realizar o download dos artigos, arquivos e dados e arquivos de modelo para cada resultado.
  21. 21. Descrição Embora a visualização do conteúdo seja diferente, para todos os organismos, agentes ou cadeias genéticas estão indicadas informações que os identificam e individualizam. Nos repositórios que seguem o padrão tradicional, para cada arquivo há um registro com metadados como título, autoria ou responsabilidade, data e local de criação ou de coleta, formato, tamanho, permissões e condições de uso e requisitos de sistema necessários para o uso. Do ponto de vista da descrição dos conteúdos, há em todos os RDP algum tipo de descrição que individualiza e identifica o conteúdo.
  22. 22. Citação Embora não esclareçam os usuários como fazer, nem apresentam a referência junto ao arquivo, os metadados constantes são suficientes para a elaboração das referências. Em todos os repositórios está indicada a importância da necessidade de citação do conteúdo ali disponibilizado. Há uma sessão no web sítio que ensina ao usuário como citar os recursos. Junto ao registro é indicada a referência para citação de cada conteúdo.
  23. 23. CONSIDERAÇÕES FINAIS • Grande parte dos repositórios digitais atualmente ativos em Portugal foi implantada em virtude do projeto RCAAP, portanto destinam-se a coletar e compartilhar a produção científica da instituição pela qual são mantidos. • Observou-se a presença de conjuntos de dados (datasets) publicados nas coleções de alguns repositórios institucionais. Esse fato mostra que já há preocupação por parte de pesquisadores em disponibilizar seus dados, contudo pode indicar falta de espaços para tal em sua instituição. • Um dos maiores obstáculos que se pode indicar com relação à implantação de dados de pesquisa está relacionada com a dificuldade ainda bastante persistente de identificar o que são dados de pesquisa. • De modo geral, essa pesquisa permite afirmar que o estado da arte dos repositórios de dados de pesquisa em Portugal ainda encontra-se em estágio inicial. Pela pouca quantidade de repositórios e de itens armazenados nos repositórios analisados, acredita-se que os mesmos ainda tenham pouca visibilidade dentro de suas instituições. Até ao final de 2009 as actividades do projecto RCAAP focaram-se exclusivamente nos repositórios de literatura científica. O plano de trabalho para 2010 assinala o início da intervenção do projecto RCAAP no domínio do acesso e curadoria dos dados resultantes das actividades de investigação e dos repositórios de dados científicos (Rodrigues et al., 2010).
  24. 24. REFERÊNCIAS Fecher B., Friesike S. (2014) Open Science: One Term, Five Schools of Thought. In: Bartling S., Friesike S. (eds) Opening Science. Springer, Cham. https://doi.org/10.1007/978-3-319-00026-8_2 OECD (2004). Declaration on Access to Research Data from Public Funding. https://legalinstruments.oecd.org/en/instruments/157 Rousidis, D., Garoufallou, E., Balatsoukas, P., & Sicilia, M.-A. (2014). Metadata for Big Data: A preliminary investigation of metadata quality issues in research data repositories. Information Services & Use, 34(3–4), 279–286. https://doi.org/10.3233/ISU-140746

×