Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes - CONFOA 2017
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes
Gabriel Lima Gomes, Washington Carvalho Segundo
A conversão de registros na implantação de repositórios institucionais: o ca...
Similar a Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes - CONFOA 2017
Estudo Prospectivo sobre a implementação do DOI em Portugal - Jornadas FCCN 2016Pedro Príncipe
Similar a Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes - CONFOA 2017 (20)
Revistas científicas brasileiras de acesso aberto: qualidade do ponto de vist...
Estudo para integração entre a plataforma Lattes, a Biblioteca Digital Brasileira de Teses e Dissertações (BDTD) e o Banco de Teses e Dissertações da Capes - CONFOA 2017
1. Estudo para integração entre a Plataforma
Lattes, a Biblioteca Digital Brasileira de
Teses e Dissertações (BDTD) e o Banco de
Teses e Dissertações da Capes
Gabriel Lima Gomes – IBICT
Washington L. R. de Carvalho Segundo - IBICT
2. O que é?
BDTD (Biblioteca Digital de Teses e Dissertações)
Criada em 2002;
Mantida e coordenada pelo Instituto Brasileiro de Informação em Ciência
e Tecnologia (IBICT);
Congrega sistema de informação brasileiros de acesso aberto;
Teses e dissertações;
3. O que é?
Plataforma Lattes
Surgiu em 1999 por um projeto do Conselho Nacional de
Desenvolvimento Científico e Tecnológico (CNPq);
Implementada por grupo universitários da Universidade
Federal de Santa Catarina (UFSC) e a Universidade
Federal de Pernambuco (UFPE), com contribuições da
Multsoft;
Base nacional de currículos de pesquisadores do Brasil;
4. O que é?
Banco de Teses e Dissertações da CAPES
Criado em 2002 pela Coordenação de Aperfeiçoamento
de Pessoal de Nível Superior (CAPES);
Armazena resumos de teses e dissertações dos programas
de pós-graduação do país;
6. Justificativa
Uso da BDTD tem sido extenso no Brasil e em países de língua
portuguesa
90% dos acessos tem origem em território nacional;
3,25% dos acessos tem origem de Portugal;
2% dos acessos tem origem de Moçambique;
0,78% dos acessos tem origem de Angola;
Banco da CAPES é a iniciativa nacional que reúne o maior número de
resumos de teses e dissertações;
BDTD pode contribuir, pois agrega e viabiliza o acesso aberto a teses
e dissertações;
Plataforma Lattes poderá dar mais qualidade e detalhes as teses e
dissertações disponibilizadas em acesso aberto;
10. Metodologia
Pré-processamento:
Limpeza dos dados: tolower; remoção de caracteres
especiais; remoção de números; remoção de espaços
duplicados;
Campo autor: normalização dos nomes para forma direta;
Remoção do nome da instituição;
Criação de um vocabulário de instituições e suas variações
em Json;
11. Metodologia
Pré-processamento:
Criação do campo “sigla instituição” na base Lattes;
Eliminação de de-duplicação nas bases: Similaridade
Levenshtein e Jaro;
BDTD: 6500;
CAPES: 2700;
Lattes: 400 mil.
12. Metodologia
Integração:
Integração BDTD - CAPES
I5, 8Gb, Linux;
Levenstein com valor < 3, aproximadamente 57h, + 1
milhão de registros;
Jaro > 85%, aproximadamente 60h, + 1 milhão de
registros;
15. Resultados
1.745.138 registros;
412.487 Teses e 1.332.651 Dissertações;
498 instituições brasileiras;
Datas de defesa que vão de 1950 à 2017;
16. Desafios
Etapas de limpeza e normalização; variação de
erros de preenchimento;
17. Conclusão
Dados não-estruturados, a infraestrutura computacional
disponível influenciou o tempo de execução dos
algoritmos;
Ponto de partida para efetiva integração entre as bases;
18. Trabalhos Futuros
Como trabalhos futuros, criar uma base de consulta
centralizada, para validação dos dados na Plataforma
Lattes;
Uso pela comunidade científica e público não
especializado.