SlideShare una empresa de Scribd logo
1 de 59
Descargar para leer sin conexión
Preservação digital de teses e
dissertações
Experiência do repositório cooperativo TDX
Ricard de la Vega
Computing and Applications Manager
Consorci de Serveis Universitaris de Catalunya (CSUC)
10º debate
Grupo de Pesquisa Dríade
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
• Generalitat de Catalunya
• Universitat de Barcelona (UB)
• Universitat Autònoma de Barcelona (UAB)
• Universitat Politècnica de Catalunya (UPC)
• Universitat Pompeu Fabra (UPF)
• Universitat de Girona (UdG)
• Universitat Rovira i Virgili (URV)
• Universitat de Lleida (UdL)
• Universitat Oberta de Catalunya (UOC)
• Universitat Ramon Llull (URL)
• Universitat de Vic (UVic)
• Gestão de infraestruturas e serviços
cooperativos para as universidades e lá
investigação da Catalunha
• Fusão de um consórcio TIC e um bibliotecário
Consórcio de Serviços Universitários de
Catalunha (CSUC)
Nossos serviços
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009
Repositórios de cooperação
TDX RECERCAT RACO PADICAT
RECYT MDC MDX PADICYT
CALAIX FILMOTECA SCIENTIA MACBA
Repositórios digitais
2001 2005 2006 2006
2006 2006 2009 2009
2010 2012 2015 2015
Quase 15 anos de repositórios…
Tese
Trabalhos de
pesquisa
Revistas Websites
Revistas
Património
colecções
Materiais
didáticos
Websites
Dept. Cultura
Património
cinematográfico
Dept. Saúde
Património
artístico
Conteúdo
Texto (PDF) Texto (PDF) Texto (PDF) WARCs
Texto (PDF) Imagem Texto (PDF) WARCs
Texto,
imagem,
audiovisual
Texto,
imagem,
audiovisual
Texto,
imagem,
audiovisual
Texto,
imagem,
audiovisual
Formatos: texto, imagem, vídeo...
DSpace DSpace OJS Heritrix, etc.
OJS CONTENTdm DSpace Heritrix, etc.
DSpace DSpace DSpace DSpace
Programas: DSpace, OJS...
Gestão de dados científicos
Grupo de trabalho per:
– Criação de uma política
– Data Management Plans
• Orientações (http://hdl.handle.net/2072/266523)
• DMP Online instância de DCC
– Repositório de dados de pesquisa
• Orientações (http://hdl.handle.net/2072/266502)
• Possível criação de um repositório cooperativo
– Piloto
Portal de pesquisa da Catalunha
Other
DRAC
Universitas XXI
GREC
SIGMA
Other
DRAC
Universitas XXI
GREC
SIGMA
UNEIX
Local and consortia
repositories.
Mainly DSpace
Catalan
government
DataWarehouse
PRC. Based on
Dspace-CRIS
(CINECA)
11 university CRIS
systems (from 4
different vendors)
Protocol: OAI-PMH/SWORD
Format: DC
Protocol: OAI-PMH
Format: CERIF-XML
Protocol: XLS files
Format: UNEIX defined
Portal de pesquisa da Catalunha
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
TDX em 2001 (80 GB, 8K access hits)
TDX em 2016 (0.6 TB, 4.5M access hits)
Estructura de TDX
Cada universidade (18):
• é uma Comunidade
• Tem licenças de
admissão de teses
• Administra sua coleção
• Personalização
• Pesquisadores frontend
Procedimentos e grupos
de trabalho comum
Universidades
Estructura de TDX
Departamentos e faculdades
Teses
Divulgação e preservação da tese
URV
UVic
UdG
UdL
UV
UJI
UM
UC
UA
UAB
UPF
UB
Arquivos
UIB
Metadados
Admissão das 18
universidades
Divulgação da tese espanholas
33
33
33
33
33
33
33
33
OAI-PMH harvester da tese das 33 universidades espanholas
CRIS
CRIS
CRIS
Mais divulgação da teses
DART
Recol
ecta
Driver
Tese europeia
Trabalhos de pesquisa
espanhol
Trabalhos de
pesquisa
europeia
…
Motores
de busca
Outros
colecionadores
Portal de pesquisa da Catalunha
CRIS
CRIS
CRIS
Agenda
1. Introdução (CSUC)
2. Repositórios de cooperação
3. Repositório de teses digitais (TDX)
4. Preservação do TDX
Long term preservation
• The e-infrastructure must ensure the long term
data access, without failure.
• To succeed, it must be taken into account:
– Replication (more than one copy)
– Media refresh
– Format migration
– Data integrity (checksums)
– Contingency and recovery plan
– Preservation plan
– ...
Hardware migrations
2001 (cpu, disk and tapes)
– HP N4000
2003 (cpu + disk)
– HP rp5430 with 2 processors, 704 GB memory
– HP EVA V.2 with 2,8 TB disk
2006 (cpu + tape)
– High availability HP cluster with 32 nodes
– Adic Scalar i2000 (from 9840 tapes to LTO3)
2009 (disk)
– NetApp FAS3170 with 60 TB disk
2012 (cpu)
– New High availability cluster
2016 (disk)
– New storage cabine
Born in a
supercomputer!
Software migrations
2001 – ETDdb from Virginia Tech
2005 – + OAI-PMH & statistics modules
2007 – + Spanish Thesis Harvester (MetaIndex
module + X-Server libraries) from Ex Libris
2011 – DSpace 1.6 from MIT & HP labs
2013 – + Drupal for news & intranet
…
2016 – DSpace 5.2
Data integrity & Format migration
• Data Integrity
–Checksums on DSpace (online version)
–Checksums on LOCKSS (dark copies)
• Format migration
–Not yet (PDF)
–But Metadata migration yes
• From HTML forms (ETDdb) to Dublin Core
(DSpace)
Replication
• On disk - Online version (1)
• One backup on the tape library (2)
• Other backup on a fireproof cabinet (3)
• Other backup on a 50 Km remote Centre (4)
• A dark copy on the MetaArchive Cooperative
– Private LOCKSS (Lots of Copies Keep Stuff Safe) Network
– 7 more copies around the world (11)
• And (possible) more copies on each University
MetaArchive Cooperative
• The Educopia Institute’s mission is
help cultural, scientific, and scholarly
institutions achieve greater impact
• Lots of Copies Keep Stuff Safe (LOCKSS)
• A private LOCKSS network (PLN)
• Centralized facilities (conspectus, svn…)
• P2P secure network of “cache” nodes
Marketing...
“With others, you can accomplish
what you cannot accomplish alone”
“Don’t put all your eggs in
one basket”
Private LOCKSS Networks (PLNs)
• Alabama Digital Preservation Network (ADPN).
• CLOCKSS Archive.
• Council of Prairie and Pacific University Libraries (COPPUL)
• Data Preservation Alliance for the Social Sciences (Data-PASS)
• Digital Commons.
• Digital Federal Depository Library Program.
• CARINIANA Instituto Brasileiro de Informaçãoem Ciência e Tecnologia
• Lukll.
• MetaArchive Cooperative.
• PKP Public Knowledge Project.
• PNAS Proceedings of the National Academy of Sciences.
• Persistent Digital Archives and Library System – PeDALS.
• SAFE (SAFE Archiving FEderation).
• Synergies.
• UK LOCKSS Alliance
Fonte: www.lockss.org/community/networks
50 instituições em 3 países
Como funciona?
Arquivo escuro
Private LOCKSS network
• 7 copies with widespread geographical
distribution
• All 7 servers revisit on a regular basis to pick
up new and changed content
• Versioning (no remove changed content)
• Checksums file integrity control
Benefits
– Distributed archiving of digitals collections
across multiple geographically distributed
preservation sites
– Retrieval of contents in case of catastrophic loss
– Assistance with installation and maintenance of
the technical solution
– Reports, coordination web conference…
Responsibilities
Initially:
– Local LOCKSS installation (cache)
– Define a data preservation strategy (Data
Wrangling) for your “particular” repository
– Rules design for the other cache to harvest
your repository (Plugin)
– Enroll your collections in a central database
(Conspectus)
Responsibilities
Periodically:
– Add collections (of others) assigned centrally
– Apply firewall changes (IP active list)
– Apply updates
– Coordination with the MetaArchive staff and
others cache if a restore (for disaster) is needed
Nuestra experiencia con MetaArchive
– Fácil modelo
– Relativamente barata
– Eu comprovada (em casos reais)
– Precisamos conhecimento técnico
– É apropriado para o conteúdo bem definido
– Formato agnóstico, “solo" preserva arquivos
Bibliografia
– A Guide to Distributed Digital Preservation. K. Skinner and M. Schultz, Eds.
(Atlanta, GA: Educopia Institute, 2010).
http://metaarchive.org/sites/metaarchive.org/files/GDDP_Educopia.pdf
– Miquel Térmens: Preservación digital. Barcelona, Editorial UOC, 2014. ISBN:978-
84-9064-082-1.
– Ricard de la Vega. "Preservació digital al núvol." Item: revista de biblioteconomia i
documentació, 2013,Núm. 57 .
http://www.raco.cat/index.php/Item/article/view/269708/372314
– Huguet, Miquel ; Anglada i de Ferrer, Lluís M. ; Vega, Ricard de la. "Catalan
Policies and Experiences on Cooperative Repositories". Centre de
Supercomputació de Catalunya. 2007. http://hdl.handle.net/2072/4083
Muito obrigado!
ricard.delavega@csuc.cat
@rdelavega
https://es.linkedin.com/in/ricarddelavega
“Sometimes a scream
is better than a thesis”
Manfred Eigen
www.tdx.cat
www.recercat.cat
www.raco.cat
www.raco.cat
www.raco.cat
www.padicat.cat
http://recyt.fecyt.es
http://mdc.cbuc.cat
www.mdx.cat
http://padicyt.es
Hhtp://calaix.gencat.cat
http:://repositori.filmoteca.cat
http://scientiasalut.gencat.cat
Macba!
http://repositori.macba.cat

Más contenido relacionado

Destacado

Object Reuse and Exchange (OAI- ORE)
Object Reuse and Exchange (OAI- ORE)Object Reuse and Exchange (OAI- ORE)
Object Reuse and Exchange (OAI- ORE)
Ricard de la Vega
 
Google File System
Google File SystemGoogle File System
Google File System
nadikari123
 
Clinical Decision Support Systems - Sunil Nair Health Informatics Dalhousie U...
Clinical Decision Support Systems - Sunil Nair Health Informatics Dalhousie U...Clinical Decision Support Systems - Sunil Nair Health Informatics Dalhousie U...
Clinical Decision Support Systems - Sunil Nair Health Informatics Dalhousie U...
Sunil Nair
 
Amazon Item-to-Item Recommendations
Amazon Item-to-Item RecommendationsAmazon Item-to-Item Recommendations
Amazon Item-to-Item Recommendations
Roger Chen
 

Destacado (19)

Object Reuse and Exchange (OAI- ORE)
Object Reuse and Exchange (OAI- ORE)Object Reuse and Exchange (OAI- ORE)
Object Reuse and Exchange (OAI- ORE)
 
On the data interoperability issues in SCOR-based supply chains
On the data interoperability issues in SCOR-based supply chainsOn the data interoperability issues in SCOR-based supply chains
On the data interoperability issues in SCOR-based supply chains
 
Top ten-dències tecnològiques
Top ten-dències tecnològiquesTop ten-dències tecnològiques
Top ten-dències tecnològiques
 
Panel at AMIA 2013 Conference on big data - The Exposome and the quantified s...
Panel at AMIA 2013 Conference on big data - The Exposome and the quantified s...Panel at AMIA 2013 Conference on big data - The Exposome and the quantified s...
Panel at AMIA 2013 Conference on big data - The Exposome and the quantified s...
 
Research Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories MetadataResearch Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories Metadata
 
Data mining paper survey for Health Care Support System
Data mining paper survey for Health Care Support SystemData mining paper survey for Health Care Support System
Data mining paper survey for Health Care Support System
 
Teaching with Google Books: research, copyright, and data mining
Teaching with Google Books: research, copyright, and data miningTeaching with Google Books: research, copyright, and data mining
Teaching with Google Books: research, copyright, and data mining
 
Research in data mining
Research in data miningResearch in data mining
Research in data mining
 
Social Targeting: Understanding Social Media Data Mining & Analysis
Social Targeting: Understanding Social Media Data Mining & AnalysisSocial Targeting: Understanding Social Media Data Mining & Analysis
Social Targeting: Understanding Social Media Data Mining & Analysis
 
Google File System
Google File SystemGoogle File System
Google File System
 
Preprocessing of Academic Data for Mining Association Rule, Presentation @WAD...
Preprocessing of Academic Data for Mining Association Rule, Presentation @WAD...Preprocessing of Academic Data for Mining Association Rule, Presentation @WAD...
Preprocessing of Academic Data for Mining Association Rule, Presentation @WAD...
 
Interoperability issues between learning object repositories and metadata har...
Interoperability issues between learning object repositories and metadata har...Interoperability issues between learning object repositories and metadata har...
Interoperability issues between learning object repositories and metadata har...
 
Mining the Social Web to Analyze the Impact of Social Media on Socialization,...
Mining the Social Web to Analyze the Impact of Social Media on Socialization,...Mining the Social Web to Analyze the Impact of Social Media on Socialization,...
Mining the Social Web to Analyze the Impact of Social Media on Socialization,...
 
Medical Informatics: Computational Analytics in Healthcare
Medical Informatics: Computational Analytics in HealthcareMedical Informatics: Computational Analytics in Healthcare
Medical Informatics: Computational Analytics in Healthcare
 
Emotion detection from text using data mining and text mining
Emotion detection from text using data mining and text miningEmotion detection from text using data mining and text mining
Emotion detection from text using data mining and text mining
 
Clinical Decision Support Systems - Sunil Nair Health Informatics Dalhousie U...
Clinical Decision Support Systems - Sunil Nair Health Informatics Dalhousie U...Clinical Decision Support Systems - Sunil Nair Health Informatics Dalhousie U...
Clinical Decision Support Systems - Sunil Nair Health Informatics Dalhousie U...
 
Recommender Systems - A Review and Recent Research Trends
Recommender Systems  -  A Review and Recent Research TrendsRecommender Systems  -  A Review and Recent Research Trends
Recommender Systems - A Review and Recent Research Trends
 
Hadoop HDFS Architeture and Design
Hadoop HDFS Architeture and DesignHadoop HDFS Architeture and Design
Hadoop HDFS Architeture and Design
 
Amazon Item-to-Item Recommendations
Amazon Item-to-Item RecommendationsAmazon Item-to-Item Recommendations
Amazon Item-to-Item Recommendations
 

Similar a Preservaçao digital de tese e dissertaçoes

Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014
Cariniana Rede
 
Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014
Cariniana Rede
 
3º Apresentação Intercalar
3º Apresentação Intercalar3º Apresentação Intercalar
3º Apresentação Intercalar
Grupo3ProjBliblio
 

Similar a Preservaçao digital de tese e dissertaçoes (20)

Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014Apresentação cariniana jbb-2014
Apresentação cariniana jbb-2014
 
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
 
Repositorios Institucionais DSpace
Repositorios Institucionais DSpaceRepositorios Institucionais DSpace
Repositorios Institucionais DSpace
 
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
 
Apresentação Rede Cariniana Histórico
Apresentação Rede Cariniana HistóricoApresentação Rede Cariniana Histórico
Apresentação Rede Cariniana Histórico
 
Padicat: O archivo da web da Catalunha
Padicat: O archivo da web da CatalunhaPadicat: O archivo da web da Catalunha
Padicat: O archivo da web da Catalunha
 
Bibliotecas
BibliotecasBibliotecas
Bibliotecas
 
Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014Apresentação cariniana rbsp-2014
Apresentação cariniana rbsp-2014
 
Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014Relatório Cariniana - outubro 2014
Relatório Cariniana - outubro 2014
 
3º Apresentação Intercalar
3º Apresentação Intercalar3º Apresentação Intercalar
3º Apresentação Intercalar
 
Software DSpace 1 de 4
Software DSpace 1 de 4Software DSpace 1 de 4
Software DSpace 1 de 4
 
Acesso livre e Comunicação Científica: Intersecções
Acesso livre e Comunicação Científica: IntersecçõesAcesso livre e Comunicação Científica: Intersecções
Acesso livre e Comunicação Científica: Intersecções
 
Bibliotecas Digitais e Serviços de Preservação
Bibliotecas Digitais e Serviços de PreservaçãoBibliotecas Digitais e Serviços de Preservação
Bibliotecas Digitais e Serviços de Preservação
 
Cariniana 2016 preservando dados de pesquisa
Cariniana 2016   preservando dados de pesquisaCariniana 2016   preservando dados de pesquisa
Cariniana 2016 preservando dados de pesquisa
 
Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...Os novos desafios para a implantação de programas de gestão arquivística de d...
Os novos desafios para a implantação de programas de gestão arquivística de d...
 
WDES 2015 paper: Uma Arquitetura para Ecossistema de Software Científico
WDES 2015 paper: Uma Arquitetura para Ecossistema de Software CientíficoWDES 2015 paper: Uma Arquitetura para Ecossistema de Software Científico
WDES 2015 paper: Uma Arquitetura para Ecossistema de Software Científico
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicos
 
A preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadasA preservação distibuída de coleções de obras raras digitalizadas
A preservação distibuída de coleções de obras raras digitalizadas
 
Curadoria Digital_Arquivo Nacional_julho 2017
Curadoria Digital_Arquivo Nacional_julho 2017Curadoria Digital_Arquivo Nacional_julho 2017
Curadoria Digital_Arquivo Nacional_julho 2017
 
CARINIANA
CARINIANACARINIANA
CARINIANA
 

Más de Ricard de la Vega

Servicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigaciónServicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigación
Ricard de la Vega
 
Proyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en CatalunyaProyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en Catalunya
Ricard de la Vega
 
Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...
Ricard de la Vega
 
Programari lliure en un centre gestor d'e-infrastructures, el CESCA
Programari lliure en un centre gestor d'e-infrastructures, el CESCAProgramari lliure en un centre gestor d'e-infrastructures, el CESCA
Programari lliure en un centre gestor d'e-infrastructures, el CESCA
Ricard de la Vega
 

Más de Ricard de la Vega (20)

The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)
 
Servicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigaciónServicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigación
 
Visualització de dades
Visualització de dadesVisualització de dades
Visualització de dades
 
Visualització de dades
Visualització de dadesVisualització de dades
Visualització de dades
 
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
 
Proyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en CatalunyaProyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en Catalunya
 
Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...
 
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
 
Quatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgilsQuatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgils
 
Informàtic
InformàticInformàtic
Informàtic
 
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
 
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
 
De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?
 
El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...
 
The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...
 
Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...
 
Infraestructures per dades de recerca
Infraestructures per dades de recercaInfraestructures per dades de recerca
Infraestructures per dades de recerca
 
Programari lliure en un centre gestor d'e-infrastructures, el CESCA
Programari lliure en un centre gestor d'e-infrastructures, el CESCAProgramari lliure en un centre gestor d'e-infrastructures, el CESCA
Programari lliure en un centre gestor d'e-infrastructures, el CESCA
 
Papel de la infraestructura tecnológica en el movimiento de los repositorios
Papel de la infraestructura tecnológica en el movimiento de los repositoriosPapel de la infraestructura tecnológica en el movimiento de los repositorios
Papel de la infraestructura tecnológica en el movimiento de los repositorios
 

Preservaçao digital de tese e dissertaçoes

  • 1. Preservação digital de teses e dissertações Experiência do repositório cooperativo TDX Ricard de la Vega Computing and Applications Manager Consorci de Serveis Universitaris de Catalunya (CSUC) 10º debate Grupo de Pesquisa Dríade
  • 2. Agenda 1. Introdução (CSUC) 2. Repositórios de cooperação 3. Repositório de teses digitais (TDX) 4. Preservação do TDX
  • 3. • Generalitat de Catalunya • Universitat de Barcelona (UB) • Universitat Autònoma de Barcelona (UAB) • Universitat Politècnica de Catalunya (UPC) • Universitat Pompeu Fabra (UPF) • Universitat de Girona (UdG) • Universitat Rovira i Virgili (URV) • Universitat de Lleida (UdL) • Universitat Oberta de Catalunya (UOC) • Universitat Ramon Llull (URL) • Universitat de Vic (UVic) • Gestão de infraestruturas e serviços cooperativos para as universidades e lá investigação da Catalunha • Fusão de um consórcio TIC e um bibliotecário Consórcio de Serviços Universitários de Catalunha (CSUC)
  • 4.
  • 6. Agenda 1. Introdução (CSUC) 2. Repositórios de cooperação 3. Repositório de teses digitais (TDX) 4. Preservação do TDX
  • 7. Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009 Repositórios de cooperação
  • 8. TDX RECERCAT RACO PADICAT RECYT MDC MDX PADICYT CALAIX FILMOTECA SCIENTIA MACBA Repositórios digitais
  • 9. 2001 2005 2006 2006 2006 2006 2009 2009 2010 2012 2015 2015 Quase 15 anos de repositórios…
  • 10. Tese Trabalhos de pesquisa Revistas Websites Revistas Património colecções Materiais didáticos Websites Dept. Cultura Património cinematográfico Dept. Saúde Património artístico Conteúdo
  • 11. Texto (PDF) Texto (PDF) Texto (PDF) WARCs Texto (PDF) Imagem Texto (PDF) WARCs Texto, imagem, audiovisual Texto, imagem, audiovisual Texto, imagem, audiovisual Texto, imagem, audiovisual Formatos: texto, imagem, vídeo...
  • 12. DSpace DSpace OJS Heritrix, etc. OJS CONTENTdm DSpace Heritrix, etc. DSpace DSpace DSpace DSpace Programas: DSpace, OJS...
  • 13. Gestão de dados científicos Grupo de trabalho per: – Criação de uma política – Data Management Plans • Orientações (http://hdl.handle.net/2072/266523) • DMP Online instância de DCC – Repositório de dados de pesquisa • Orientações (http://hdl.handle.net/2072/266502) • Possível criação de um repositório cooperativo – Piloto
  • 14. Portal de pesquisa da Catalunha
  • 15. Other DRAC Universitas XXI GREC SIGMA Other DRAC Universitas XXI GREC SIGMA UNEIX Local and consortia repositories. Mainly DSpace Catalan government DataWarehouse PRC. Based on Dspace-CRIS (CINECA) 11 university CRIS systems (from 4 different vendors) Protocol: OAI-PMH/SWORD Format: DC Protocol: OAI-PMH Format: CERIF-XML Protocol: XLS files Format: UNEIX defined Portal de pesquisa da Catalunha
  • 16. Agenda 1. Introdução (CSUC) 2. Repositórios de cooperação 3. Repositório de teses digitais (TDX) 4. Preservação do TDX
  • 17. TDX em 2001 (80 GB, 8K access hits)
  • 18. TDX em 2016 (0.6 TB, 4.5M access hits)
  • 19. Estructura de TDX Cada universidade (18): • é uma Comunidade • Tem licenças de admissão de teses • Administra sua coleção • Personalização • Pesquisadores frontend Procedimentos e grupos de trabalho comum Universidades
  • 20. Estructura de TDX Departamentos e faculdades Teses
  • 21. Divulgação e preservação da tese URV UVic UdG UdL UV UJI UM UC UA UAB UPF UB Arquivos UIB Metadados Admissão das 18 universidades
  • 22. Divulgação da tese espanholas 33 33 33 33 33 33 33 33 OAI-PMH harvester da tese das 33 universidades espanholas
  • 23. CRIS CRIS CRIS Mais divulgação da teses DART Recol ecta Driver Tese europeia Trabalhos de pesquisa espanhol Trabalhos de pesquisa europeia … Motores de busca Outros colecionadores Portal de pesquisa da Catalunha CRIS CRIS CRIS
  • 24. Agenda 1. Introdução (CSUC) 2. Repositórios de cooperação 3. Repositório de teses digitais (TDX) 4. Preservação do TDX
  • 25. Long term preservation • The e-infrastructure must ensure the long term data access, without failure. • To succeed, it must be taken into account: – Replication (more than one copy) – Media refresh – Format migration – Data integrity (checksums) – Contingency and recovery plan – Preservation plan – ...
  • 26. Hardware migrations 2001 (cpu, disk and tapes) – HP N4000 2003 (cpu + disk) – HP rp5430 with 2 processors, 704 GB memory – HP EVA V.2 with 2,8 TB disk 2006 (cpu + tape) – High availability HP cluster with 32 nodes – Adic Scalar i2000 (from 9840 tapes to LTO3) 2009 (disk) – NetApp FAS3170 with 60 TB disk 2012 (cpu) – New High availability cluster 2016 (disk) – New storage cabine Born in a supercomputer!
  • 27. Software migrations 2001 – ETDdb from Virginia Tech 2005 – + OAI-PMH & statistics modules 2007 – + Spanish Thesis Harvester (MetaIndex module + X-Server libraries) from Ex Libris 2011 – DSpace 1.6 from MIT & HP labs 2013 – + Drupal for news & intranet … 2016 – DSpace 5.2
  • 28. Data integrity & Format migration • Data Integrity –Checksums on DSpace (online version) –Checksums on LOCKSS (dark copies) • Format migration –Not yet (PDF) –But Metadata migration yes • From HTML forms (ETDdb) to Dublin Core (DSpace)
  • 29. Replication • On disk - Online version (1) • One backup on the tape library (2) • Other backup on a fireproof cabinet (3) • Other backup on a 50 Km remote Centre (4) • A dark copy on the MetaArchive Cooperative – Private LOCKSS (Lots of Copies Keep Stuff Safe) Network – 7 more copies around the world (11) • And (possible) more copies on each University
  • 30. MetaArchive Cooperative • The Educopia Institute’s mission is help cultural, scientific, and scholarly institutions achieve greater impact • Lots of Copies Keep Stuff Safe (LOCKSS) • A private LOCKSS network (PLN) • Centralized facilities (conspectus, svn…) • P2P secure network of “cache” nodes
  • 31. Marketing... “With others, you can accomplish what you cannot accomplish alone” “Don’t put all your eggs in one basket”
  • 32. Private LOCKSS Networks (PLNs) • Alabama Digital Preservation Network (ADPN). • CLOCKSS Archive. • Council of Prairie and Pacific University Libraries (COPPUL) • Data Preservation Alliance for the Social Sciences (Data-PASS) • Digital Commons. • Digital Federal Depository Library Program. • CARINIANA Instituto Brasileiro de Informaçãoem Ciência e Tecnologia • Lukll. • MetaArchive Cooperative. • PKP Public Knowledge Project. • PNAS Proceedings of the National Academy of Sciences. • Persistent Digital Archives and Library System – PeDALS. • SAFE (SAFE Archiving FEderation). • Synergies. • UK LOCKSS Alliance Fonte: www.lockss.org/community/networks
  • 33. 50 instituições em 3 países
  • 34.
  • 35.
  • 36.
  • 39. Private LOCKSS network • 7 copies with widespread geographical distribution • All 7 servers revisit on a regular basis to pick up new and changed content • Versioning (no remove changed content) • Checksums file integrity control
  • 40. Benefits – Distributed archiving of digitals collections across multiple geographically distributed preservation sites – Retrieval of contents in case of catastrophic loss – Assistance with installation and maintenance of the technical solution – Reports, coordination web conference…
  • 41. Responsibilities Initially: – Local LOCKSS installation (cache) – Define a data preservation strategy (Data Wrangling) for your “particular” repository – Rules design for the other cache to harvest your repository (Plugin) – Enroll your collections in a central database (Conspectus)
  • 42. Responsibilities Periodically: – Add collections (of others) assigned centrally – Apply firewall changes (IP active list) – Apply updates – Coordination with the MetaArchive staff and others cache if a restore (for disaster) is needed
  • 43. Nuestra experiencia con MetaArchive – Fácil modelo – Relativamente barata – Eu comprovada (em casos reais) – Precisamos conhecimento técnico – É apropriado para o conteúdo bem definido – Formato agnóstico, “solo" preserva arquivos
  • 44. Bibliografia – A Guide to Distributed Digital Preservation. K. Skinner and M. Schultz, Eds. (Atlanta, GA: Educopia Institute, 2010). http://metaarchive.org/sites/metaarchive.org/files/GDDP_Educopia.pdf – Miquel Térmens: Preservación digital. Barcelona, Editorial UOC, 2014. ISBN:978- 84-9064-082-1. – Ricard de la Vega. "Preservació digital al núvol." Item: revista de biblioteconomia i documentació, 2013,Núm. 57 . http://www.raco.cat/index.php/Item/article/view/269708/372314 – Huguet, Miquel ; Anglada i de Ferrer, Lluís M. ; Vega, Ricard de la. "Catalan Policies and Experiences on Cooperative Repositories". Centre de Supercomputació de Catalunya. 2007. http://hdl.handle.net/2072/4083