Στις μέρες μας, ο ρυθμός παραγωγής πληροφοριών είναι άνευ προηγουμένου. Από την ίδρυσή του, το CERN παράγει πληροφορίες που είναι σημαντικές για την επιστημονική κοινότητα και δεν μπορούν να αναπαραχθούν στο μέλλον. Είναι ευθύνη ενός οργανισμού σαν το CERN να διασφαλίσει ότι αυτές οι πληροφορίες διατηρούνται με τρόπο που θα τις κάνει διαθέσιμες στις μελλοντικές γενιές.
Το Digital Memory Project δημιουργήθηκε για να λύσει αυτό το πρόβλημα αναπτύσσοντας ένα ψηφιακό αρχείο για το CERN, συμβατό με το πρωτόκολλο Open Archival Information System (OAIS). Με τη χρήση αυτού του συστήματος, οι ερευνητές θα μπορούν να αρχειοθετούν τα δεδομένα τους τα οποία θα επεξεργάζονται και θα αποθηκεύονται με τρόπο που να μεγιστοποιεί τις πιθανότητες ότι αυτά τα δεδομένα θα είναι προσβάσιμα στο μέλλον. Σε αντίθεση με άλλα υλοποιημένα συστήματα, η προτεινόμενη λύση είναι πλήρως συμβατή με το OAIS, είναι ενσωματωμένη με υπάρχοντα αποθετήρια του CERN ενώ ο χρήστης μπορεί εύκολα να διαχειρίζεται και να παρακολουθεί τις ενέργειες που εκτελούνται σε ένα αρχειακό πακέτο. Οι διαθέσιμες λύσεις είτε δεν συμμορφώνονται πλήρως με το πρότυπο, είτε αποτελούσαν βραχυπρόθεσμα έργα που δεν συντηρούνται ή δεν είναι ανοιχτού κώδικα και διαθέσιμα με αυτό τον τρόπο στην ερευνητική κοινότητα.
Σε αυτή την εργασία, θα παρουσιάσουμε μια υλοποίηση ενός αρχείου συμβατό με το πρότυπο OAIS για το CERN. Αρχικά, υλοποιούμε ένα εργαλείο που μπορεί να χρησιμοποιηθεί για τη συλλογή δεδομένων από διάφορες πηγές του CERN όπως τα CDS, Indico, CERN Open Data, Gitlab και CodiMD σε μορφή συμβατή με το OAIS που ονομάζεται Submission Information Package (SIP). Αυτό το πακέτο μπορεί να χρησιμοποιηθεί από την πλατφόρμα προκειμένου να δημιουργηθούν τα πακέτα αρχειοθέτησης που μπορούν να αποθηκευτούν για μακροχρόνια διατήρηση. Αυτά τα πακέτα περιέχουν πρόσθετα μεταδεδομένα και κανονικοποίηση του περιεχομένου που θα εγγυηθούν τη μακροπρόθεσμη επιβίωση του περιεχομένου πληροφοριών. Επιπλέον, δείχνουμε πόσο εύκολο είναι για έναν χρήστη να δημιουργήσει, να παρακολουθεί και να ομαδοποιήσει τα αρχεία του χρησιμοποιώντας τη διεπαφή χρήστη που αναπτύχθηκε. Η πλατφόρμα μπορεί εύκολα να αναπτυχθεί και να χρησιμοποιηθεί από οποιονδήποτε μέσω του Openshift. Τέλος, συζητάμε πώς μπορεί να βελτιωθεί η απόδοση της πλατφόρμας και δείχνουμε ότι τα πακέτα που προκύπτουν καθώς και η πλατφόρμα στο σύνολό της είναι πλήρως συμβατή με το OAIS.
3. Ευρωπαϊκός Οργανισμός Πυρηνικών Ερευνών (CERN)
4
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Ιδρύθηκε το 1954 και είναι το μεγαλύτερο εργαστήριο
πυρηνικής και σωματιδιακής φυσικής στον κόσμο
• Βρίσκεται στα σύνορα Ελβετίας και Γαλλίας και
εργάζονται περίπου 20.000 άτομα από όλο τον κόσμο
• Για τα πειράματα χρησιμοποιείται ένα σύστημα επιταχυντών
σωματιδίων.
• Ο μεγαλύτερος επιταχυντής είναι ο Μεγάλος Επιταχυντής
Αδρονίων (LHC) με περίμετρο 27 χιλιόμετρα.
• Οι συγκρούσεις πραγματοποιούνται σε 4 τοποθεσίες που
υπάρχουν οι αντίστοιχοι 4 ανιχνευτές (CMS, ATLAS, Alice, LHCb)
4. Δεδομένα στο CERN
5
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Ο όγκος των δεδομένων που παράγεται
καθημερινά είναι τεράστιος.
• Περιλαμβάνει μετρήσεις από πειράματα,
datasets, βιβλιογραφία, έγγραφα, papers,
πολυμέσα κλπ.
• Πολλά από αυτά είναι μεγάλης επιστημονικής
αξίας και δεν μπορούν να αναπαραχθούν στο
μέλλον.
• Οφείλουμε να προφυλάσσουμε αυτά τα δεδομένα
και να σιγουρέψουμε ότι θα είναι διαθέσιμα στις
επόμενες γενιές
5. Κίνδυνοι απώλειας δεδομένων
6
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Σφάλμα Υλικού: Αλλαγή των αποθηκευμένων bits χωρίς μεθόδους ανάκτησης (π.χ.
Αθροίσματα Ελέγχου [Checksums])
• Απώλεια Υλικού (π.χ. Large Electron-Positron Collider)
• Απαρχαίωση: Δεν υπάρχει λογισμικό να ανοίξει τον τύπο αρχείου ή δεν ανοίγει
σωστά.
• Ελλιπής περιγραφή: Το αρχείο υπάρχει αλλά δεν υπάρχει σωστή περιγραφή και
ευρετηριοποίηση ώστε το αρχείο να είναι προσβάσιμο.
• Μη εκτίμηση της αξίας των δεδομένων (π.χ. πρώτη ιστοσελίδα στο CERN)
• Αναβαθμίσεις υλικού και μετεγκατάσταση δεδομένων
• Ανθρώπινα λάθη & Κυβερνοεπιθέσεις
6. CERN Digital Memory Project
7
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Δημιουργήθηκε στο CERN το 2016 με σκοπό να λύσει τα
τα παραπάνω προβλήματα.
• Να ψηφιοποιήσει αρχεία που βρίσκονταν ακόμη σε
αναλογική μορφή (π.χ. έγγραφα, δισκέτες,
φωτογραφίες και παρουσιάσεις)
• Να δημιουργήσει ένα ψηφιακό αρχείο για το CERN και
να ενσωματώσει τις τεχνικές ψηφιακής διατήρησης
(data preservation) στα υπάρχοντα αποθετήρια του
CERN.
• Να δημιουργήσει μία εφαρμογή μέσω τις οποίας οι
χρήστες θα μπορούν να διατηρούν και να
αρχειοθετούν τα δεδομένα τους.
7. Στόχος Διπλωματικής Εργασίας
8
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Η δημιουργία μίας εφαρμογής μακροχρόνιας
διατήρησης δεδομένων για το CERN σύμφωνα με το
πρότυπο Open Archival Information System (OAIS).
8. OAIS (Open Archival Information System)
9
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Πακέτο υποβολής – Submission Information Package (SIP): Περιέχει το αρχικό περιεχόμενο
• Πακέτο αρχείου – Archival Information Package (AIP): Δημιουργείται για να εγγυηθεί την
επιβίωση της πληροφορίας στο μέλλον.
• Πακέτο διάχυσης – Dissemination Information Package (DIP): Προέρχεται από το AIP
κατόπιν αιτήματος ενός χρήστη.
9. Απαραίτητες προϋποθέσεις OAIS
10
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Να διαπραγματεύεται για την δομή και τον τύπο των αρχείων που αποδέχεται τις
πληροφορίες από τους Παραγωγούς.
Να έχει τον έλεγχο των πληροφοριών.
Να καθορίζει ποια είναι η καθορισμένη κοινότητα και να βεβαιωθεί ότι οι
πληροφορίες είναι κατανοητές.
Να βεβαιώσει ότι οι πληροφορίες διατηρούνται έναντι όλων των πιθανών
κινδύνων.
Να βεβαιώσει ότι το αρχείο παραμένει αναλλοίωτο και πιστό αντίγραφο ως προς το
πρωτότυπο.
Να διαθέσει τις πληροφορίες στην καθορισμένη κοινότητα.
10. Παρόμοιες Προσεγγίσεις
11
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Δεν είναι πάντα συμβατές με το πρότυπο OAIS (ePrints, DSpace)
Βραχυπρόθεσμα έργα με μη συνεχή χρηματοδότηση (eARK)
Διακοπή χρηματοδότησης και αποσυναρμολόγηση (DAITSS)
Προγράμματα μη διαθέσιμα στην ερευνητική κοινότητα σαν ανοικτού
κώδικα (SPAR)
11. CERN SIP
12
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
• Αποτελεί τον τύπο αρχείου που
αποδέχεται το σύστημα από
τους παραγωγούς.
• Βασίζεται στο πρότυπο BagIt
File Packaging Format.
sip::cds::547698::1567483649
bag-info.txt
manifest-md5.txt
bagit.txt
data
CERN SIP Πρότυπο
Απαραίτητα
Περιγραφικά
Δεδομένα
BagIt File
Packaging
Format v0.97
meta
sip.json
bagit-create.log
SIP metadata
Creation logs
Bag information
Checksums
Creation info.
content
document.pdf
metadata.xml
Original file
Upstream metadata
12. BagIt Create
13
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Εργαλείο που επιτρέπει στο χρήστη να δημιουργήσει ένα πακέτο υποβολής (SIP) σύμφωνα με
την προδιαγραφή του CERN SIP.
BagIt Create
Εγγραφές σε αποθετήρια
Τοπικά αρχεία
ΕΙΣΟΔΟΣ
CDS Invenio Zenodo Indico CodiMD Gitlab
EΞΟΔΟΣ
Πακέτο
CERN
SIP
13. OAIS Platform
14
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Παρέχει έναν εύκολο τρόπο συλλογής πληροφοριών από τα
αποθετήρια και δημιουργίας πακέτων υποβολής SIP (χρησιμοποιώντας
το εργαλείο BagIt-create).
Επικυρώνει πακέτα υποβολής SIP ως προς την συμβατότητα με την
προδιαγραφή CERN SIP και να επικυρώνει το άθροισμα ελέγχου.
Ελέγχει την ροή εργασιών διατήρησης και διατηρεί ένα μητρώο.
Μπορεί να χρησιμοποιηθεί μέσω του API ή μέσω της διεπαφής χρήστη.
15. Χρήση του Archivematica
16
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Ανοιχτού κώδικα λογισμικό που χρησιμοποιείται από πολλά ιδρύματα και υπηρεσίες και
έχει ενεργή κοινότητα.
Παρέχει εργαλεία για την μετατροπή του SIP σε AIP συμβατά με το πρότυπο OAIS.
Επικύρωση SIP Antivirus Scan
Κανονικοποίηση
αρχείων
Προσθήκη
απαραίτητων
μεταδεδομένων
Προσθήκη
αρχείου
README
Δημιουργία AIP
Καθορίζεται από τον διαχειριστή.
π.χ. όλες οι φωτογραφίες να μετατρέπονται σε .jpeg
Περιγραφή του
προτύπου και του
πακέτου
17. Ανάπτυξη Συστήματος
18
OAIS Platform Archivematica
Django
Application
Database
Celery
(Εκτελεστής
Εργασιών)
Redis
(in-memory
data store)
Dashboard
ClamAV
(Antivirus)
Storage
Service
MCP Server
(Scheduler)
MCP Client
(Runner)
Elasticsearch
Database
Fits
(File
identification
& Metadata
Extraction)
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
18. Ανάπτυξη Συστήματος
19
Το σύστημα αποτελείται από πολλά επί μέρους προγράμματα που
δημιουργούν προβλήματα συνδεσιμότητας και αλληλεξάρτησης.
Τοποθέτηση όλων των διαφορετικών εργαλείων σε εικονικά περιβάλλοντα
(containers).
Χρήση λογισμικού ενορχήστρωσης (container orchestration) για έξυπνη
κλιμάκωση, καλύτερη διαχείριση πόρων και αυτοματοποίηση
λειτουργιών.
Για την ανάπτυξη του συστήματος επιλέξαμε το Openshift, μια
διαδικτυακή πλατφόρμα διαχείρισης ενορχήστρωσης containers.
Επιτρέπει την έξυπνη διαχείριση και ανάπτυξη του συστήματος καθώς και
τον καθορισμό πολιτικών σε περίπτωση σφάλματος.
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
19. Μετρήσεις & Απόδοση
20
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Για τον έλεγχο της απόδοσης χρησιμοποιήθηκε σε όλα τα πειράματα ο
ίδιος συνδυασμός αρχείων συνολικού μεγέθους 810ΜΒ
Παραμετροποίηση των πόρων στο Openshift για την εύρεση της
κατάλληλης διαμόρφωσης.
Έλεγχος χρόνου και μετρήσεων μέσω PromQL που προέρχονται από την
εφαρμογή του Openshift.
20. Μετρήσεις & Απόδοση
21
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
0:02
0:10
0:17
0:24
0:31
0:38
0:46
0:53
1:00
1 Runner 1 Runner with increased RAM 2 Runners with increased RAM 2 Runners with increased CPU + RAM
Μέσος Χρόνος Επεξεργασίας (ωω:λλ)
Μέσος Χρόνος Επεξεργασίας
21. Μετρήσεις & Απόδοση
22
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
0.00
0.20
0.40
0.60
0.80
1.00
1.20
1.40
1.60
1.80
2.00
1 Runner 1 Runner with increased RAM 2 Runners with increased RAM 2 Runners with increased CPU + RAM
Ταχύτητα Επεξεργασίας (MB/s)
Ταχύτητα Επεξεργασίας (MB/s)
22. Παραγόμενο Αρχείο AIP
23
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Κανονικοποιημένο
αρχείο (Μορφή PDF/A)
Αρχείο README
Metadata σύμφωνα με
το πρότυπο OAIS
Logs
Checksums
23. Συμβασιμότητα με το πρότυπο OAIS
24
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
Προϋπόθεση Υλοποίηση
1. Διαπραγματεύεται για την δομή και τον τύπο των αρχείων
που αποδέχεται τις πληροφορίες από τους Παραγωγούς.
Τα δεδομένα που αποδέχονται πρέπει να
βασίζονται στο πρότυπο CERN SIP. ✅
2. Έχει τον έλεγχο των πληροφοριών ώστε να διασφαλίζεται η
μακροπρόθεσμη διατήρηση.
Πλήρης έλεγχος των πληροφοριών αφού
διατηρούνται στην βάση δεδομένων και προβολή
μέσω της διεπαφής χρήστη. ✅
3. Καθορισμός κοινότητας και να βεβαίωση ότι οι πληροφορίες
είναι κατανοητές
Προσωπικό και ερευνητές του CERN. Πρόσβαση
μέσω ιδρυματικού λογαριασμού. ✅
4. Οι πληροφορίες διατηρούνται έναντι όλων των πιθανών
κινδύνων και ότι το αρχείο δεν θα διαγραφεί ποτέ εκτός εάν
υπάρξει αλλαγή πολιτικής.
Τα μεταδεδομένα, το αρχείο README, καθώς και το
πακέτο AIP εγγυούνται ότι οι πληροφορίες θα είναι
κατανοητές και προσβάσιμες στο μέλλον. ✅
5. Βεβαίωση ότι το αρχείο είναι αναλλοίωτο και
επικαιροποιημένο ως προς το πρωτότυπο.
Όλα τα βήματα επεξεργασίας καταγράφονται και
υπάρχει αναφορά στο αρχικό αρχείο. ✅
6. Οι πληροφορίες είναι διαθέσιμες στην καθορισμένη
κοινότητα.
Ο χρήστης μπορεί να συνδεθεί με τον ιδρυματικό
λογαριασμό του και να έχει πρόσβαση στις
πληροφορίες του. ✅
24. Μελλοντική Έρευνα
25
Ενοποίηση με περισσότερες υπηρεσίες μακροπρόθεσμες ψηφιακής
αποθήκευσης (π.χ. CERN Tape Archive).
Περαιτέρω ενοποίηση με το InvenioRDM για ευρετηρίαση και
δημιουργία εκδόσεων.
Διαρκής ενημέρωση της πολιτικής διατήρησης και κανονικοποίησης
αρχείων στο Archivematica.
Γενικότερη βελτιστοποίηση του Archivematica για αύξηση της
απόδοσης.
Δημιουργία αρχείου διάχυσης DIP από την διεπαφή χρήστη.
Εισαγωγή Θεωρητικό Υπόβαθρο Σύστημα Αποτελέσματα Συμπεράσματα
26. Ψηφιακή διατήρηση (Digital Preservation)
27
• Στοχεύει να εξασφαλίσει τη χρηστικότητα και την προσβασιμότητα ψηφιακών
πληροφοριών με την πάροδο του χρόνου και των τεχνολογικών εξελίξεων.
• Καθορισμός πολιτικών για να εξασφαλισθεί ότι το αρχειοθετημένο
περιεχόμενο παραμένει προσβάσιμο μετά από πολλά χρόνια.
• Στόχος είναι η μείωση της πιθανότητας απώλειας δεδομένων με το μικρότερο
δυνατό κόστος.
34. PDI
35
Το πακέτο πληροφοριών περιέχει τις πληροφορίες περιεχομένου και τις πληροφορίες
περιγραφής διατήρησης (PDI).
Χωρίζεται σε πέντε τύπους πληροφοριών:
• Δεδομένα προέλευσης (περιγράφει την πηγή πληροφοριών)
• Δεδομένα πλαισίου (γιατί δημιουργήθηκε το πακέτο και η συσχέτισή του με άλλα
πακέτα)
• Δεδομένα αναφοράς (μοναδικό αναγνωριστικό για αναφορά στο πακέτο)
• Δεδομένα επαναφοράς (αθροίσματα ελέγχου)
• Δεδομένα πρόσβασης (ποιος έχει πρόσβαση σε αυτό το πακέτο)