Le studio SAPHIR pour segmenter et décrire des documents audiovisuels, visuel...
Meta archivesetatdel art
1. Métadonnées archivistiques : état de l'art
● Le modèle FRBR
● MARC
● MODS
Description, pérennisation, interopérabilité
Pascal Romain CC-By-Sa 1
Pascal Romain CC-By-Sa 29/03/2011 journées Arkhéia
2. Métadonnées archivistiques : état de l'art
μετά
Plan
Modèles conceptuels
Paquets d'information
Contextualisation
Pascal Romain CC-By-Sa 29/03/2011 2 / 29
3. Métadonnées archivistiques : état de l'art
μετά
Modèles conceptuels > définition
Métadonnée : Une métadonnée est une donnée servant à définir ou décrire
une autre donnée quel que soit son support (papier ou électronique).Porteuse
d'information sur le contexte, le sens et la description de la ressource
informationnelle portée par la donnée brute.
OAIS : (open archival information system) système ouvert d'information
archivistique. Modèle conceptuel décrivant les entités et leurs relations
organisant le cycle de vie des données en vue de leur conservation à long terme.
RDF : (resource description framework) cadre de description de ressources RDF
est un outil d'unification conceptuelle et technique de la métadonnée.
C'est un langage de métadonnées qui a pour but d'exprimer de façon standard les
métadonnées sous forme de propriétés des ressources.
Pascal Romain CC-By-Sa 29/03/2011 3 / 29
5. Métadonnées archivistiques : état de l'art
μετά
Modèles conceptuels > OAIS
système ouvert d'archivage
Pascal Romain CC-By-Sa 29/03/2011 5 / 29
6. Métadonnées archivistiques : état de l'art
μετά
Modèles conceptuels > RDF
Cadre de description de ressources
RDF : un modèle conceptuel de données basé sur la notion de triplet
(Ressource à décrire – propriété applicable à l'objet – valeur de la propriété)
base de données relationnelles base de données hiérarchique base de données en graphe
Par exemple Oracle ou MySQL Par exemple fichiers XML Par exemple RDF
sujet
sujet objet objet sujet prédicat
sujet
objet objet
objet objet prédicat
prédicat
objet
sujet
objet objet prédicat
objet
objet
Pascal Romain creative commons 29/03/2011 6 / 29
7. Métadonnées archivistiques : état de l'art
μετά
Plan
Modèles conceptuels
Paquets d'information
Contextualisation
Pascal Romain CC-By-Sa 29/03/2011 7 / 29
8. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > SIP et AIP
Paquet d'information à verser ou à archiver
La donnée à prendre en charge est décrite par des propriétés:
- producteur
- identifiant
- contenu
versement gestion - ...
Intégrée au système d'archivage elle dispose d'attributs:
- date de création
- localisation
- droits d'accès
stockage - description
-…
Elle est décrite au sein d'un cadre de description contextuel
qui doit garantir son intelligibilité, son intégrité et son
interopérabilité informationnelle
Pascal Romain CC-By-Sa 29/03/2011 8 / 29
9. Métadonnées archivistiques : état de l'art
μετά
Modèle conceptuel > OAIS > SIP
Paquet d'information à verser
Plusieurs schémas de données décrits dans le format XML permettent de décrire
les propriétés et les attributs des paquets d'information pris en charge par le
système d'archivage.
versement gestion
Le schéma SEDA (Schéma d’Échange des Données d'Archivage) permet de
décrire les relations entre le service versant et le service d'archives au cours des
opérations de transfert, de communication, de modification, d'élimination ou de
stockage
restitution d’archives.
Le schéma METS (Metadata Extensible Transport System) vise à fournir un méta-
modèle pour l'encapsulation d'autres formats de métadonnées.
Il peut servir de carte d'identité et de suivi du versement au stockage
Le schéma PREMIS (Preservation Metadata: Implementation Strategies) répond
au besoin de pérennisation de l'information numérique et de conservation du
cycle de vie des données (import dans un entrepôt de donnée, migration, gestion
d'intégrité, liens entre différentes représentations d'un même document).
Pascal Romain CC-By-Sa 29/03/2011 9 / 29
10. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > SIP
Paquet d'information à verser: SEDA
Le schéma SEDA permet d'automatiser les procédure d'échange d'information en décrivant les règles
contractuelles qui régissent le versement et la prise en charge d'un paquet d'information. Les schémas
SEDA décrivent les contraintes (format, support, identification) et fournissent un historique des
opérations effectuées (transfert, réception, destruction, modification, etc...)
La grammaire XML permet de définir des règles formelles vérifiables par les machines (est égal à, ne peut
pas être différent de, n'existe qu'en un seul exemplaire, provient de, etc...)
Description Versement
Objet Service
Archive
Archive
Pascal Romain CC-By-Sa 29/03/2011 10 / 29
11. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > SIP et AIP
Paquet d'information à verser ou à archiver: METS
Le schéma METS vise à fournir un méta-modèle pour l'encapsulation d'autres formats de métadonnées.
Ce schéma XML composé de 7 section est extrêmement flexible. Il permet notamment de représenter
l'information sous forme de carte de structure et s'implémenter le modèle conceptuel OAIS. Maintenu par
la Bibliothèque du Congrès, il constitue un format pivot entre la logique de diffusion et celle de
conservation de l'information.
Description structure
Fichier Droits
Archive
Archive
Pascal Romain CC-By-Sa 29/03/2011 11 / 29
12. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > SIP et AIP
Paquet d'information à verser ou à archiver: METS
METS : le modèle de données
Basé sur un système de liens internes entre les
différentes sections, il peut également être utilisé
pour faire référence à des informations stockées
dans d'autres fichiers XML.
Il est notamment utilisé lorsque l'information
conservée dans le système d'archivage dispose de
plusieurs représentations (PDF/A, OCR ALTO,
jpeg, Tiff) ou que l'on souhaite décrire l'information
avec une granularité plus fine (article, partie
d'article, pièce)
Pascal Romain CC-By-Sa 29/03/2011 12 / 29
13. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > SIP et AIP
Paquet d'information à verser ou à archiver: METS
METS : exemple de structuration :
- un fichier METS par article ou monographie
- métadonnées descriptives en EAD, SEDA ou
RDF
- métadonnées administratives en MIX et PREMIS
- carte de structure physique pour les fichiers
images et les éventuels fichiers texte
- carte de structure logique permettant de décrire
des parties d'article
Pascal Romain CC-By-Sa 29/03/2011 13 / 29
14. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > AIP
Paquet d'information à archiver: PREMIS
Le modèle de données PREMIS Entités
intellectuelles Déclaration
De
droits
Objets Agents
Evénements
exemple
Pascal Romain CC-By-Sa 29/03/2011 14 / 29
15. Métadonnées archivistiques : état de l'art
μετά
Modèle conceptuel > OAIS > AIP
Paquet d'information à archiver: PREMIS
Le modèle de données PREMIS : objet
Les objets décrits en PREMIS disposent d'un identifiant unique. Les règles de conservation peuvent y être
décrites (preservationLevelValue) et les résultats des contrôles d'intégrité peuvent y être conservés
IDENTIFIANT
OBJET <premis:objectIdentifier>
<premis:object
<premis:objectIdentifierType>local
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
<premis:objectIdentifierValue>FRAD033_44W064_0001
xsi:type="premis:file" xmlID="FILE1_object">
INTÉGRITÉ
<premis:messageDigestAlgorithm>MD5
<premis:messageDigest>bbae8bf648f794b1329af31
<premis:messageDigestOriginator>SAE AD33
Pascal Romain CC-By-Sa 29/03/2011 15 / 29
16. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > AIP
Paquet d'information à archiver: PREMIS
Le modèle de données PREMIS : event
L'ensemble des évènements affectant le paquet d'information pris en charge au sein du système
d'archivage peut être documenté. Chaque événement est lié à un objet et à un agent
IDENTIFIANT
EVENEMENT <eventIdentifier>
<eventIdentifierType>INTERNAL_XML_ID <eventIdentifierType>INTERNAL_XML_ID
<eventIdentifierValue>PROV2 <eventIdentifierValue>PROV1
</eventIdentifier> </eventIdentifier>
<eventType>METADATA_MODIFICATION
<eventDateTime>2010-09-22
<eventDetail>métadonnées descriptives
modifiées manuellement
AGENT
<linkingAgentIdentifier LinkAgentXmlID="APP3_AGENT1">
<linkingAgentIdentifierType>URI
<linkingAgentIdentifierValue> mailto:p.romain@cg33.fr
<linkingAgentRole>EVENT_INITIATOR
</linkingAgentIdentifier>
Pascal Romain CC-By-Sa 29/03/2011 16 / 29
17. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > AIP
Paquet d'information à archiver: PREMIS
Le modèle de données PREMIS : agent
Les agents sont uniques au sein du système d'archivage et peuvent être de type homme ou machine
IDENTIFIANT
<agentIdentifier>
<agentIdentifierType>URI
TYPE <agentIdentifierValue> mailto:p.romain@cg33.fr
<agentType>PERSON</agentType> </agentIdentifier>
<agentType>SOFTWARE</agentType>
AGENT
<agentName>Pascal Romain</agentName>
<agentName> Aide au classement v3.4 </agentName>
Pascal Romain CC-By-Sa 29/03/2011 17 / 29
18. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > AIP et DIP
Paquet d'information à archiver et à diffuser
La donnée à gérer est décrite par des propriétés:
- producteur
- identifiant
- contenu
gestion diffusion - contexte
Lors des demandes de communication, elle est caractérisée par
des attributs:
- format
- localisation
stockage - droits d'accès
- description
-…
Elle est décrite au sein d'un cadre de description qui doit
permettre son accès, sa sécurité et sa mise en relation
contextuelle
Pascal Romain CC-By-Sa 29/03/2011 18 / 29
19. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > DIP
Paquet d'information à diffuser: Dublin Core
Dublin Core : permet l'interopérabilité entre des données d'un domaine ou entre
des domaines hétérogènes (PPDC)
<dc:title>Port de Bordeaux : entrée des navires (1645-1647)</dc:title>
<dc:creator>Amirauté de Guyenne</dc:creator>
<dc:subject xml:lang="fre">Bordeaux</dc:subject>
<dc:description>Rapports à l'entrée des navires dans le port de
Bordeaux.</dc:description>
<dc:publisher>Archives départementales de la Gironde</dc:publisher>
<dc:date>1645-1647</dc:date>
<dc:type>text</dc:type>
<dc:format>image/jpeg</dc:format>
<dc:identifier>FRAD033_6B_64</dc:identifier>
<dc:source>6 B 215</dc:source>
<dc:language>FR_fre</dc:language>
<dc:relation>Amirauté de Guyenne.Attribution
Administratives</dc:relation>
<dc:coverage>Bordeaux. 1645-1647</dc:coverage>
<dc:rights>domaine public</dc:rights>
Pascal Romain CC-By-Sa 29/03/2011 19 / 29
20. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > DIP
Paquet d'information à diffuser: EAD/EAC
EAD: Encoded Archivistic Description
L'EAD permet de décrire un fonds d'archives ou d'ouvrages de manière hiérarchique du
général au particulier. Il permet d'indexer les notices descriptives et de lier ces descriptions à
des substituts numériques
Eadheader Archdesc / C
Identifiant producteur controlAccess dao
Pascal Romain CC-By-Sa 29/03/2011 20 / 29
21. Métadonnées archivistiques : état de l'art
μετά
Paquets d'information > DIP
Paquet d'information à diffuser : EAD/EAC
EAC (Encoding Archival Creator) : ce schéma vise à décrire les producteurs d'archives en s'appuyant
sur la norme de description internationale ISAAR-CPF et en utilisant un schéma XML pour retracer
l'historique d'une entité administrative ou morale. [http://eac.staatsbibliothek-berlin.de/]
●Il permet une redéfinition de la notion de contexte de production et d’utilisation des archives
l'EAC-CPF se concentre seulement sur la description des Collectivités, des personnes et des
familles. Il est basé sur une approche de modélisation orientée-objet et utilise les normes XML
(schéma, Xlink, attributs)
recordId
control
eac-cpf sources
identity
biogHist
cpfDescription description place
function
occupation
existDates
relations
multipleIdentities
cpfDescription
Pascal Romain CC-By-Sa 29/03/2011 21 / 29
22. Métadonnées archivistiques : état de l'art
μετά
Plan
Modèles conceptuels
Paquets d'information
Contextualisation
Pascal Romain CC-By-Sa 29/03/2011 22 / 29
23. Métadonnées archivistiques : état de l'art
μετά
Contextualisation > semantique
Paquet d'information semantique: RDF
RDF : un cadre conceptuel de description
➢
RDF n'est pas lié à une syntaxe particulière mais c'est en XML que sont publiés la plupart
des vocabulaires standard (RDFS, FOAF, SKOS, OWL) qui utilisent le modèle de données en
graphe.
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:aspect="http://www.linkeddatatools.com/vetements-aspects#">
<rdf:Description rdf:about="http://www.linkeddatatools.com/vetement#chemise">
Je décrit un sujet « chemise » et je lui donne un identifiant unique http://www.linkeddatatools.com/vetement#chemise
<aspect:taille>42</feature:taille>
Je donne sa taille
<aspect:couleur rdf:resource="http://www.linkeddatatools.com/couleur#blanc"/>
et sa couleur
C'est-à-dire ce sujet (chemise) a un prédicat (propriété) dont le nom est « feature:color » avec un objet faisant référence au sujet
dont l'identifiant unique est http://www.linkeddatatools.com/colors#white"
<rdf:Description rdf:about="subject">
<predicate rdf:resource="object" /> prédicat de type objet
<predicate>literal value</predicate> prédicat de type litéral
<rdf:Description>
Un sujet dans un document RDF peut aussi être référencé comme un objet d'une propriété (dans l'attribut
ressource) dans une autre déclaration RDF
Pascal Romain CC-By-Sa 29/03/2011 23 / 29
24. Métadonnées archivistiques : état de l'art
μετά
Contextualisation > sémantique
Paquet d'information sémantique: RDF
Le modèle
RDF EAD
Pascal Romain CC-By-Sa 29/03/2011 24 / 29
25. Métadonnées archivistiques : état de l'art
μετά
Contextualisation > thésaurii
Paquet d'information indexé: SKOS
SKOS (Simple Knowledge Organisation System) est construit sur la base du langage
RDF, et son principal objectif est de permettre la publication facile de vocabulaires
structurés pour leur utilisation dans le cadre du Web sémantique.
SKOS est actuellement développé dans le cadre du W3C et cherche à être au
maximum compatible avec les standards qui définissent les thésaurus.
Le thésaurus W existe en SKOS
http://www.archivesdefrance.culture.gouv.fr/gerer/classement/normes-outils/thesaurus/
<skos:Concept rdf:about="http://$base/resource/T1-228">
<skos:prefLabel xml:lang="fr">télédiffusion
<skos:altLabel xml:lang="fr">télévision numérique
<skos:altLabel xml:lang="fr">télévision câblée
<skos:altLabel xml:lang="fr">télévision
<skos:altLabel xml:lang="fr">chaîne de télévision
3.1 MESSAGERIE <skos:broader rdf:resource="http://$base/resource/T1-915"/>
TELEDIFFUSION <skos:narrower rdf:resource="http://$base/resource/T1-219"/>
EP chaîne de télévision <skos:related rdf:resource="http://$base/resource/T1-1350"/>
EP télévision <skos:inScheme rdf:resource="http://$base/resource/Matiere"/>
EP télévision câblée </skos:Concept>
EP télévision numérique
TA REDEVANCE PARAFISCALE (1.4.) <skos:Concept rdf:about="http://$base/resource/T1-219">
SOCIETE DE TELEDIFFUSION PRIVEE <skos:prefLabel xml:lang="fr">société de télédiffusion privée
TA ENTREPRISE DE SPECTACLE (11.1.) <skos:broader rdf:resource="http://$base/resource/T1-228"/>
<skos:related rdf:resource="http://$base/resource/T1-1350"/>
<skos:inScheme rdf:resource="http://$base/resource/Matiere"/>
Pascal Romain CC-By-Sa 29/03/2011 25 / 29
26. Métadonnées archivistiques : état de l'art
μετά
Contextualisation > mise en relation
Paquet d'information aligné: OWL
OWL: langage d'ontologie pour le web (OWL 1 et 2)
Ontologie: défini de manière formelle, pour un domaine de connaissance, les concepts qui
permettront de décrire les « choses » de façon non ambiguë, et les règles contraignant ces
descriptions
Cette norme comprend les éléments suivants :
- les types de choses : classes
Ex : Document, Livre, Personne
- les propriétés ou attributs des choses
Ex : auteur, date de publication
- les contraintes éventuelles qui relient celles-ci à celles-là
Ex : Un livre est un document, un livre a au moins un auteur, une personne n'est pas un
document
Pascal Romain CC-By-Sa 29/03/2011 26 / 29
27. Métadonnées archivistiques : état de l'art
μετά
Contextualisation > mise en relation
Paquet d'information dynamique: SPARQL
SPARQL est le couteau suisse du web sémantique
Comme SQL, SPARQL sélectionne les données retournées par la requête en utilisant la
déclaration SELECT pour déterminer quel sous-ensemble de donnés doit être retourné.
SPARQL utilise également la clause WHERE pour définir les modèles de graphes pour
trouver une réponse au sein du jeu de réponse.
Un modèle de graphe dans la clause SPARQL WHERE consiste dans un triplet sujet,
propriété objet pour trouver une réponse dans les données
La requête SELECT requiert de retourner la variable ?type.
En SPARQL, les noms des variables sont préfixées par le symbole point d'interrogation("?") .
Dans un modèle de requête de graphe , ils correspondent à n'importe quel noeud – une
ressource ou un litéral
Pascal Romain CC-By-Sa 29/03/2011 27 / 29
28. Métadonnées archivistiques : état de l'art
μετά
Contextualisation > web de données
Paquet d'information diffusé: RDF
Le web de données ou semantic Web doit permettre aux machines de
comprendre le contenu des notices archivistiques et d'offrir à terme des agents
intelligents autorisant des nouveaux usages des données
Pascal Romain CC-By-Sa 29/03/2011 28 / 29
29. Merci pour votre attention
contact : p.romain@cg33.fr ou @keronos
Pascal Romain CC-By-Sa 29