10. Introduction
» Nature et structure du document numérique
La notion de document : d’une définition formelle à une approche par écosystème
Les types de fichiers : Les formats textes, les formats images, les formats multimédia
La granularité du document, structuration et déstructuration
» Produire et décrire le document numérique
Le cas de la numérisation
Le cas des de ePub
Les identifiants
» Les métadonnées
Les métadonnées pour la recherche
• Le cas des catalogues
• Le cas des moteurs
• Approche sémantique
Les métadonnées comme point d’accès
• Accès centralisés (catalogue et/ou moteur)
• Accès distribués fermés et ouverts (OAI, RSS et OPDS)
• L’interopérabilité sémantique
• Les nouvelles métadonnées (folksonomies)
• Multiplier les accès et multiplier les documents
» Les enjeux des accès et de la médiation:
Maitrise de la chaîne et des formats
Longue traine et économie de l’attention
Appréhender la collection numérique : le cas des bibliothèques
La médiation autour des documents numériques
10 Luc Bellier 2013
11. Le document numérique
» Nature et structure du document numérique : La notion de document
11 Luc Bellier 2013
12. Nature et structure du document numérique
» La notion de document
» Définition ISO (International Organisation for Standardization)
• Ensemble formé par un support et une information généralement enregistré
de façon permanente et tel qu’il puisse être lu par l’homme ou la machine
» Vocabulaire de la documentation
• Ensemble d’un support d’information, quel qu’il soit, des données
enregistrées sur ce support et de leur signification, servant à la consultation,
l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus,
film…Le tout constitue une unité autonome.
12 Luc Bellier 2013
13. Nature et structure du document numérique
» La notion de document
« Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un
système documentaire » Suzanne Briet 1951
Le vu, le lu, le su (Jean-Michel Salaün)
• Le vu : la forme, le support
• Le lu : le texte, le contenu, le fond
• Le su : le medium, l’attention, le système d’échange
» http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-la-publication/
» http://blogues.ebsi.umontreal.ca/jms/index.php/
13 Luc Bellier 2013
14. Nature et structure du document numérique
» La notion de document
» Le document ne peut être dissocié de ses environnements :
Fond, forme, destination font parti intégrante du document si celui-ci doit
s’inscrire dans un système (documentaire, d’échanges etc.)
En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces
trois dimensions, et traité en conséquence :
• La diffusion (médium)
• La forme (description, reproduction, déclinaisons de différents supports etc.)
• Le fond (la pertinence du contenu au regard des deux autres dimensions)
14
14 Luc Bellier 2013
15. Le document numérique
Nature et structure du document numérique : les formats de
fichiers
15 Luc Bellier 2013
16. Nature et structure du document numérique
Les formats de fichiers
16 Luc Bellier 2013
17. Nature et structure du document numérique
Les formats de fichiers
17
17 Luc Bellier 2013
18. Nature et structure du document numérique
Les formats de fichiers
18 Luc Bellier 2013
19. Nature et structure du document numérique
Les formats de fichiers
» Formats des documents numériques
» Convention utilisée pour représenter des données sous forme binaire
Image, texte, son...
Peut contenir des métadonnées
» Un format peut avoir plusieurs versions
PDF/A , PDF 1.4…
» Un format peut avoir différents profils d'application
Plusieurs « couches » possibles (formats capsules ou enveloppes)
Compression
» Formats propriétaires / ouverts / libres
19 Luc Bellier 2013
20. Nature et structure du document numérique
Les formats de fichiers
Métadonnées
20 Luc Bellier 2013
21. Nature et structure du document numérique
Les formats de fichiers
Métadonnées
21 Luc Bellier 2013
22. Nature et structure du document numérique
Les formats de fichiers
Métadonnées
22 Luc Bellier 2013
23. Le document numérique
» Nature et structure du document numérique : la granularité
23 Luc Bellier 2013
24. Nature et structure du document numérique
La granularité des documents numériques
Collection
Document Vue de
Volume, tome, détail
(notice
bibliographique) fascicule... Page (article)
Un document complexe peut avoir plusieurs niveaux d’accès ou
niveaux de granularité
Document simple : pas de problème de structure en soi, mais peut
tout de même avoir plusieurs niveaux d’accès
Lot Vue de
(notice Image
Collection bibliographique détail
) (légende)
24 Luc Bellier 2013
25. Le document numérique
» Nature et structure du document numérique
La notion de document : d’une définition formelle à une approche par écosystème
Les types de fichiers : Les formats textes, les formats images, les formats multimédia
La granularité du document, structuration et déstructuration
» Produire et décrire le document numérique
Le cas de la numérisation
Le cas des de ePub
Les identifiants
» Les métadonnées
Les métadonnées pour la recherche
• Le cas des catalogues
• Le cas des moteurs
• Approche sémantique
Les métadonnées comme point d’accès
• Accès centralisés (catalogue et/ou moteur)
• Accès distribués fermés et ouverts (OAI, RSS et OPDS)
• L’interopérabilité sémantique
• Les nouvelles métadonnées (folksonomies)
• Multiplier les accès et multiplier les documents
» Les enjeux des accès et de la médiation:
Maitrise de la chaîne et des formats
Longue traine et économie de l’attention
Appréhender la collection numérique : le cas des bibliothèques
La médiation autour des documents numériques
25 Luc Bellier 2013
26. Le document numérique
» Produire et décrire le document numérique : le cas de la numérisation
26 Luc Bellier 2013
27. Produire et décrire le document numérique
» Le cas de la numérisation
Sélection
Acquisition Relecture encodage
Prestataire
Signalement
En mode texte
Mise en
Prestataire Indexation ligne
Numérisation
Prestataire En mode image
structuration Contrôle transformation
http://www.bnf.fr/fr/collections_et_services/bibliotheques_numeriques_gallica/a.numerisation_masse_bnf.html
Compétences Compétences Pas de compétences
bibliothéconomiques techniques particulières
27 Luc Bellier 2013
28. Produire et décrire le document numérique
» Le cas de la numérisation
00100000001000000010000000110001001100100011000000100000001
d’une collection
00000001000000010000000110101001110000010000000100000001101
Constitution
Sélection
01001000000010000000100000001100010011100100111000001100010
01011010011000000111001001011010011001100110000010101000011
» Sélection 00010011010000111010001100100011001000111010001100000011000
Collecte / production
10010111000110110001100100011100101011010001000000010000000
10000000110011001110000011100100111000001011100011011100110
» Acquisition 00000100000001000000010000000110010001100110011010100110010
Description : Métadonnées /
00101110001101000011010100100000001000000010000000100000001
Gestion d’une
00000001011010011000100101110001101100011011000100000001000
collection
» Description : 00001000000010110100110111001011100110111001100100010000000
indexation
10000000101101001100010011100000101110001101100011000100100
Catalogage 00000100000001011010011100000110000001011000110000001100000
Préparation à la
01000000010000000101101001110000011000000101110001100000011
00000010000000100000001000000011000100100000001000000011010
» Préparation à la
d’une collection
00011001100100000001000000010000000111001001000000010000000
conserrvatopn
Rangement et
consultation : Empaquetage
10000000100000001110010011100000111001001011100011010000110
01000100000001000000010000000100000001000000011000100110110
» consultation : 00101110001100000011001000100000001000000010000000100000001
Équipement Gestion
00000001101010011001100101110001110000011001100100000001000
00001000000010000000100000001101010011011000101110001101100
01100100010000000100000001000000010000000100000001000000011
01000010111000111000001100010010000000100000001000000010000
» Magasinage Préservation
00011011100111001001100110010111000110101001110000010000000
10000000100000001000000010000000100000001100110010111000110
01100110100000010100010000000100000001000000011000100110010
d’une collection
» Conservation Accès
00110000001000000010000000100000001000000011010100111000001
Consultation
00000001000000011010100100000001000000010000000110001001110
01001110000011000100101101001100000011100100101101001100110
» Communication Valorisation
01100000101010000110001001101000011101000110010001100100011
10100011000000110101001011100011011100111000001110000101101
00010000000100000001000000011001100111000001110010011010000
» Valorisation 10111000110110001101000010000000100000001000000011001000110
10100110100001101100010111000111000001110000010000000100000
00100000001000000010000001000000010110100111000001100000010
28 Luc Bellier 2013
29. Produire et décrire le document numérique
» Le cas de la numérisation
Numériser en mode image
La numérisation en mode image
s’intéresse à la forme et donc à la
structure physique
Avantages :
un fac-similé
préserve l’intégrité de l’original
Inconvénients :
un seul point d ’accès : la notice
bibliographique
pas de possibilités de manipulation
du texte
poids des images > stockage,
temps de téléchargement
mise en place de chaînes de
numérisation complexes
29 Luc Bellier 2013
30. Produire et décrire le document numérique
» Le cas de la numérisation
Pour produire
Pour visualiser
Pour archiver
30 Luc Bellier 2013
31. Produire et décrire le document numérique
» Le cas de la numérisation
Capture du document par un signal lumineux
analyse de l’intensité lumineuse par un capteur CDD (charged-
coupleddevice)
une seule analyse pour le noir et blanc
analyse de 3 faisceaux lumineux séparés par un prisme et des filtres
rouges, verts et bleus (RVB) pour des documents en couleur
conversion en signal électrique binaire selon une grille propre au
mode de codage
Production du fichier bitmap
31 Luc Bellier 2013
32. Produire et décrire le document numérique
» Le cas de la numérisation
» Processus
• Passage d’un support physique à un état dit dématérialisé
• Changement de mode de codage : passage d’un mode de codage
analogique à un codage numérique
– Information analogique : le signal est continu => onde lumineuse
– Information numérisée : représentée par un échantillon de valeurs du
signal analogique et codé à l’aide de numéraux (0 ou 1)
Échelle 16 bits Échelle 2 bits
» Caractéristiques techniques
• Ces changements se font par un processus technologique : la
numérisation et à l’aide d’un matériel spécifique : le numériseur (ou
scanner)
• Le fichier résultant de la numérisation est un fichier bitmap
32
32 Luc Bellier 2013
33. Produire et décrire le document numérique
» Le cas de la numérisation
•NUMERISATION •RESTITUTION
•0000000000
•0001110000
•0010001100
•0100000100
•1000000010
•1111111111
•1000000000
•1000000000
•0100000010
•0010000100
•0001111000
•In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987.
Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution
et donc la qualité de l’image mais aussi le poids du fichier
Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs)
Le mode de compression
La taille de l’image est fonction de ces trois paramètres
Luc Bellier
2012
33 Luc Bellier 2013
34. Produire et décrire le document numérique
» Le cas de la numérisation
•(*) Les imprimantes
couleur utilisent le modèle
CMJN (cyan, magenta,
jaune et noir) qui est celui
de l’imprimerie
en quadrichromie.
Type d’image Nbre de bits Valeurs codées Remarques
2 noir = 1 utilisé pour le texte
noir et blanc
blanc = 0
avec des niveaux de 8 256 niveaux utilisé pour les documents iconographiques
gris de gris noir et blanc
3x8 3 x 256 niveaux par 3 couleurs : rouge/vert/bleu
couleur analyse couleur soit 16,4 (codage utilisé par les moniteurs et les
RVB(*) millions de couleurs téléviseurs)
34 Luc Bellier 2013
35. Produire et décrire le document numérique
» Le cas de la numérisation
» Caractéristiques générales
• reproduction à l’identique, fac-simile
• volume des fichiers très important, ce qui a un impact sur :
- le choix des supports de stockage
- les possibilités et les temps de transmission par réseau
• un seul point d’accès, la notice bibliographique
• pas de manipulations du texte, document non modifiable (pas d’accès au
contenu)
• mise en place de chaînes de numérisation complexes
» Qualité
• La qualité et la lisibilité du document numérique restitué est variable selon :
- l’état initial du document
- la résolution retenue
- les performances du numériseur (scanner) et le niveau du réglage des
contrastes
35 Luc Bellier 2013
36. Produire et décrire le document numérique
» Le cas de la numérisation
» Images en noir et blanc
2 tons = 1 bit par point (8 bits = 1 octet)
Format TIFF (1 image par page, 1 fichier par page)
Résolution 300 à 600 dpi (300 à 600 points par pouce => définition)
Image légère et lisible, adaptée à la lecture à l’écran des imprimés
Zoom 400% image noir et blanc 300 dpi
Zoom 100% image noir et blanc 300 dpi
36
36 Luc Bellier 2013
37. Produire et décrire le document numérique
» Le cas de la numérisation
» Images en niveaux de gris
256 tons = 8 bits par point
Format TIFF V6 monopage (depuis 2006)
Format JFIF compressé JPEG (avant 2006)
Résolution 300 à 600 dpi
Image fine et assez lourde (presse, ouvrages de mauvaise qualité)
Zoom 400% image niveau de gris 300 dpi
Zoom 100% image niveau de gris 300 dpi
37 Luc Bellier 2013
38. Produire et décrire le document numérique
» Le cas de la numérisation
» Images en couleur RVB
16,7 millions de tons = 24 bits par point ;
profil colorimétrique Adobe 98
Format TIFF
Résolution 300 à 600 dpi
Format lourd utilisé pour garder la couleur des originaux si cela se justifie.
Zoom 400% image couleur 300 dpi
Zoom 100% image couleur 300 dpi
38 Luc Bellier 2013
39. Produire et décrire le document numérique
» Le cas de la numérisation
» La compression
» Plus une image est de bonne qualité plus elle est lourde. La compression
peut permettre de diminuer fortement le poids d’une image sans abaisser
dans les mêmes proportions la qualité.
» Elle permet de réduire la taille des fichiers en supprimant des pixels ou
des couleurs
Compression sans perte
Compression avec perte
» Les formats engendrant des pertes de données irréversibles sont à éviter
lorsque l’on veut assurer la sauvegarde à long terme des images
Zoom 400% image couleur 300
dpi
Zoom 100% image couleur 300 dpi
agrandi dans la présentation
39 Luc Bellier 2013
40. Produire et décrire le document numérique
» Le cas de la numérisation
Format de compression IUT Groupe 4
Codage ligne par ligne puis corrélation des lignes entre elles
Les lignes qui se suivent se ressemblent,
on va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre
Bidirectionnelle(Read modifié) Taux les plus fréquents : 8 à 20
40
40 Luc Bellier 2013
41. Format de compression JPEG
» Le cas de la numérisation
codage
compression
restitution
Paramétrage du taux de qualité (0 à 100%)
Pour un taux = 80%) la compression est comprise entre 5 et 10
Utilisé pour les images 8 bits et 24 bits
41 Luc Bellier 2013
42. Produire et décrire le document numérique
» Le cas de la numérisation
Kirtas APT 2400
42 Luc Bellier 2013
43. Produire et décrire le document numérique
» Le cas de la numérisation
Digibook 2000LC Copybook
Suprascan A0
43 Luc Bellier 2013
44. Produire et décrire le document numérique
» Le cas de la numérisation
Microfiches
Microfilms
44 Luc Bellier 2013
45. Produire et décrire le document numérique
» Le cas de la numérisation
Docuscan 6000
Plus de 6000 pages/heure
45 Luc Bellier 2013
46. Produire et décrire le document numérique
» Le cas de la numérisation
Redressement
Recadrage des pages
Illustrations
Binarisation(transfor
mation des images
de niveau de gris et
couleur en noir et
blanc)
Filtrage des formes
(redressement des
blancs, des lignes, des
caractères à l’intérieur
d’une image)
46 Luc Bellier 2013
47. Produire et décrire le document numérique
» Le cas de la numérisation
» Les formats d’image…
ouverts et libres
• SVG Format de diffusion dans Gallica
• PNG
• Jpeg2000
ouverts et propriétaires
• TIFF Formats de numérisation BnF
47 Luc Bellier 2013
48. Produire et décrire le document numérique
» Le cas de la numérisation
La numérisation en mode texte
s’intéresse directement au
contenu et donc à la structure
logique
Avantages
recherche plein texte et autres
manipulations
souplesse et portabilité
Accessibilité pour les personnes
en situation de handicap visuel
Inconvénients
lourdeur de réalisation
coût
48 Luc Bellier 2013
49. Produire et décrire le document numérique
» Le cas de la numérisation
» Les techniques de création du mode texte :
reconnaissance automatique de caractères ou OCR
• fortement conditionnée par la qualité de numérisation
• problèmes : caractères anciens, mal formés, caractères spéciaux, titres…
• correction manuelle obligatoire
la saisie
• saisie manuelle : problème de ressources humaines !
• double saisie manuelle comparée
49 Luc Bellier 2013
50. Produire et décrire le document numérique
» Le cas de la numérisation
L’OCR et le mode texte
» L’OCR est un processus automatique
» La qualité comme la reconnaissance sont calculés par des machines
» C’est le nombre de caractères suspects divisés par le nombre total de caractères
sur une page.
» Une page de dix caractères vaut autant qu’une page de 10000 caractères dans un
même ouvrage.
50 Luc Bellier 2013
51. Produire et décrire le document numérique
» Le cas de la numérisation
L’OCR et le mode texte
» Les formats d’encodage du texte (basés sur XML)…
Structure logique Format de production
• TEI et tdmNum
Structure physique Format de production
• ALTO
• HTML Formats de consultation
51
51 Luc Bellier 2013
52. Produire et décrire le document numérique
» Le cas de la numérisation
(http://www.bium.univ-paris5.fr/histmed/medica.htm)
Liste des
chapitres en
mode texte
Pages en mode
image
52 Luc Bellier 2013
53. Produire et décrire le document numérique
» Le cas de la numérisation
» (http://www.persee.fr)
Mode image Mode texte (OCR de très bonne qualité,
documents récents)
53 Luc Bellier 2013
54. Produire et décrire le document numérique
» Le cas de la numérisation
Visualisation du mode image uniquement,
mode texte issu d’OCR en sous-couche
permettant la recherche plein texte et le
surlignage des résultats de la recherche
(http://books.google.fr/)
54 Luc Bellier 2013
55. Produire et décrire le document numérique
» Le cas de la numérisation
METADONNEES
55 Luc Bellier 2013
56. Produire et décrire le document numérique
» Le cas de la numérisation
Un document numérique /
électronique, c’est une suite
de fichiers sans lien entre eux
identifiant unique (localisation / identification)
Métadonnées
? ?
Métadonnées
?
Métadonnées administratives
descriptives de structure •gérer la collection, c’est-à-dire
•rattacher le document •rattacher les
à l’original / différentes •gérer les droits d’accès
fichiers entre eux
versions d’un •préserver les informations techniques
document •reconstituer la nécessaires à la lecture des fichiers
structure du
•donner accès à la document •garantir l ’intégrité des fichiers et le suivi de
copie numérique / leurs éventuelles modifications
électronique
56 Luc Bellier 2013
57. Produire et décrire le document numérique
» Le cas de la numérisation
57 Luc Bellier 2013
58. Produire et décrire le document numérique
» Le cas de la numérisation
Meta
descriptives
image et de
structure
000001.tif ID.xml
Texte
Table
Alto
000001.xml TID.xml
•Une image par page donc deux fichiers par page
•Un fichier xml de structure par document et
éventuellement un fichier table des matière.
•Le fichier de structure porte également des données
descriptive pour le lien avec le catalogue
58 Luc Bellier 2013
59. Produire et décrire le document numérique
» Le cas de la numérisation
» Des données sur les données ...
qui servent à organiser la connaissance et à utiliser et exploiter le document
• Métadonnées descriptives, contextuelles et structurelles
- Ex. : Notice bibliographique, indexation
- Ex. : Date et formats de numérisation
- Ex. : Données sur les fichiers pour reconstituer l’ouvrage (Cf. plus loin)
• initiales et ajoutées tout au long du cycle de vie du document numérisé
qui servent à le maintenir accessible dans le temps et à garantir et contrôler
cet accès
• Métadonnées administratives et techniques
- Ex. : Droits de lecture en interne seulement ou droit sur Internet
• initiales et ajoutées tout au long du cycle de vie du document numérisé
- Ex. : passage d’un document protégé dans le domaine public
59 Luc Bellier 2013
60. Produire et décrire le document numérique
» Le cas de la numérisation
• Les métadonnées descriptives :
– appréhender le contenu d’un objet
• description bibliographique approfondie et détaillée
– identifier un objet ou un groupe d’objets
• description bibliographique minimale
• identifiant pérenne
– identifier les parties qui composent un objet
• information de structure
– échanger des objets ou des descriptions d’objets
• description bibliographique dans un format normalisé
60 Luc Bellier 2013
61. Produire et décrire le document numérique
» Le cas de la numérisation
• Du catalogage aux métadonnées
– les métadonnées
• une description d’un objet matériel ou non, les métadonnées
peuvent être dans le document lui-même
• multiplication des « points d’accès », information structurée
• une localisation : URL / URN / URI
• De « nouveaux » formats
– pour les notices : Dublin Core, EAD + formats dérivés de MARC
en XML (MarcXML, MODS, BiblioML)
– nouveau : pour le contenu des documents eux-mêmes
• autrefois on n’entrait pas « dans » le document
• nouveaux besoins : OCR, tables des matières en saisie, structure
du défilement des pages…
• nouveau formats : TEI, METS, ALTO
61 Luc Bellier 2013
62. Produire et décrire le document numérique
» Le cas de la numérisation
• Une tradition dans les bibliothèques
– Le catalogage : création d’information descriptive secondaire
(notice) qui caractérise une information primaire (document)
– Les métadonnées : des données (secondaires) sur les données
(primaires)
• Caractéristiques du catalogage :
– un contenu normalisé : ISBD, AACR...
– Un format pour le traitement informatique : MARC (Machine
readablecataloguing)
– une notice bibliographique c’est…
• une description d’un objet matériel
• des « points d’accès » pour retrouver le document
• une localisation pour se le procurer
62 Luc Bellier 2013
63. Produire et décrire le document numérique
» Le cas de la numérisation
Métadonnées
descriptives
63 Luc Bellier 2013
64. Produire et décrire le document numérique
» Le cas de la numérisation
Métadonnées
descriptives
Métadonnées de
64 structure : Luc Bellier 2013
65. Produire et décrire le document numérique
» Le cas de la numérisation
Métadonnées de
structure :
http://bibnum.bnf.fr/refNum/
http://www.loc.gov/standards/mets/METSOverview.v2_fr.html
65 Luc Bellier 2013
66. Produire et décrire le document numérique
» Le cas de la numérisation
Métadonnées de
structure : le
fichier alto
http://www.loc.gov/standards/alto/
66 Luc Bellier 2013
67. Produire et décrire le document numérique
» Le cas de la numérisation
Métadonnées
descriptives
Métadonnées de
67 structure : Luc Bellier 2013
68. Produire et décrire le document numérique
» Le cas de la numérisation
Métadonnées
descriptives :
Métadonnées de
structure :
68 Luc Bellier 2013
69. Produire et décrire le document numérique
» Le cas de la numérisation
Refnum
refnum tdm
Tiff Notice Alto
header
Tiff
Tiff
Biblio
T
Tiff
ID Alto Tiff
Alto Alto
X Alto Tdm
refnum
Imprimés
Serveurd
’accès
TDM
69 Luc Bellier 2013
70. Le document numérique
» Nature et structure du document numérique
La notion de document : d’une définition formelle à une approche par écosystème
Les types de fichiers : Les formats textes, les formats images, les formats multimédia
La granularité du document, structuration et déstructuration
» Produire et décrire le document numérique
Le cas de la numérisation
Le cas des de ePub
Les identifiants
» Les métadonnées
Les métadonnées pour la recherche
• Le cas des catalogues
• Le cas des moteurs
• Approche sémantique
Les métadonnées comme point d’accès
• Accès centralisés (catalogue et/ou moteur)
• Accès distribués fermés et ouverts (OAI, RSS et OPDS)
• L’interopérabilité sémantique
• Les nouvelles métadonnées (folksonomies)
• Multiplier les accès et multiplier les documents
» Les enjeux des accès et de la médiation:
Maitrise de la chaîne et des formats
Longue traine et économie de l’attention
Appréhender la collection numérique : le cas des bibliothèques
La médiation autour des documents numériques
70 Luc Bellier 2013
71. Le document numérique
Produire et décrire le document numérique : le cas des ePub
et livres numériques
71 Luc Bellier 2013
72. Produire et décrire le document numérique
» Le cas des livres numériques ePub
Métadonnées
Descriptives?
Métadonnées de
structure ?
72 Luc Bellier 2013
73. Produire et décrire le document numérique
» Le cas des livres numériques ePub
Métadonnées de
structure ?
Métadonnées
Descriptives?
73 Luc Bellier 2013
74. Produire et décrire le document numérique
» Le cas des livres numériques ePub
Refnum
le cas des livres numériques ePub
XML
Tiff Meta-inf
Manifeste
Tiff
Tiff
T
Métadonnées
Alto du document
Alto
X Alto Applications
NNNNNNN.ZIP
XHTML
ou TAR
XHTML
Imprimés XHTML
TDM OPS
Table des matières
74 Luc Bellier 2013
75. Produire et décrire le document numérique
» Le cas des livres numériques ePub
Métadonnées de
structure ?
Métadonnées
Descriptives?
75 Luc Bellier 2013
77. Produire et décrire le document numérique
» Les identifiants
• Une référence stable :
– nommer la ressource
– trouver la ressource sur le réseau
– « citabilité »
• Un identifiant :
– reconnaître la ressource
– de manière unique
– sur le long terme
• Donc deux objectifs :
– l’accès
– la préservation
77 Luc Bellier 2013
78. Produire et décrire le document numérique
» Les identifiants
» On dispose de standards pour identifier les documents sur le Web :
URL : localisation
URN : nom
URI : identifiant
» L’identifiant (URI) peut être le nom (URN) de la ressource ou son adresse /
emplacement (URL)
» Aujourd’hui, seules les URL sont interprétées directement par les
navigateurs
URN
URL
URI
78 Luc Bellier 2013
79. Produire et décrire le document numérique
» Les identifiants
Catalogue : visualiseur.bnf.fr
Gallica : Gallica.bnf.fr
ark:/12148/bpt6k2029102
79 Luc Bellier 2013
80. Produire et décrire le documents numérique
» Conclusion
» Un document numérique c'est
Des fichiers + des métadonnées
Une structure physique / logique
Un environnement matériel / logiciel permettant d'interpréter le document
» >> construire les accès à la collection numérique
» >> préserver les documents numériques
80 Luc Bellier 2013
81. Produire et décrire le document numérique
» Conclusion
00100000001000000010000000110001001100100011000000100000001
d’une collection
00000001000000010000000110101001110000010000000100000001101
Constitution
Sélection
01001000000010000000100000001100010011100100111000001100010
01011010011000000111001001011010011001100110000010101000011
» Sélection 00010011010000111010001100100011001000111010001100000011000
Collecte / production
10010111000110110001100100011100101011010001000000010000000
10000000110011001110000011100100111000001011100011011100110
» Acquisition 00000100000001000000010000000110010001100110011010100110010
Description : Métadonnées /
00101110001101000011010100100000001000000010000000100000001
Gestion d’une
00000001011010011000100101110001101100011011000100000001000
collection
» Description : 00001000000010110100110111001011100110111001100100010000000
indexation
10000000101101001100010011100000101110001101100011000100100
Catalogage 00000100000001011010011100000110000001011000110000001100000
Préparation à la
01000000010000000101101001110000011000000101110001100000011
00000010000000100000001000000011000100100000001000000011010
» Préparation à la
d’une collection
00011001100100000001000000010000000111001001000000010000000
conserrvatopn
Rangement et
consultation : Empaquetage
10000000100000001110010011100000111001001011100011010000110
01000100000001000000010000000100000001000000011000100110110
» consultation : 00101110001100000011001000100000001000000010000000100000001
Équipement Gestion
00000001101010011001100101110001110000011001100100000001000
00001000000010000000100000001101010011011000101110001101100
01100100010000000100000001000000010000000100000001000000011
01000010111000111000001100010010000000100000001000000010000
» Magasinage Préservation
00011011100111001001100110010111000110101001110000010000000
10000000100000001000000010000000100000001100110010111000110
01100110100000010100010000000100000001000000011000100110010
d’une collection
» Conservation Accès
00110000001000000010000000100000001000000011010100111000001
Consultation
00000001000000011010100100000001000000010000000110001001110
01001110000011000100101101001100000011100100101101001100110
» Communication Valorisation
01100000101010000110001001101000011101000110010001100100011
10100011000000110101001011100011011100111000001110000101101
00010000000100000001000000011001100111000001110010011010000
» Valorisation 10111000110110001101000010000000100000001000000011001000110
10100110100001101100010111000111000001110000010000000100000
00100000001000000010000001000000010110100111000001100000010
81 Luc Bellier 2013