SlideShare una empresa de Scribd logo
1 de 81
Descargar para leer sin conexión
Le document numérique
»Nature, accès et médiation des documents dans un contexte numérique
Appréhender un document




»   Le document comme objet, comme contenu, comme dispositif de lecture, comme
    support




2                                                                    Luc Bellier 2013
Qu’est-ce qu’un document ?




    Tablette d’argile :
    textes juridiques
    ou comptables            Rouleau de papyrus :
                             textes sacrés



3                                         Luc Bellier 2013
Qu’est-ce qu’un document ?




                             Films




                              Fiches




4                            Luc Bellier 2013
Qu’est-ce qu’un document ?



                        Contenu/contenant
                        Lecture et dispositif de lecture




5                                                      Luc Bellier 2013
Qu’est-ce qu’un document ?




    Contenu/contenant
    Lecture et dispositif
    de lecture




6                            Luc Bellier 2013
Qu’est-ce qu’un document ?



                             Un système de
                             valeurs autour des
                             documents,
                             symboliques et
                             économiques.




7                                         Luc Bellier 2013
Organiser les documents



                          Les ranger,
                          les trouver,
                          les décrire




8                                        Luc Bellier 2013
Produire les documents




9                        Luc Bellier 2013
Introduction


»    Nature et structure du document numérique
       La notion de document : d’une définition formelle à une approche par écosystème
       Les types de fichiers : Les formats textes, les formats images, les formats multimédia
       La granularité du document, structuration et déstructuration
»    Produire et décrire le document numérique
       Le cas de la numérisation
       Le cas des de ePub
       Les identifiants
»    Les métadonnées
       Les métadonnées pour la recherche
          • Le cas des catalogues
          • Le cas des moteurs
          • Approche sémantique
       Les métadonnées comme point d’accès
          • Accès centralisés (catalogue et/ou moteur)
          • Accès distribués fermés et ouverts (OAI, RSS et OPDS)
          • L’interopérabilité sémantique
          • Les nouvelles métadonnées (folksonomies)
          • Multiplier les accès et multiplier les documents
»    Les enjeux des accès et de la médiation:
       Maitrise de la chaîne et des formats
       Longue traine et économie de l’attention
       Appréhender la collection numérique : le cas des bibliothèques
       La médiation autour des documents numériques


10                                                                                        Luc Bellier 2013
Le document numérique




»    Nature et structure du document numérique : La notion de document




11                                                                       Luc Bellier 2013
Nature et structure du document numérique
»    La notion de document




»    Définition ISO (International Organisation for Standardization)
         • Ensemble formé par un support et une information généralement enregistré
             de façon permanente et tel qu’il puisse être lu par l’homme ou la machine


»    Vocabulaire de la documentation
         • Ensemble d’un support d’information, quel qu’il soit, des données
           enregistrées sur ce support et de leur signification, servant à la consultation,
           l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus,
           film…Le tout constitue une unité autonome.




12                                                                             Luc Bellier 2013
Nature et structure du document numérique
»    La notion de document



       « Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un
          système documentaire » Suzanne Briet 1951
         Le vu, le lu, le su (Jean-Michel Salaün)
           • Le vu : la forme, le support
           • Le lu : le texte, le contenu, le fond
           • Le su : le medium, l’attention, le système d’échange
»    http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-la-publication/
»    http://blogues.ebsi.umontreal.ca/jms/index.php/




13                                                                                                      Luc Bellier 2013
Nature et structure du document numérique
»    La notion de document




»    Le document ne peut être dissocié de ses environnements :
       Fond, forme, destination font parti intégrante du document si celui-ci doit
        s’inscrire dans un système (documentaire, d’échanges etc.)
       En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces
        trois dimensions, et traité en conséquence :
          • La diffusion (médium)
          • La forme (description, reproduction, déclinaisons de différents supports etc.)
          • Le fond (la pertinence du contenu au regard des deux autres dimensions)




14
14                                                                            Luc Bellier 2013
Le document numérique




       Nature et structure du document numérique : les formats de
          fichiers




15                                                                  Luc Bellier 2013
Nature et structure du document numérique
Les formats de fichiers




16                                          Luc Bellier 2013
Nature et structure du document numérique
Les formats de fichiers




17
17                                          Luc Bellier 2013
Nature et structure du document numérique
Les formats de fichiers




18                                          Luc Bellier 2013
Nature et structure du document numérique
Les formats de fichiers




»    Formats des documents numériques


»    Convention utilisée pour représenter des données sous forme binaire
       Image, texte, son...
       Peut contenir des métadonnées
»    Un format peut avoir plusieurs versions
       PDF/A , PDF 1.4…
»    Un format peut avoir différents profils d'application
       Plusieurs « couches » possibles (formats capsules ou enveloppes)
       Compression
»    Formats propriétaires / ouverts / libres



19                                                                         Luc Bellier 2013
Nature et structure du document numérique
Les formats de fichiers




                                            Métadonnées




20                                              Luc Bellier 2013
Nature et structure du document numérique
Les formats de fichiers




                                            Métadonnées




21                                             Luc Bellier 2013
Nature et structure du document numérique
Les formats de fichiers




                                            Métadonnées




22                                             Luc Bellier 2013
Le document numérique




»    Nature et structure du document numérique : la granularité




23                                                                Luc Bellier 2013
Nature et structure du document numérique

     La granularité des documents numériques




         Collection
                            Document                                             Vue de
                                                    Volume, tome,                 détail
                              (notice
                         bibliographique)            fascicule...       Page     (article)
           Un document complexe peut avoir plusieurs niveaux d’accès ou
             niveaux de granularité
            Document simple : pas de problème de structure en soi, mais peut
             tout de même avoir plusieurs niveaux d’accès




                                              Lot                               Vue de
                                            (notice                   Image
            Collection                 bibliographique                          détail
                                               )                    (légende)



24                                                                                    Luc Bellier 2013
Le document numérique


»    Nature et structure du document numérique
       La notion de document : d’une définition formelle à une approche par écosystème
       Les types de fichiers : Les formats textes, les formats images, les formats multimédia
       La granularité du document, structuration et déstructuration
»    Produire et décrire le document numérique
       Le cas de la numérisation
       Le cas des de ePub
       Les identifiants
»    Les métadonnées
       Les métadonnées pour la recherche
          • Le cas des catalogues
          • Le cas des moteurs
          • Approche sémantique
       Les métadonnées comme point d’accès
          • Accès centralisés (catalogue et/ou moteur)
          • Accès distribués fermés et ouverts (OAI, RSS et OPDS)
          • L’interopérabilité sémantique
          • Les nouvelles métadonnées (folksonomies)
          • Multiplier les accès et multiplier les documents
»    Les enjeux des accès et de la médiation:
       Maitrise de la chaîne et des formats
       Longue traine et économie de l’attention
       Appréhender la collection numérique : le cas des bibliothèques
       La médiation autour des documents numériques


25                                                                                        Luc Bellier 2013
Le document numérique




»    Produire et décrire le document numérique : le cas de la numérisation




26                                                                           Luc Bellier 2013
Produire et décrire le document numérique
»       Le cas de la numérisation



       Sélection


      Acquisition                                            Relecture                  encodage
                                         Prestataire


     Signalement
                                      En mode texte
                                                                                                                   Mise en
                                                                          Prestataire       Indexation              ligne
                Numérisation

                  Prestataire         En mode image

                                               structuration            Contrôle             transformation


     http://www.bnf.fr/fr/collections_et_services/bibliotheques_numeriques_gallica/a.numerisation_masse_bnf.html


                Compétences                              Compétences                          Pas de compétences
                bibliothéconomiques                      techniques                           particulières


27                                                                                                                 Luc Bellier 2013
Produire et décrire le document numérique
»         Le cas de la numérisation

                                                                          00100000001000000010000000110001001100100011000000100000001
            d’une collection


                                                                          00000001000000010000000110101001110000010000000100000001101
              Constitution



                                                                                               Sélection
                                                                          01001000000010000000100000001100010011100100111000001100010
                                                                          01011010011000000111001001011010011001100110000010101000011
                               »   Sélection                              00010011010000111010001100100011001000111010001100000011000
                                                                                      Collecte / production
                                                                          10010111000110110001100100011100101011010001000000010000000
                                                                          10000000110011001110000011100100111000001011100011011100110
                               »   Acquisition                            00000100000001000000010000000110010001100110011010100110010
                                                                                 Description : Métadonnées /
                                                                          00101110001101000011010100100000001000000010000000100000001




                                                      Gestion d’une
                                                                          00000001011010011000100101110001101100011011000100000001000




                                                       collection
                               »   Description :                          00001000000010110100110111001011100110111001100100010000000
                                                                                                 indexation
                                                                          10000000101101001100010011100000101110001101100011000100100
                                   Catalogage                             00000100000001011010011100000110000001011000110000001100000
                                                                                          Préparation à la
                                                                          01000000010000000101101001110000011000000101110001100000011
                                                                          00000010000000100000001000000011000100100000001000000011010
                               »   Préparation à la
     d’une collection




                                                                          00011001100100000001000000010000000111001001000000010000000
      conserrvatopn
      Rangement et




                                                                                consultation : Empaquetage
                                                                          10000000100000001110010011100000111001001011100011010000110
                                                                          01000100000001000000010000000100000001000000011000100110110
                               »   consultation :                         00101110001100000011001000100000001000000010000000100000001

                                   Équipement                                                   Gestion
                                                                          00000001101010011001100101110001110000011001100100000001000
                                                                          00001000000010000000100000001101010011011000101110001101100
                                                                          01100100010000000100000001000000010000000100000001000000011
                                                                          01000010111000111000001100010010000000100000001000000010000
                               »   Magasinage                                               Préservation
                                                                          00011011100111001001100110010111000110101001110000010000000
                                                                          10000000100000001000000010000000100000001100110010111000110
                                                                          01100110100000010100010000000100000001000000011000100110010
                                                       d’une collection



                               »   Conservation                                                  Accès
                                                                          00110000001000000010000000100000001000000011010100111000001
                                                        Consultation




                                                                          00000001000000011010100100000001000000010000000110001001110
                                                                          01001110000011000100101101001100000011100100101101001100110
                               »   Communication                                             Valorisation
                                                                          01100000101010000110001001101000011101000110010001100100011
                                                                          10100011000000110101001011100011011100111000001110000101101
                                                                          00010000000100000001000000011001100111000001110010011010000
                               »   Valorisation                           10111000110110001101000010000000100000001000000011001000110
                                                                          10100110100001101100010111000111000001110000010000000100000
                                                                          00100000001000000010000001000000010110100111000001100000010




28                                                                                                                       Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation


                                                        Numériser en mode image
             La numérisation en mode image
              s’intéresse à la forme et donc à la
              structure physique



             Avantages :
                 un fac-similé
                 préserve l’intégrité de l’original



             Inconvénients :
                 un seul point d ’accès : la notice
                  bibliographique
                 pas de possibilités de manipulation
                  du texte
                 poids des images > stockage,
                  temps de téléchargement
                 mise en place de chaînes de
                  numérisation complexes


    29                                                                  Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation
                                           Pour produire




                         Pour visualiser


                                                           Pour archiver



    30                                                                     Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




             Capture du document par un signal lumineux
             analyse de l’intensité lumineuse par un capteur CDD (charged-
             coupleddevice)
                  une seule analyse pour le noir et blanc
                  analyse de 3 faisceaux lumineux séparés par un prisme et des filtres
                  rouges, verts et bleus (RVB) pour des documents en couleur
             conversion en signal électrique binaire selon une grille propre au
             mode de codage
             Production du fichier bitmap
    31                                                                          Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation

     »     Processus
               • Passage d’un support physique à un état dit dématérialisé
               • Changement de mode de codage : passage d’un mode de codage
                 analogique à un codage numérique
                   – Information analogique : le signal est continu => onde lumineuse
                   – Information numérisée : représentée par un échantillon de valeurs du
                     signal analogique et codé à l’aide de numéraux (0 ou 1)




                                      Échelle 16 bits                Échelle 2 bits
     »     Caractéristiques techniques
               • Ces changements se font par un processus technologique : la
                 numérisation et à l’aide d’un matériel spécifique : le numériseur (ou
                 scanner)
               • Le fichier résultant de la numérisation est un fichier bitmap
                                               32
    32                                                                                Luc Bellier 2013
Produire et décrire le document numérique
»    Le cas de la numérisation

                  •NUMERISATION                                             •RESTITUTION
                                            •0000000000
                                            •0001110000
                                            •0010001100
                                            •0100000100
                                            •1000000010
                                            •1111111111
                                            •1000000000
                                            •1000000000
                                            •0100000010
                                            •0010000100
                                            •0001111000




                                     •In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987.

        Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution
        et donc la qualité de l’image mais aussi le poids du fichier
        Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs)
        Le mode de compression
        La taille de l’image est fonction de ces trois paramètres


Luc Bellier
2012
 33                                                                                             Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                                                                     •(*) Les imprimantes
                                                                                     couleur utilisent le modèle
                                                                                     CMJN (cyan, magenta,
                                                                                     jaune et noir) qui est celui
                                                                                     de l’imprimerie
                                                                                        en quadrichromie.



             Type d’image        Nbre de bits    Valeurs codées                       Remarques
                                      2              noir = 1                     utilisé pour le texte
              noir et blanc
                                                     blanc = 0
           avec des niveaux de        8             256 niveaux        utilisé pour les documents iconographiques
                   gris                               de gris                           noir et blanc
                                    3x8         3 x 256 niveaux par          3 couleurs : rouge/vert/bleu
             couleur analyse                     couleur soit 16,4       (codage utilisé par les moniteurs et les
                 RVB(*)                         millions de couleurs                   téléviseurs)


    34                                                                                           Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation



    »     Caractéristiques générales
              • reproduction à l’identique, fac-simile
              • volume des fichiers très important, ce qui a un impact sur :
                 - le choix des supports de stockage
                 - les possibilités et les temps de transmission par réseau
              • un seul point d’accès, la notice bibliographique
              • pas de manipulations du texte, document non modifiable (pas d’accès au
                contenu)
              • mise en place de chaînes de numérisation complexes

    »     Qualité
              • La qualité et la lisibilité du document numérique restitué est variable selon :
                  - l’état initial du document
                  - la résolution retenue
                  - les performances du numériseur (scanner) et le niveau du réglage des
                    contrastes


    35                                                                              Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation



    »     Images en noir et blanc
            2 tons = 1 bit par point (8 bits = 1 octet)
            Format TIFF (1 image par page, 1 fichier par page)
            Résolution 300 à 600 dpi (300 à 600 points par pouce => définition)
            Image légère et lisible, adaptée à la lecture à l’écran des imprimés




                            Zoom 400% image noir et blanc 300 dpi


                             Zoom 100% image noir et blanc 300 dpi
                                                                           36
    36                                                                              Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation


    »     Images en niveaux de gris
            256 tons = 8 bits par point
            Format TIFF V6 monopage (depuis 2006)
            Format JFIF compressé JPEG (avant 2006)
            Résolution 300 à 600 dpi
            Image fine et assez lourde (presse, ouvrages de mauvaise qualité)




                             Zoom 400% image niveau de gris 300 dpi



                             Zoom 100% image niveau de gris 300 dpi
    37                                                                           Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation



    »     Images en couleur RVB
            16,7 millions de tons = 24 bits par point ;
            profil colorimétrique Adobe 98
            Format TIFF
            Résolution 300 à 600 dpi
            Format lourd utilisé pour garder la couleur des originaux si cela se justifie.




                             Zoom 400% image couleur 300 dpi


                              Zoom 100% image couleur 300 dpi

    38                                                                               Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation
    »     La compression
    »     Plus une image est de bonne qualité plus elle est lourde. La compression
          peut permettre de diminuer fortement le poids d’une image sans abaisser
          dans les mêmes proportions la qualité.
    »     Elle permet de réduire la taille des fichiers en supprimant des pixels ou
          des couleurs
            Compression sans perte
            Compression avec perte
    »     Les formats engendrant des pertes de données irréversibles sont à éviter
          lorsque l’on veut assurer la sauvegarde à long terme des images

                                                                  Zoom 400% image couleur 300
                                                                  dpi



                                                                  Zoom 100% image couleur 300 dpi
                                                                  agrandi dans la présentation


    39                                                                                Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation
                                    Format de compression IUT Groupe 4




         Codage ligne par ligne puis corrélation des lignes entre elles


         Les lignes qui se suivent se ressemblent,
         on va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre

         Bidirectionnelle(Read modifié)                              Taux les plus fréquents : 8 à 20




                                                                                      40
    40                                                                                     Luc Bellier 2013
Format de compression JPEG
»        Le cas de la numérisation




                                              codage




                                                                    compression


                                             restitution




                                                    Paramétrage du taux de qualité (0 à 100%)

           Pour un taux = 80%) la compression est comprise entre 5 et 10
           Utilisé pour les images 8 bits et 24 bits
    41                                                                         Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                     Kirtas APT 2400



    42                                                 Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                      Digibook 2000LC           Copybook
                       Suprascan A0


    43                                                 Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                            Microfiches




                           Microfilms



    44                                                Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




             Docuscan 6000




                                     Plus de 6000 pages/heure




    45                                                Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation



                                                Redressement



                                                Recadrage des pages


                                                Illustrations
                                                Binarisation(transfor
                                                mation des images
                                                de niveau de gris et
                                                couleur en noir et
                                                blanc)

                                                Filtrage des formes
                                                (redressement des
                                                blancs, des lignes, des
                                                caractères à l’intérieur
                                                d’une image)
    46                                                     Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




    »     Les formats d’image…
            ouverts et libres
              • SVG                     Format de diffusion dans Gallica
              • PNG
              • Jpeg2000
            ouverts et propriétaires
              • TIFF                     Formats de numérisation BnF




    47                                                                     Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation



             La numérisation en mode texte
              s’intéresse directement au
              contenu et donc à la structure
              logique



             Avantages
                 recherche plein texte et autres
                  manipulations
                 souplesse et portabilité
                 Accessibilité pour les personnes
                  en situation de handicap visuel



             Inconvénients
                 lourdeur de réalisation
                 coût


    48                                               Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




    »     Les techniques de création du mode texte :
            reconnaissance automatique de caractères ou OCR
               • fortement conditionnée par la qualité de numérisation
               • problèmes : caractères anciens, mal formés, caractères spéciaux, titres…
               • correction manuelle obligatoire
            la saisie
               • saisie manuelle : problème de ressources humaines !
               • double saisie manuelle comparée




    49                                                                          Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




    L’OCR et le mode texte
    »     L’OCR est un processus automatique
    »     La qualité comme la reconnaissance sont calculés par des machines
    »     C’est le nombre de caractères suspects divisés par le nombre total de caractères
          sur une page.
    »     Une page de dix caractères vaut autant qu’une page de 10000 caractères dans un
          même ouvrage.




    50                                                                          Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




    L’OCR et le mode texte
    »     Les formats d’encodage du texte (basés sur XML)…

            Structure logique                 Format de production
               •   TEI et tdmNum

            Structure physique               Format de production
               •   ALTO



               •   HTML                       Formats de consultation




51
    51                                                                  Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation


                                     (http://www.bium.univ-paris5.fr/histmed/medica.htm)
                                                                      Liste des
                                                                        chapitres en
                                                                        mode texte




                        Pages en mode
                          image
    52                                                                        Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation


         »    (http://www.persee.fr)




             Mode image                Mode texte (OCR de très bonne qualité,
                                         documents récents)
    53                                                              Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation
                                Visualisation du mode image uniquement,
                                  mode texte issu d’OCR en sous-couche
                                  permettant la recherche plein texte et le
                                  surlignage des résultats de la recherche
          (http://books.google.fr/)




    54                                                                        Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                          METADONNEES
    55                                              Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                                                         Un document numérique /
                                                                         électronique, c’est une suite
                                                                         de fichiers sans lien entre eux
                    identifiant unique (localisation / identification)




              Métadonnées
                                ?                      ?
                                             Métadonnées
                                                                                         ?
                                                                    Métadonnées administratives
              descriptives                   de structure           •gérer la collection, c’est-à-dire
              •rattacher le document         •rattacher les
              à l’original / différentes                            •gérer les droits d’accès
                                             fichiers entre eux
              versions d’un                                         •préserver les informations techniques
              document                       •reconstituer la       nécessaires à la lecture des fichiers
                                             structure du
              •donner accès à la             document               •garantir l ’intégrité des fichiers et le suivi de
              copie numérique /                                     leurs éventuelles modifications
              électronique

    56                                                                                                   Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




    57                                          Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                                     Meta
                                                  descriptives
                                      image          et de
                                                   structure
                                     000001.tif     ID.xml
                                      Texte
                                                    Table
                                       Alto

                                     000001.xml TID.xml

                                      •Une image par page donc deux fichiers par page
                                      •Un fichier xml de structure par document et
                                      éventuellement un fichier table des matière.
                                      •Le fichier de structure porte également des données
                                      descriptive pour le lien avec le catalogue




    58                                                                             Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




    »     Des données sur les données ...
            qui servent à organiser la connaissance et à utiliser et exploiter le document
              • Métadonnées descriptives, contextuelles et structurelles
                  - Ex. : Notice bibliographique, indexation
                  - Ex. : Date et formats de numérisation
                  - Ex. : Données sur les fichiers pour reconstituer l’ouvrage (Cf. plus loin)
              • initiales et ajoutées tout au long du cycle de vie du document numérisé
            qui servent à le maintenir accessible dans le temps et à garantir et contrôler
             cet accès
              • Métadonnées administratives et techniques
                  - Ex. : Droits de lecture en interne seulement ou droit sur Internet
              • initiales et ajoutées tout au long du cycle de vie du document numérisé
                  - Ex. : passage d’un document protégé dans le domaine public




    59                                                                              Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




           • Les métadonnées descriptives :
                – appréhender le contenu d’un objet
                    • description bibliographique approfondie et détaillée
                – identifier un objet ou un groupe d’objets
                    • description bibliographique minimale
                    • identifiant pérenne
                – identifier les parties qui composent un objet
                    • information de structure
                – échanger des objets ou des descriptions d’objets
                    • description bibliographique dans un format normalisé


    60                                                                       Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




            • Du catalogage aux métadonnées
                 – les métadonnées
                     • une description d’un objet matériel ou non, les métadonnées
                       peuvent être dans le document lui-même
                     • multiplication des « points d’accès », information structurée
                     • une localisation : URL / URN / URI
            • De « nouveaux » formats
                 – pour les notices : Dublin Core, EAD + formats dérivés de MARC
                   en XML (MarcXML, MODS, BiblioML)
                 – nouveau : pour le contenu des documents eux-mêmes
                     • autrefois on n’entrait pas « dans » le document
                     • nouveaux besoins : OCR, tables des matières en saisie, structure
                       du défilement des pages…
                     • nouveau formats : TEI, METS, ALTO


    61                                                                           Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




           • Une tradition dans les bibliothèques
               – Le catalogage : création d’information descriptive secondaire
                 (notice) qui caractérise une information primaire (document)
               – Les métadonnées : des données (secondaires) sur les données
                 (primaires)
           • Caractéristiques du catalogage :
               – un contenu normalisé : ISBD, AACR...
               – Un format pour le traitement informatique : MARC (Machine
                 readablecataloguing)
               – une notice bibliographique c’est…
                   • une description d’un objet matériel
                   • des « points d’accès » pour retrouver le document
                   • une localisation pour se le procurer

    62                                                                  Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                                Métadonnées
                                                descriptives




    63                                                   Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                                   Métadonnées
                                                   descriptives




                                       Métadonnées de
    64                                 structure :      Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                                                          Métadonnées de
                                                                          structure :




          http://bibnum.bnf.fr/refNum/
                                         http://www.loc.gov/standards/mets/METSOverview.v2_fr.html

    65                                                                                           Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation



             Métadonnées de
             structure : le
             fichier alto




              http://www.loc.gov/standards/alto/

    66                                             Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




                                                   Métadonnées
                                                   descriptives




                                       Métadonnées de
    67                                 structure :      Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation




Métadonnées
descriptives :




Métadonnées de
structure :




    68                                          Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas de la numérisation



                  Refnum




                                                                      refnum   tdm
                             Tiff                            Notice              Alto
                                                                                  header
                                    Tiff
                                           Tiff
                                                             Biblio
                       T
                                                                                  Tiff

            ID             Alto                                                  Tiff
                              Alto                                               Alto
                      X              Alto                                        Tdm
                                                                                 refnum

                                                  Imprimés
                                                                                Serveurd
                                                                                ’accès
                    TDM




    69                                                                           Luc Bellier 2013
Le document numérique


»    Nature et structure du document numérique
       La notion de document : d’une définition formelle à une approche par écosystème
       Les types de fichiers : Les formats textes, les formats images, les formats multimédia
       La granularité du document, structuration et déstructuration
»    Produire et décrire le document numérique
       Le cas de la numérisation
       Le cas des de ePub
       Les identifiants
»    Les métadonnées
       Les métadonnées pour la recherche
          • Le cas des catalogues
          • Le cas des moteurs
          • Approche sémantique
       Les métadonnées comme point d’accès
          • Accès centralisés (catalogue et/ou moteur)
          • Accès distribués fermés et ouverts (OAI, RSS et OPDS)
          • L’interopérabilité sémantique
          • Les nouvelles métadonnées (folksonomies)
          • Multiplier les accès et multiplier les documents
»    Les enjeux des accès et de la médiation:
       Maitrise de la chaîne et des formats
       Longue traine et économie de l’attention
       Appréhender la collection numérique : le cas des bibliothèques
       La médiation autour des documents numériques


70                                                                                        Luc Bellier 2013
Le document numérique




       Produire et décrire le document numérique : le cas des ePub
          et livres numériques




71                                                                   Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas des livres numériques ePub




         Métadonnées
         Descriptives?




                                             Métadonnées de
                                             structure ?


    72                                                        Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas des livres numériques ePub



     Métadonnées de
     structure ?




               Métadonnées
               Descriptives?



    73                                          Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas des livres numériques ePub


                Refnum
                                                            le cas des livres numériques ePub
                                                                        XML

                           Tiff                            Meta-inf
                                                                                  Manifeste
                                  Tiff
                                         Tiff
                     T




                                                                                                   Métadonnées
                         Alto                                                                      du document
                            Alto
                    X              Alto                           Applications

NNNNNNN.ZIP
                                                                                              XHTML
ou TAR
                                                                                                 XHTML
                                                Imprimés                                           XHTML



                  TDM                                      OPS




                                                                            Table des matières

    74                                                                                               Luc Bellier 2013
Produire et décrire le document numérique
»        Le cas des livres numériques ePub




                                             Métadonnées de
                                             structure ?
           Métadonnées
           Descriptives?

    75                                                        Luc Bellier 2013
Le document numérique




       Les identifiants




76                        Luc Bellier 2013
Produire et décrire le document numérique
»        Les identifiants




           • Une référence stable :
                – nommer la ressource
                – trouver la ressource sur le réseau
                – « citabilité »
           • Un identifiant :
                – reconnaître la ressource
                – de manière unique
                – sur le long terme
           • Donc deux objectifs :
                – l’accès
                – la préservation

    77                                                 Luc Bellier 2013
Produire et décrire le document numérique
»        Les identifiants


    »     On dispose de standards pour identifier les documents sur le Web :
             URL : localisation
             URN : nom
             URI : identifiant
    »     L’identifiant (URI) peut être le nom (URN) de la ressource ou son adresse /
          emplacement (URL)
    »     Aujourd’hui, seules les URL sont interprétées directement par les
          navigateurs



             URN



             URL

                                                                               URI
    78                                                                    Luc Bellier 2013
Produire et décrire le document numérique
»        Les identifiants




          Catalogue : visualiseur.bnf.fr
                                           Gallica : Gallica.bnf.fr

              ark:/12148/bpt6k2029102



    79                                                          Luc Bellier 2013
Produire et décrire le documents numérique
»        Conclusion




    »     Un document numérique c'est
            Des fichiers + des métadonnées
            Une structure physique / logique
            Un environnement matériel / logiciel permettant d'interpréter le document


    »     >> construire les accès à la collection numérique
    »     >> préserver les documents numériques




    80                                                                           Luc Bellier 2013
Produire et décrire le document numérique
»        Conclusion

                                                                              00100000001000000010000000110001001100100011000000100000001
                d’une collection


                                                                              00000001000000010000000110101001110000010000000100000001101
                  Constitution



                                                                                                   Sélection
                                                                              01001000000010000000100000001100010011100100111000001100010
                                                                              01011010011000000111001001011010011001100110000010101000011
                                   »   Sélection                              00010011010000111010001100100011001000111010001100000011000
                                                                                          Collecte / production
                                                                              10010111000110110001100100011100101011010001000000010000000
                                                                              10000000110011001110000011100100111000001011100011011100110
                                   »   Acquisition                            00000100000001000000010000000110010001100110011010100110010
                                                                                     Description : Métadonnées /
                                                                              00101110001101000011010100100000001000000010000000100000001




                                                          Gestion d’une
                                                                              00000001011010011000100101110001101100011011000100000001000




                                                           collection
                                   »   Description :                          00001000000010110100110111001011100110111001100100010000000
                                                                                                     indexation
                                                                              10000000101101001100010011100000101110001101100011000100100
                                       Catalogage                             00000100000001011010011100000110000001011000110000001100000
                                                                                              Préparation à la
                                                                              01000000010000000101101001110000011000000101110001100000011
                                                                              00000010000000100000001000000011000100100000001000000011010
                                   »   Préparation à la
         d’une collection




                                                                              00011001100100000001000000010000000111001001000000010000000
          conserrvatopn
          Rangement et




                                                                                    consultation : Empaquetage
                                                                              10000000100000001110010011100000111001001011100011010000110
                                                                              01000100000001000000010000000100000001000000011000100110110
                                   »   consultation :                         00101110001100000011001000100000001000000010000000100000001

                                       Équipement                                                   Gestion
                                                                              00000001101010011001100101110001110000011001100100000001000
                                                                              00001000000010000000100000001101010011011000101110001101100
                                                                              01100100010000000100000001000000010000000100000001000000011
                                                                              01000010111000111000001100010010000000100000001000000010000
                                   »   Magasinage                                               Préservation
                                                                              00011011100111001001100110010111000110101001110000010000000
                                                                              10000000100000001000000010000000100000001100110010111000110
                                                                              01100110100000010100010000000100000001000000011000100110010
                                                           d’une collection



                                   »   Conservation                                                  Accès
                                                                              00110000001000000010000000100000001000000011010100111000001
                                                            Consultation




                                                                              00000001000000011010100100000001000000010000000110001001110
                                                                              01001110000011000100101101001100000011100100101101001100110
                                   »   Communication                                             Valorisation
                                                                              01100000101010000110001001101000011101000110010001100100011
                                                                              10100011000000110101001011100011011100111000001110000101101
                                                                              00010000000100000001000000011001100111000001110010011010000
                                   »   Valorisation                           10111000110110001101000010000000100000001000000011001000110
                                                                              10100110100001101100010111000111000001110000010000000100000
                                                                              00100000001000000010000001000000010110100111000001100000010




    81                                                                                                                       Luc Bellier 2013

Más contenido relacionado

La actualidad más candente

Diaporama archivage electronique
Diaporama archivage electroniqueDiaporama archivage electronique
Diaporama archivage electroniqueVanessa GENDRIN
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADDanis Habib
 
Records management d’entreprise
Records management d’entrepriseRecords management d’entreprise
Records management d’entrepriseKhalifa Tall
 
Cours4.1 recherche documentaire-outils
Cours4.1 recherche documentaire-outilsCours4.1 recherche documentaire-outils
Cours4.1 recherche documentaire-outilsEvelyne Brémond
 
Méthodologie classement dossier archives
Méthodologie classement dossier archivesMéthodologie classement dossier archives
Méthodologie classement dossier archivesDanis Habib
 
Analyse archivistique
Analyse archivistiqueAnalyse archivistique
Analyse archivistiqueDanis Habib
 
Presentation de projet Tableau de gestion des archives
Presentation de projet  Tableau de gestion des archivesPresentation de projet  Tableau de gestion des archives
Presentation de projet Tableau de gestion des archivesEts GeneralArchive
 
Cours4.3 recherche documentaire-notions-info-et-doc
Cours4.3 recherche documentaire-notions-info-et-docCours4.3 recherche documentaire-notions-info-et-doc
Cours4.3 recherche documentaire-notions-info-et-docEvelyne Brémond
 
La description contextuelle des archives
La description contextuelle des archivesLa description contextuelle des archives
La description contextuelle des archivesDanis Habib
 
La GED pour les nuls
La GED pour les nulsLa GED pour les nuls
La GED pour les nulsSollan France
 
La recherche documentaire sur moteurs de recherche et bases de données
La recherche documentaire sur moteurs de recherche et bases de donnéesLa recherche documentaire sur moteurs de recherche et bases de données
La recherche documentaire sur moteurs de recherche et bases de donnéesLatour Marie
 
Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...
Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...
Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...Virginie Delaine
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Lesticetlart Invisu
 
Cours4.5 opérateurs recherche
Cours4.5 opérateurs rechercheCours4.5 opérateurs recherche
Cours4.5 opérateurs rechercheEvelyne Brémond
 
Classement et analyse archivistique
Classement et analyse archivistiqueClassement et analyse archivistique
Classement et analyse archivistiqueVanessa GENDRIN
 
Classification dewey 1
Classification dewey 1Classification dewey 1
Classification dewey 1MO Mathis
 
Matinée3 Gestion Electronique des Documents (GED)
Matinée3   Gestion Electronique des Documents (GED)Matinée3   Gestion Electronique des Documents (GED)
Matinée3 Gestion Electronique des Documents (GED)ALTITUDE CONCEPT SPRL
 
Les défis de l'archivage numérique (Fr)
Les défis de l'archivage numérique (Fr)Les défis de l'archivage numérique (Fr)
Les défis de l'archivage numérique (Fr)CABSIS Consulting Ltd
 

La actualidad más candente (20)

Diaporama archivage electronique
Diaporama archivage electroniqueDiaporama archivage electronique
Diaporama archivage electronique
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EAD
 
Records management d’entreprise
Records management d’entrepriseRecords management d’entreprise
Records management d’entreprise
 
Cours4.1 recherche documentaire-outils
Cours4.1 recherche documentaire-outilsCours4.1 recherche documentaire-outils
Cours4.1 recherche documentaire-outils
 
Méthodologie classement dossier archives
Méthodologie classement dossier archivesMéthodologie classement dossier archives
Méthodologie classement dossier archives
 
Ged
Ged Ged
Ged
 
Analyse archivistique
Analyse archivistiqueAnalyse archivistique
Analyse archivistique
 
Presentation de projet Tableau de gestion des archives
Presentation de projet  Tableau de gestion des archivesPresentation de projet  Tableau de gestion des archives
Presentation de projet Tableau de gestion des archives
 
Cours4.3 recherche documentaire-notions-info-et-doc
Cours4.3 recherche documentaire-notions-info-et-docCours4.3 recherche documentaire-notions-info-et-doc
Cours4.3 recherche documentaire-notions-info-et-doc
 
La description contextuelle des archives
La description contextuelle des archivesLa description contextuelle des archives
La description contextuelle des archives
 
La GED pour les nuls
La GED pour les nulsLa GED pour les nuls
La GED pour les nuls
 
La recherche documentaire sur moteurs de recherche et bases de données
La recherche documentaire sur moteurs de recherche et bases de donnéesLa recherche documentaire sur moteurs de recherche et bases de données
La recherche documentaire sur moteurs de recherche et bases de données
 
Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...
Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...
Mener un projet informatique en bibliothèque : méthode, enjeux et points de v...
 
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
 
Cours4.5 opérateurs recherche
Cours4.5 opérateurs rechercheCours4.5 opérateurs recherche
Cours4.5 opérateurs recherche
 
Classement et analyse archivistique
Classement et analyse archivistiqueClassement et analyse archivistique
Classement et analyse archivistique
 
Classification dewey 1
Classification dewey 1Classification dewey 1
Classification dewey 1
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Matinée3 Gestion Electronique des Documents (GED)
Matinée3   Gestion Electronique des Documents (GED)Matinée3   Gestion Electronique des Documents (GED)
Matinée3 Gestion Electronique des Documents (GED)
 
Les défis de l'archivage numérique (Fr)
Les défis de l'archivage numérique (Fr)Les défis de l'archivage numérique (Fr)
Les défis de l'archivage numérique (Fr)
 

Destacado

Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013Luc Bellier
 
Dss réglementation
Dss   réglementationDss   réglementation
Dss réglementationjm h
 
Evaluation des-risques-professionnels
Evaluation des-risques-professionnelsEvaluation des-risques-professionnels
Evaluation des-risques-professionnelscid-formation
 
Agilite Puissance3 chez W4
Agilite Puissance3 chez W4Agilite Puissance3 chez W4
Agilite Puissance3 chez W4Jean-Luc MAZE
 
Agilité chez un éditeur de logiciel
Agilité chez un éditeur de logicielAgilité chez un éditeur de logiciel
Agilité chez un éditeur de logicielW4MBO
 
Solution du groupe ISILOG - Asset Management, Service Management, Continuous...
Solution du groupe ISILOG - Asset Management, Service Management,  Continuous...Solution du groupe ISILOG - Asset Management, Service Management,  Continuous...
Solution du groupe ISILOG - Asset Management, Service Management, Continuous...ISILOG
 
L’audace au féminin dans l'univers professionnel
L’audace au féminin dans l'univers professionnelL’audace au féminin dans l'univers professionnel
L’audace au féminin dans l'univers professionnelLinkedIn
 
Les Francais et les plateformes communautaires de marques
Les Francais et les plateformes communautaires de marquesLes Francais et les plateformes communautaires de marques
Les Francais et les plateformes communautaires de marquesspintank
 
L'évaluation des risques professionnels dans les TPE
L'évaluation des risques professionnels dans les TPEL'évaluation des risques professionnels dans les TPE
L'évaluation des risques professionnels dans les TPEINRSfrance
 

Destacado (16)

Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013
Le document numérique - cours IUT Métiers du livre de Saint Cloud - part2_2013
 
Dss réglementation
Dss   réglementationDss   réglementation
Dss réglementation
 
Evaluation des-risques-professionnels
Evaluation des-risques-professionnelsEvaluation des-risques-professionnels
Evaluation des-risques-professionnels
 
Agilite Puissance3 chez W4
Agilite Puissance3 chez W4Agilite Puissance3 chez W4
Agilite Puissance3 chez W4
 
Agilité chez un éditeur de logiciel
Agilité chez un éditeur de logicielAgilité chez un éditeur de logiciel
Agilité chez un éditeur de logiciel
 
W4 - L'IT et le métier ensemble pour des applications sur mesure
W4 - L'IT et le métier ensemble pour des applications sur mesureW4 - L'IT et le métier ensemble pour des applications sur mesure
W4 - L'IT et le métier ensemble pour des applications sur mesure
 
Programme congres documation 2008
Programme congres documation 2008Programme congres documation 2008
Programme congres documation 2008
 
Documation : Best of 2011
Documation : Best of  2011Documation : Best of  2011
Documation : Best of 2011
 
Solution du groupe ISILOG - Asset Management, Service Management, Continuous...
Solution du groupe ISILOG - Asset Management, Service Management,  Continuous...Solution du groupe ISILOG - Asset Management, Service Management,  Continuous...
Solution du groupe ISILOG - Asset Management, Service Management, Continuous...
 
Cp documation 2007 lancement
Cp documation 2007 lancementCp documation 2007 lancement
Cp documation 2007 lancement
 
Inrs du-ed887
Inrs du-ed887Inrs du-ed887
Inrs du-ed887
 
L’audace au féminin dans l'univers professionnel
L’audace au féminin dans l'univers professionnelL’audace au féminin dans l'univers professionnel
L’audace au féminin dans l'univers professionnel
 
Les Francais et les plateformes communautaires de marques
Les Francais et les plateformes communautaires de marquesLes Francais et les plateformes communautaires de marques
Les Francais et les plateformes communautaires de marques
 
L'évaluation des risques professionnels dans les TPE
L'évaluation des risques professionnels dans les TPEL'évaluation des risques professionnels dans les TPE
L'évaluation des risques professionnels dans les TPE
 
L’e mailing2012
L’e mailing2012L’e mailing2012
L’e mailing2012
 
Build Features, Not Apps
Build Features, Not AppsBuild Features, Not Apps
Build Features, Not Apps
 

Similar a Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

EBD 2013 le document, document numérique
EBD 2013 le document, document numériqueEBD 2013 le document, document numérique
EBD 2013 le document, document numériqueLuc Bellier
 
Se Documenter 2
Se Documenter 2Se Documenter 2
Se Documenter 2apajard
 
Le documentaliste et le dépôt numérique
Le documentaliste et le dépôt numériqueLe documentaliste et le dépôt numérique
Le documentaliste et le dépôt numériqueAdou Jean Constant ATTA
 
Collaboratoires & shs lyon ens
Collaboratoires & shs lyon ensCollaboratoires & shs lyon ens
Collaboratoires & shs lyon ensManuel Zacklad
 
CDI/CCC - Documentation et ressources : les enjeux du numérique
CDI/CCC - Documentation et ressources : les enjeux du numériqueCDI/CCC - Documentation et ressources : les enjeux du numérique
CDI/CCC - Documentation et ressources : les enjeux du numériqueElie ALLOUCHE
 
De la lecture à la navigation: quelles compétences médiatiques
De la lecture à la navigation: quelles compétences médiatiquesDe la lecture à la navigation: quelles compétences médiatiques
De la lecture à la navigation: quelles compétences médiatiquesPierre Fastrez
 
Développer la médiation des collections numériques
Développer la médiation des collections numériquesDévelopper la médiation des collections numériques
Développer la médiation des collections numériquescspirin
 
Les professionnels de l'info-doc à l'heure des RSE et du Web Sémantique
Les professionnels de l'info-doc à l'heure des RSE et du Web SémantiqueLes professionnels de l'info-doc à l'heure des RSE et du Web Sémantique
Les professionnels de l'info-doc à l'heure des RSE et du Web SémantiqueKnowledgeConsult
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDAnonue12
 
La politique documentaire à l'heure du numérique 3/3
La politique documentaire à l'heure du numérique 3/3La politique documentaire à l'heure du numérique 3/3
La politique documentaire à l'heure du numérique 3/3cspirin
 
Isaac referentiels-ist12-121002051942-phpapp01
Isaac referentiels-ist12-121002051942-phpapp01Isaac referentiels-ist12-121002051942-phpapp01
Isaac referentiels-ist12-121002051942-phpapp01Parc De Camargue
 

Similar a Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013 (20)

EBD 2013 le document, document numérique
EBD 2013 le document, document numériqueEBD 2013 le document, document numérique
EBD 2013 le document, document numérique
 
2013 bibnum ebd
2013 bibnum ebd2013 bibnum ebd
2013 bibnum ebd
 
Se Documenter 2
Se Documenter 2Se Documenter 2
Se Documenter 2
 
Rech doc de base
Rech doc de baseRech doc de base
Rech doc de base
 
Enmi alain mille
Enmi alain milleEnmi alain mille
Enmi alain mille
 
Le documentaliste et le dépôt numérique
Le documentaliste et le dépôt numériqueLe documentaliste et le dépôt numérique
Le documentaliste et le dépôt numérique
 
Documentaliste dans un environnement numérique
Documentaliste dans un environnement numériqueDocumentaliste dans un environnement numérique
Documentaliste dans un environnement numérique
 
Collaboratoires & shs lyon ens
Collaboratoires & shs lyon ensCollaboratoires & shs lyon ens
Collaboratoires & shs lyon ens
 
CDI/CCC - Documentation et ressources : les enjeux du numérique
CDI/CCC - Documentation et ressources : les enjeux du numériqueCDI/CCC - Documentation et ressources : les enjeux du numérique
CDI/CCC - Documentation et ressources : les enjeux du numérique
 
De la lecture à la navigation: quelles compétences médiatiques
De la lecture à la navigation: quelles compétences médiatiquesDe la lecture à la navigation: quelles compétences médiatiques
De la lecture à la navigation: quelles compétences médiatiques
 
2016 09 formation-documentaire_des7104
2016 09 formation-documentaire_des71042016 09 formation-documentaire_des7104
2016 09 formation-documentaire_des7104
 
Pd Eoct08
Pd Eoct08Pd Eoct08
Pd Eoct08
 
Développer la médiation des collections numériques
Développer la médiation des collections numériquesDévelopper la médiation des collections numériques
Développer la médiation des collections numériques
 
TEI & Humanités digitales
TEI & Humanités digitalesTEI & Humanités digitales
TEI & Humanités digitales
 
Les professionnels de l'info-doc à l'heure des RSE et du Web Sémantique
Les professionnels de l'info-doc à l'heure des RSE et du Web SémantiqueLes professionnels de l'info-doc à l'heure des RSE et du Web Sémantique
Les professionnels de l'info-doc à l'heure des RSE et du Web Sémantique
 
CRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDACRFCB AMU_evolutions-catalogage_091213_RDA
CRFCB AMU_evolutions-catalogage_091213_RDA
 
2016 formation documentaire_des8003
2016 formation documentaire_des80032016 formation documentaire_des8003
2016 formation documentaire_des8003
 
La politique documentaire à l'heure du numérique 3/3
La politique documentaire à l'heure du numérique 3/3La politique documentaire à l'heure du numérique 3/3
La politique documentaire à l'heure du numérique 3/3
 
2014 formation documentaire_des8003
2014 formation documentaire_des80032014 formation documentaire_des8003
2014 formation documentaire_des8003
 
Isaac referentiels-ist12-121002051942-phpapp01
Isaac referentiels-ist12-121002051942-phpapp01Isaac referentiels-ist12-121002051942-phpapp01
Isaac referentiels-ist12-121002051942-phpapp01
 

Último

Formation M2i - Femmes entrepreneures : soyez actrices du changement
Formation M2i - Femmes entrepreneures : soyez actrices du changementFormation M2i - Femmes entrepreneures : soyez actrices du changement
Formation M2i - Femmes entrepreneures : soyez actrices du changementM2i Formation
 
Rapport projet de fin d'études licence PFE
Rapport projet de fin d'études licence PFERapport projet de fin d'études licence PFE
Rapport projet de fin d'études licence PFEAhmam Abderrahmane
 
Semaine de la Passion de Jésus-Christ.pptx
Semaine de la Passion de Jésus-Christ.pptxSemaine de la Passion de Jésus-Christ.pptx
Semaine de la Passion de Jésus-Christ.pptxMartin M Flynn
 
La Projection orthogonale en dessin technique
La Projection orthogonale en dessin techniqueLa Projection orthogonale en dessin technique
La Projection orthogonale en dessin techniquessuser4dbdf2
 
Présentation de lancement de la SAE203 - MMI S2
Présentation de lancement de la SAE203 - MMI S2Présentation de lancement de la SAE203 - MMI S2
Présentation de lancement de la SAE203 - MMI S2JeanLucHusson
 
Exercice de FLE pour enfants sur les transports et les prépositions
Exercice de FLE pour enfants sur les transports et les prépositionsExercice de FLE pour enfants sur les transports et les prépositions
Exercice de FLE pour enfants sur les transports et les prépositionslaetitiachassagne
 
Planning de la semaine du 25 mars au 2 avril 2024
Planning de la semaine du 25 mars au 2 avril 2024Planning de la semaine du 25 mars au 2 avril 2024
Planning de la semaine du 25 mars au 2 avril 2024frizzole
 

Último (7)

Formation M2i - Femmes entrepreneures : soyez actrices du changement
Formation M2i - Femmes entrepreneures : soyez actrices du changementFormation M2i - Femmes entrepreneures : soyez actrices du changement
Formation M2i - Femmes entrepreneures : soyez actrices du changement
 
Rapport projet de fin d'études licence PFE
Rapport projet de fin d'études licence PFERapport projet de fin d'études licence PFE
Rapport projet de fin d'études licence PFE
 
Semaine de la Passion de Jésus-Christ.pptx
Semaine de la Passion de Jésus-Christ.pptxSemaine de la Passion de Jésus-Christ.pptx
Semaine de la Passion de Jésus-Christ.pptx
 
La Projection orthogonale en dessin technique
La Projection orthogonale en dessin techniqueLa Projection orthogonale en dessin technique
La Projection orthogonale en dessin technique
 
Présentation de lancement de la SAE203 - MMI S2
Présentation de lancement de la SAE203 - MMI S2Présentation de lancement de la SAE203 - MMI S2
Présentation de lancement de la SAE203 - MMI S2
 
Exercice de FLE pour enfants sur les transports et les prépositions
Exercice de FLE pour enfants sur les transports et les prépositionsExercice de FLE pour enfants sur les transports et les prépositions
Exercice de FLE pour enfants sur les transports et les prépositions
 
Planning de la semaine du 25 mars au 2 avril 2024
Planning de la semaine du 25 mars au 2 avril 2024Planning de la semaine du 25 mars au 2 avril 2024
Planning de la semaine du 25 mars au 2 avril 2024
 

Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

  • 1. Le document numérique »Nature, accès et médiation des documents dans un contexte numérique
  • 2. Appréhender un document » Le document comme objet, comme contenu, comme dispositif de lecture, comme support 2 Luc Bellier 2013
  • 3. Qu’est-ce qu’un document ? Tablette d’argile : textes juridiques ou comptables Rouleau de papyrus : textes sacrés 3 Luc Bellier 2013
  • 4. Qu’est-ce qu’un document ? Films Fiches 4 Luc Bellier 2013
  • 5. Qu’est-ce qu’un document ? Contenu/contenant Lecture et dispositif de lecture 5 Luc Bellier 2013
  • 6. Qu’est-ce qu’un document ? Contenu/contenant Lecture et dispositif de lecture 6 Luc Bellier 2013
  • 7. Qu’est-ce qu’un document ? Un système de valeurs autour des documents, symboliques et économiques. 7 Luc Bellier 2013
  • 8. Organiser les documents Les ranger, les trouver, les décrire 8 Luc Bellier 2013
  • 9. Produire les documents 9 Luc Bellier 2013
  • 10. Introduction » Nature et structure du document numérique  La notion de document : d’une définition formelle à une approche par écosystème  Les types de fichiers : Les formats textes, les formats images, les formats multimédia  La granularité du document, structuration et déstructuration » Produire et décrire le document numérique  Le cas de la numérisation  Le cas des de ePub  Les identifiants » Les métadonnées  Les métadonnées pour la recherche • Le cas des catalogues • Le cas des moteurs • Approche sémantique  Les métadonnées comme point d’accès • Accès centralisés (catalogue et/ou moteur) • Accès distribués fermés et ouverts (OAI, RSS et OPDS) • L’interopérabilité sémantique • Les nouvelles métadonnées (folksonomies) • Multiplier les accès et multiplier les documents » Les enjeux des accès et de la médiation:  Maitrise de la chaîne et des formats  Longue traine et économie de l’attention  Appréhender la collection numérique : le cas des bibliothèques  La médiation autour des documents numériques 10 Luc Bellier 2013
  • 11. Le document numérique » Nature et structure du document numérique : La notion de document 11 Luc Bellier 2013
  • 12. Nature et structure du document numérique » La notion de document » Définition ISO (International Organisation for Standardization) • Ensemble formé par un support et une information généralement enregistré de façon permanente et tel qu’il puisse être lu par l’homme ou la machine » Vocabulaire de la documentation • Ensemble d’un support d’information, quel qu’il soit, des données enregistrées sur ce support et de leur signification, servant à la consultation, l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus, film…Le tout constitue une unité autonome. 12 Luc Bellier 2013
  • 13. Nature et structure du document numérique » La notion de document  « Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un système documentaire » Suzanne Briet 1951  Le vu, le lu, le su (Jean-Michel Salaün) • Le vu : la forme, le support • Le lu : le texte, le contenu, le fond • Le su : le medium, l’attention, le système d’échange » http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-la-publication/ » http://blogues.ebsi.umontreal.ca/jms/index.php/ 13 Luc Bellier 2013
  • 14. Nature et structure du document numérique » La notion de document » Le document ne peut être dissocié de ses environnements :  Fond, forme, destination font parti intégrante du document si celui-ci doit s’inscrire dans un système (documentaire, d’échanges etc.)  En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces trois dimensions, et traité en conséquence : • La diffusion (médium) • La forme (description, reproduction, déclinaisons de différents supports etc.) • Le fond (la pertinence du contenu au regard des deux autres dimensions) 14 14 Luc Bellier 2013
  • 15. Le document numérique Nature et structure du document numérique : les formats de fichiers 15 Luc Bellier 2013
  • 16. Nature et structure du document numérique Les formats de fichiers 16 Luc Bellier 2013
  • 17. Nature et structure du document numérique Les formats de fichiers 17 17 Luc Bellier 2013
  • 18. Nature et structure du document numérique Les formats de fichiers 18 Luc Bellier 2013
  • 19. Nature et structure du document numérique Les formats de fichiers » Formats des documents numériques » Convention utilisée pour représenter des données sous forme binaire  Image, texte, son...  Peut contenir des métadonnées » Un format peut avoir plusieurs versions  PDF/A , PDF 1.4… » Un format peut avoir différents profils d'application  Plusieurs « couches » possibles (formats capsules ou enveloppes)  Compression » Formats propriétaires / ouverts / libres 19 Luc Bellier 2013
  • 20. Nature et structure du document numérique Les formats de fichiers Métadonnées 20 Luc Bellier 2013
  • 21. Nature et structure du document numérique Les formats de fichiers Métadonnées 21 Luc Bellier 2013
  • 22. Nature et structure du document numérique Les formats de fichiers Métadonnées 22 Luc Bellier 2013
  • 23. Le document numérique » Nature et structure du document numérique : la granularité 23 Luc Bellier 2013
  • 24. Nature et structure du document numérique La granularité des documents numériques Collection Document Vue de Volume, tome, détail (notice bibliographique) fascicule... Page (article) Un document complexe peut avoir plusieurs niveaux d’accès ou niveaux de granularité  Document simple : pas de problème de structure en soi, mais peut tout de même avoir plusieurs niveaux d’accès Lot Vue de (notice Image Collection bibliographique détail ) (légende) 24 Luc Bellier 2013
  • 25. Le document numérique » Nature et structure du document numérique  La notion de document : d’une définition formelle à une approche par écosystème  Les types de fichiers : Les formats textes, les formats images, les formats multimédia  La granularité du document, structuration et déstructuration » Produire et décrire le document numérique  Le cas de la numérisation  Le cas des de ePub  Les identifiants » Les métadonnées  Les métadonnées pour la recherche • Le cas des catalogues • Le cas des moteurs • Approche sémantique  Les métadonnées comme point d’accès • Accès centralisés (catalogue et/ou moteur) • Accès distribués fermés et ouverts (OAI, RSS et OPDS) • L’interopérabilité sémantique • Les nouvelles métadonnées (folksonomies) • Multiplier les accès et multiplier les documents » Les enjeux des accès et de la médiation:  Maitrise de la chaîne et des formats  Longue traine et économie de l’attention  Appréhender la collection numérique : le cas des bibliothèques  La médiation autour des documents numériques 25 Luc Bellier 2013
  • 26. Le document numérique » Produire et décrire le document numérique : le cas de la numérisation 26 Luc Bellier 2013
  • 27. Produire et décrire le document numérique » Le cas de la numérisation Sélection Acquisition Relecture encodage Prestataire Signalement En mode texte Mise en Prestataire Indexation ligne Numérisation Prestataire En mode image structuration Contrôle transformation http://www.bnf.fr/fr/collections_et_services/bibliotheques_numeriques_gallica/a.numerisation_masse_bnf.html Compétences Compétences Pas de compétences bibliothéconomiques techniques particulières 27 Luc Bellier 2013
  • 28. Produire et décrire le document numérique » Le cas de la numérisation 00100000001000000010000000110001001100100011000000100000001 d’une collection 00000001000000010000000110101001110000010000000100000001101 Constitution Sélection 01001000000010000000100000001100010011100100111000001100010 01011010011000000111001001011010011001100110000010101000011 » Sélection 00010011010000111010001100100011001000111010001100000011000 Collecte / production 10010111000110110001100100011100101011010001000000010000000 10000000110011001110000011100100111000001011100011011100110 » Acquisition 00000100000001000000010000000110010001100110011010100110010 Description : Métadonnées / 00101110001101000011010100100000001000000010000000100000001 Gestion d’une 00000001011010011000100101110001101100011011000100000001000 collection » Description : 00001000000010110100110111001011100110111001100100010000000 indexation 10000000101101001100010011100000101110001101100011000100100 Catalogage 00000100000001011010011100000110000001011000110000001100000 Préparation à la 01000000010000000101101001110000011000000101110001100000011 00000010000000100000001000000011000100100000001000000011010 » Préparation à la d’une collection 00011001100100000001000000010000000111001001000000010000000 conserrvatopn Rangement et consultation : Empaquetage 10000000100000001110010011100000111001001011100011010000110 01000100000001000000010000000100000001000000011000100110110 » consultation : 00101110001100000011001000100000001000000010000000100000001 Équipement Gestion 00000001101010011001100101110001110000011001100100000001000 00001000000010000000100000001101010011011000101110001101100 01100100010000000100000001000000010000000100000001000000011 01000010111000111000001100010010000000100000001000000010000 » Magasinage Préservation 00011011100111001001100110010111000110101001110000010000000 10000000100000001000000010000000100000001100110010111000110 01100110100000010100010000000100000001000000011000100110010 d’une collection » Conservation Accès 00110000001000000010000000100000001000000011010100111000001 Consultation 00000001000000011010100100000001000000010000000110001001110 01001110000011000100101101001100000011100100101101001100110 » Communication Valorisation 01100000101010000110001001101000011101000110010001100100011 10100011000000110101001011100011011100111000001110000101101 00010000000100000001000000011001100111000001110010011010000 » Valorisation 10111000110110001101000010000000100000001000000011001000110 10100110100001101100010111000111000001110000010000000100000 00100000001000000010000001000000010110100111000001100000010 28 Luc Bellier 2013
  • 29. Produire et décrire le document numérique » Le cas de la numérisation Numériser en mode image  La numérisation en mode image s’intéresse à la forme et donc à la structure physique  Avantages :  un fac-similé  préserve l’intégrité de l’original  Inconvénients :  un seul point d ’accès : la notice bibliographique  pas de possibilités de manipulation du texte  poids des images > stockage, temps de téléchargement  mise en place de chaînes de numérisation complexes 29 Luc Bellier 2013
  • 30. Produire et décrire le document numérique » Le cas de la numérisation Pour produire Pour visualiser Pour archiver 30 Luc Bellier 2013
  • 31. Produire et décrire le document numérique » Le cas de la numérisation Capture du document par un signal lumineux analyse de l’intensité lumineuse par un capteur CDD (charged- coupleddevice) une seule analyse pour le noir et blanc analyse de 3 faisceaux lumineux séparés par un prisme et des filtres rouges, verts et bleus (RVB) pour des documents en couleur conversion en signal électrique binaire selon une grille propre au mode de codage Production du fichier bitmap 31 Luc Bellier 2013
  • 32. Produire et décrire le document numérique » Le cas de la numérisation » Processus • Passage d’un support physique à un état dit dématérialisé • Changement de mode de codage : passage d’un mode de codage analogique à un codage numérique – Information analogique : le signal est continu => onde lumineuse – Information numérisée : représentée par un échantillon de valeurs du signal analogique et codé à l’aide de numéraux (0 ou 1) Échelle 16 bits Échelle 2 bits » Caractéristiques techniques • Ces changements se font par un processus technologique : la numérisation et à l’aide d’un matériel spécifique : le numériseur (ou scanner) • Le fichier résultant de la numérisation est un fichier bitmap 32 32 Luc Bellier 2013
  • 33. Produire et décrire le document numérique » Le cas de la numérisation •NUMERISATION •RESTITUTION •0000000000 •0001110000 •0010001100 •0100000100 •1000000010 •1111111111 •1000000000 •1000000000 •0100000010 •0010000100 •0001111000 •In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987. Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution et donc la qualité de l’image mais aussi le poids du fichier Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs) Le mode de compression La taille de l’image est fonction de ces trois paramètres Luc Bellier 2012 33 Luc Bellier 2013
  • 34. Produire et décrire le document numérique » Le cas de la numérisation •(*) Les imprimantes couleur utilisent le modèle CMJN (cyan, magenta, jaune et noir) qui est celui de l’imprimerie en quadrichromie. Type d’image Nbre de bits Valeurs codées Remarques 2 noir = 1 utilisé pour le texte noir et blanc blanc = 0 avec des niveaux de 8 256 niveaux utilisé pour les documents iconographiques gris de gris noir et blanc 3x8 3 x 256 niveaux par 3 couleurs : rouge/vert/bleu couleur analyse couleur soit 16,4 (codage utilisé par les moniteurs et les RVB(*) millions de couleurs téléviseurs) 34 Luc Bellier 2013
  • 35. Produire et décrire le document numérique » Le cas de la numérisation » Caractéristiques générales • reproduction à l’identique, fac-simile • volume des fichiers très important, ce qui a un impact sur : - le choix des supports de stockage - les possibilités et les temps de transmission par réseau • un seul point d’accès, la notice bibliographique • pas de manipulations du texte, document non modifiable (pas d’accès au contenu) • mise en place de chaînes de numérisation complexes » Qualité • La qualité et la lisibilité du document numérique restitué est variable selon : - l’état initial du document - la résolution retenue - les performances du numériseur (scanner) et le niveau du réglage des contrastes 35 Luc Bellier 2013
  • 36. Produire et décrire le document numérique » Le cas de la numérisation » Images en noir et blanc  2 tons = 1 bit par point (8 bits = 1 octet)  Format TIFF (1 image par page, 1 fichier par page)  Résolution 300 à 600 dpi (300 à 600 points par pouce => définition)  Image légère et lisible, adaptée à la lecture à l’écran des imprimés Zoom 400% image noir et blanc 300 dpi Zoom 100% image noir et blanc 300 dpi 36 36 Luc Bellier 2013
  • 37. Produire et décrire le document numérique » Le cas de la numérisation » Images en niveaux de gris  256 tons = 8 bits par point  Format TIFF V6 monopage (depuis 2006)  Format JFIF compressé JPEG (avant 2006)  Résolution 300 à 600 dpi  Image fine et assez lourde (presse, ouvrages de mauvaise qualité) Zoom 400% image niveau de gris 300 dpi Zoom 100% image niveau de gris 300 dpi 37 Luc Bellier 2013
  • 38. Produire et décrire le document numérique » Le cas de la numérisation » Images en couleur RVB  16,7 millions de tons = 24 bits par point ;  profil colorimétrique Adobe 98  Format TIFF  Résolution 300 à 600 dpi  Format lourd utilisé pour garder la couleur des originaux si cela se justifie. Zoom 400% image couleur 300 dpi Zoom 100% image couleur 300 dpi 38 Luc Bellier 2013
  • 39. Produire et décrire le document numérique » Le cas de la numérisation » La compression » Plus une image est de bonne qualité plus elle est lourde. La compression peut permettre de diminuer fortement le poids d’une image sans abaisser dans les mêmes proportions la qualité. » Elle permet de réduire la taille des fichiers en supprimant des pixels ou des couleurs  Compression sans perte  Compression avec perte » Les formats engendrant des pertes de données irréversibles sont à éviter lorsque l’on veut assurer la sauvegarde à long terme des images Zoom 400% image couleur 300 dpi Zoom 100% image couleur 300 dpi agrandi dans la présentation 39 Luc Bellier 2013
  • 40. Produire et décrire le document numérique » Le cas de la numérisation Format de compression IUT Groupe 4 Codage ligne par ligne puis corrélation des lignes entre elles Les lignes qui se suivent se ressemblent, on va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre Bidirectionnelle(Read modifié) Taux les plus fréquents : 8 à 20 40 40 Luc Bellier 2013
  • 41. Format de compression JPEG » Le cas de la numérisation codage compression restitution Paramétrage du taux de qualité (0 à 100%) Pour un taux = 80%) la compression est comprise entre 5 et 10 Utilisé pour les images 8 bits et 24 bits 41 Luc Bellier 2013
  • 42. Produire et décrire le document numérique » Le cas de la numérisation Kirtas APT 2400 42 Luc Bellier 2013
  • 43. Produire et décrire le document numérique » Le cas de la numérisation Digibook 2000LC Copybook Suprascan A0 43 Luc Bellier 2013
  • 44. Produire et décrire le document numérique » Le cas de la numérisation Microfiches Microfilms 44 Luc Bellier 2013
  • 45. Produire et décrire le document numérique » Le cas de la numérisation Docuscan 6000 Plus de 6000 pages/heure 45 Luc Bellier 2013
  • 46. Produire et décrire le document numérique » Le cas de la numérisation Redressement Recadrage des pages Illustrations Binarisation(transfor mation des images de niveau de gris et couleur en noir et blanc) Filtrage des formes (redressement des blancs, des lignes, des caractères à l’intérieur d’une image) 46 Luc Bellier 2013
  • 47. Produire et décrire le document numérique » Le cas de la numérisation » Les formats d’image…  ouverts et libres • SVG Format de diffusion dans Gallica • PNG • Jpeg2000  ouverts et propriétaires • TIFF Formats de numérisation BnF 47 Luc Bellier 2013
  • 48. Produire et décrire le document numérique » Le cas de la numérisation  La numérisation en mode texte s’intéresse directement au contenu et donc à la structure logique  Avantages  recherche plein texte et autres manipulations  souplesse et portabilité  Accessibilité pour les personnes en situation de handicap visuel  Inconvénients  lourdeur de réalisation  coût 48 Luc Bellier 2013
  • 49. Produire et décrire le document numérique » Le cas de la numérisation » Les techniques de création du mode texte :  reconnaissance automatique de caractères ou OCR • fortement conditionnée par la qualité de numérisation • problèmes : caractères anciens, mal formés, caractères spéciaux, titres… • correction manuelle obligatoire  la saisie • saisie manuelle : problème de ressources humaines ! • double saisie manuelle comparée 49 Luc Bellier 2013
  • 50. Produire et décrire le document numérique » Le cas de la numérisation L’OCR et le mode texte » L’OCR est un processus automatique » La qualité comme la reconnaissance sont calculés par des machines » C’est le nombre de caractères suspects divisés par le nombre total de caractères sur une page. » Une page de dix caractères vaut autant qu’une page de 10000 caractères dans un même ouvrage. 50 Luc Bellier 2013
  • 51. Produire et décrire le document numérique » Le cas de la numérisation L’OCR et le mode texte » Les formats d’encodage du texte (basés sur XML)…  Structure logique Format de production • TEI et tdmNum  Structure physique Format de production • ALTO • HTML Formats de consultation 51 51 Luc Bellier 2013
  • 52. Produire et décrire le document numérique » Le cas de la numérisation (http://www.bium.univ-paris5.fr/histmed/medica.htm) Liste des chapitres en mode texte Pages en mode image 52 Luc Bellier 2013
  • 53. Produire et décrire le document numérique » Le cas de la numérisation » (http://www.persee.fr) Mode image Mode texte (OCR de très bonne qualité, documents récents) 53 Luc Bellier 2013
  • 54. Produire et décrire le document numérique » Le cas de la numérisation Visualisation du mode image uniquement, mode texte issu d’OCR en sous-couche permettant la recherche plein texte et le surlignage des résultats de la recherche (http://books.google.fr/) 54 Luc Bellier 2013
  • 55. Produire et décrire le document numérique » Le cas de la numérisation METADONNEES 55 Luc Bellier 2013
  • 56. Produire et décrire le document numérique » Le cas de la numérisation Un document numérique / électronique, c’est une suite de fichiers sans lien entre eux identifiant unique (localisation / identification) Métadonnées ? ? Métadonnées ? Métadonnées administratives descriptives de structure •gérer la collection, c’est-à-dire •rattacher le document •rattacher les à l’original / différentes •gérer les droits d’accès fichiers entre eux versions d’un •préserver les informations techniques document •reconstituer la nécessaires à la lecture des fichiers structure du •donner accès à la document •garantir l ’intégrité des fichiers et le suivi de copie numérique / leurs éventuelles modifications électronique 56 Luc Bellier 2013
  • 57. Produire et décrire le document numérique » Le cas de la numérisation 57 Luc Bellier 2013
  • 58. Produire et décrire le document numérique » Le cas de la numérisation Meta descriptives image et de structure 000001.tif ID.xml Texte Table Alto 000001.xml TID.xml •Une image par page donc deux fichiers par page •Un fichier xml de structure par document et éventuellement un fichier table des matière. •Le fichier de structure porte également des données descriptive pour le lien avec le catalogue 58 Luc Bellier 2013
  • 59. Produire et décrire le document numérique » Le cas de la numérisation » Des données sur les données ...  qui servent à organiser la connaissance et à utiliser et exploiter le document • Métadonnées descriptives, contextuelles et structurelles - Ex. : Notice bibliographique, indexation - Ex. : Date et formats de numérisation - Ex. : Données sur les fichiers pour reconstituer l’ouvrage (Cf. plus loin) • initiales et ajoutées tout au long du cycle de vie du document numérisé  qui servent à le maintenir accessible dans le temps et à garantir et contrôler cet accès • Métadonnées administratives et techniques - Ex. : Droits de lecture en interne seulement ou droit sur Internet • initiales et ajoutées tout au long du cycle de vie du document numérisé - Ex. : passage d’un document protégé dans le domaine public 59 Luc Bellier 2013
  • 60. Produire et décrire le document numérique » Le cas de la numérisation • Les métadonnées descriptives : – appréhender le contenu d’un objet • description bibliographique approfondie et détaillée – identifier un objet ou un groupe d’objets • description bibliographique minimale • identifiant pérenne – identifier les parties qui composent un objet • information de structure – échanger des objets ou des descriptions d’objets • description bibliographique dans un format normalisé 60 Luc Bellier 2013
  • 61. Produire et décrire le document numérique » Le cas de la numérisation • Du catalogage aux métadonnées – les métadonnées • une description d’un objet matériel ou non, les métadonnées peuvent être dans le document lui-même • multiplication des « points d’accès », information structurée • une localisation : URL / URN / URI • De « nouveaux » formats – pour les notices : Dublin Core, EAD + formats dérivés de MARC en XML (MarcXML, MODS, BiblioML) – nouveau : pour le contenu des documents eux-mêmes • autrefois on n’entrait pas « dans » le document • nouveaux besoins : OCR, tables des matières en saisie, structure du défilement des pages… • nouveau formats : TEI, METS, ALTO 61 Luc Bellier 2013
  • 62. Produire et décrire le document numérique » Le cas de la numérisation • Une tradition dans les bibliothèques – Le catalogage : création d’information descriptive secondaire (notice) qui caractérise une information primaire (document) – Les métadonnées : des données (secondaires) sur les données (primaires) • Caractéristiques du catalogage : – un contenu normalisé : ISBD, AACR... – Un format pour le traitement informatique : MARC (Machine readablecataloguing) – une notice bibliographique c’est… • une description d’un objet matériel • des « points d’accès » pour retrouver le document • une localisation pour se le procurer 62 Luc Bellier 2013
  • 63. Produire et décrire le document numérique » Le cas de la numérisation Métadonnées descriptives 63 Luc Bellier 2013
  • 64. Produire et décrire le document numérique » Le cas de la numérisation Métadonnées descriptives Métadonnées de 64 structure : Luc Bellier 2013
  • 65. Produire et décrire le document numérique » Le cas de la numérisation Métadonnées de structure : http://bibnum.bnf.fr/refNum/ http://www.loc.gov/standards/mets/METSOverview.v2_fr.html 65 Luc Bellier 2013
  • 66. Produire et décrire le document numérique » Le cas de la numérisation Métadonnées de structure : le fichier alto http://www.loc.gov/standards/alto/ 66 Luc Bellier 2013
  • 67. Produire et décrire le document numérique » Le cas de la numérisation Métadonnées descriptives Métadonnées de 67 structure : Luc Bellier 2013
  • 68. Produire et décrire le document numérique » Le cas de la numérisation Métadonnées descriptives : Métadonnées de structure : 68 Luc Bellier 2013
  • 69. Produire et décrire le document numérique » Le cas de la numérisation Refnum refnum tdm Tiff Notice Alto header Tiff Tiff Biblio T Tiff ID Alto Tiff Alto Alto X Alto Tdm refnum Imprimés Serveurd ’accès TDM 69 Luc Bellier 2013
  • 70. Le document numérique » Nature et structure du document numérique  La notion de document : d’une définition formelle à une approche par écosystème  Les types de fichiers : Les formats textes, les formats images, les formats multimédia  La granularité du document, structuration et déstructuration » Produire et décrire le document numérique  Le cas de la numérisation  Le cas des de ePub  Les identifiants » Les métadonnées  Les métadonnées pour la recherche • Le cas des catalogues • Le cas des moteurs • Approche sémantique  Les métadonnées comme point d’accès • Accès centralisés (catalogue et/ou moteur) • Accès distribués fermés et ouverts (OAI, RSS et OPDS) • L’interopérabilité sémantique • Les nouvelles métadonnées (folksonomies) • Multiplier les accès et multiplier les documents » Les enjeux des accès et de la médiation:  Maitrise de la chaîne et des formats  Longue traine et économie de l’attention  Appréhender la collection numérique : le cas des bibliothèques  La médiation autour des documents numériques 70 Luc Bellier 2013
  • 71. Le document numérique Produire et décrire le document numérique : le cas des ePub et livres numériques 71 Luc Bellier 2013
  • 72. Produire et décrire le document numérique » Le cas des livres numériques ePub Métadonnées Descriptives? Métadonnées de structure ? 72 Luc Bellier 2013
  • 73. Produire et décrire le document numérique » Le cas des livres numériques ePub Métadonnées de structure ? Métadonnées Descriptives? 73 Luc Bellier 2013
  • 74. Produire et décrire le document numérique » Le cas des livres numériques ePub Refnum le cas des livres numériques ePub XML Tiff Meta-inf Manifeste Tiff Tiff T Métadonnées Alto du document Alto X Alto Applications NNNNNNN.ZIP XHTML ou TAR XHTML Imprimés XHTML TDM OPS Table des matières 74 Luc Bellier 2013
  • 75. Produire et décrire le document numérique » Le cas des livres numériques ePub Métadonnées de structure ? Métadonnées Descriptives? 75 Luc Bellier 2013
  • 76. Le document numérique Les identifiants 76 Luc Bellier 2013
  • 77. Produire et décrire le document numérique » Les identifiants • Une référence stable : – nommer la ressource – trouver la ressource sur le réseau – « citabilité » • Un identifiant : – reconnaître la ressource – de manière unique – sur le long terme • Donc deux objectifs : – l’accès – la préservation 77 Luc Bellier 2013
  • 78. Produire et décrire le document numérique » Les identifiants » On dispose de standards pour identifier les documents sur le Web :  URL : localisation  URN : nom  URI : identifiant » L’identifiant (URI) peut être le nom (URN) de la ressource ou son adresse / emplacement (URL) » Aujourd’hui, seules les URL sont interprétées directement par les navigateurs URN URL URI 78 Luc Bellier 2013
  • 79. Produire et décrire le document numérique » Les identifiants Catalogue : visualiseur.bnf.fr Gallica : Gallica.bnf.fr ark:/12148/bpt6k2029102 79 Luc Bellier 2013
  • 80. Produire et décrire le documents numérique » Conclusion » Un document numérique c'est  Des fichiers + des métadonnées  Une structure physique / logique  Un environnement matériel / logiciel permettant d'interpréter le document » >> construire les accès à la collection numérique » >> préserver les documents numériques 80 Luc Bellier 2013
  • 81. Produire et décrire le document numérique » Conclusion 00100000001000000010000000110001001100100011000000100000001 d’une collection 00000001000000010000000110101001110000010000000100000001101 Constitution Sélection 01001000000010000000100000001100010011100100111000001100010 01011010011000000111001001011010011001100110000010101000011 » Sélection 00010011010000111010001100100011001000111010001100000011000 Collecte / production 10010111000110110001100100011100101011010001000000010000000 10000000110011001110000011100100111000001011100011011100110 » Acquisition 00000100000001000000010000000110010001100110011010100110010 Description : Métadonnées / 00101110001101000011010100100000001000000010000000100000001 Gestion d’une 00000001011010011000100101110001101100011011000100000001000 collection » Description : 00001000000010110100110111001011100110111001100100010000000 indexation 10000000101101001100010011100000101110001101100011000100100 Catalogage 00000100000001011010011100000110000001011000110000001100000 Préparation à la 01000000010000000101101001110000011000000101110001100000011 00000010000000100000001000000011000100100000001000000011010 » Préparation à la d’une collection 00011001100100000001000000010000000111001001000000010000000 conserrvatopn Rangement et consultation : Empaquetage 10000000100000001110010011100000111001001011100011010000110 01000100000001000000010000000100000001000000011000100110110 » consultation : 00101110001100000011001000100000001000000010000000100000001 Équipement Gestion 00000001101010011001100101110001110000011001100100000001000 00001000000010000000100000001101010011011000101110001101100 01100100010000000100000001000000010000000100000001000000011 01000010111000111000001100010010000000100000001000000010000 » Magasinage Préservation 00011011100111001001100110010111000110101001110000010000000 10000000100000001000000010000000100000001100110010111000110 01100110100000010100010000000100000001000000011000100110010 d’une collection » Conservation Accès 00110000001000000010000000100000001000000011010100111000001 Consultation 00000001000000011010100100000001000000010000000110001001110 01001110000011000100101101001100000011100100101101001100110 » Communication Valorisation 01100000101010000110001001101000011101000110010001100100011 10100011000000110101001011100011011100111000001110000101101 00010000000100000001000000011001100111000001110010011010000 » Valorisation 10111000110110001101000010000000100000001000000011001000110 10100110100001101100010111000111000001110000010000000100000 00100000001000000010000001000000010110100111000001100000010 81 Luc Bellier 2013