SlideShare una empresa de Scribd logo
1 de 17
Descargar para leer sin conexión
République Tunisienne                         Université de la manouba
Ministère de l’enseignement supérieur          Institut supérieur de la Documentation




        BiblioML
        Elaboré par Tarek Hamdi

        [M2 GIDN : Bibliothèques Numériques]




         2012/2013
Table des matières
I. Introduction .......................................................................................................................................... 2

II. UNIMARC ............................................................................................................................................. 2

III. XML ..................................................................................................................................................... 3

IV. BiblioML.............................................................................................................................................. 4

V. Avantages de BiblioML ..................................................................................................................... 7

VI. Utilisations et projets en BiblioML ..................................................................................................... 7

VII. Conclusion ......................................................................................................................................... 8

VIII. Exemple d’enregistrement BiblioML................................................................................................ 9

IX. Webographie ................................................................................................................................... 15
I. Introduction


       BiblioML est une représentation en XML (DTD puis schéma) des notices
bibliographiques basée sur le format d’échange UNIMARC qui respect la norme ISO 2709.
La norme ISO 2709 est une norme internationale qui définit la structure des notices contenant
des données bibliographiques.

Pour entamer le sujet de BiblioML, il parait indispensable d’éclaircir la notion d’UNIMARC
et de présenter la technologie XML et les intersections possibles entre eux.


       II. UNIMARC


       UNIMARC est un standard d'échange de données bibliographiques et est aussi définit
comme un format informatique international des données bibliographiques permettant les
échanges entre logiciels documentaires ou bases de données bibliographiques. Principalement
défini par l'IFLA (International Federation of Library and Institutions), l’UNIMARC est
conforme à la norme ISO 2709. Le format UNIMARC est complété, en France, par la
recommandation 995 qui complète l’UNIMARC en prenant en compte le codage des
informations concernant les exemplaires (nombre et numéros d'exemplaires, par exemple).

      UNIMARC est un format "champs" (champ-valeur répétable), adaptable à de
nombreux objets (bibliographie, autorités, classification, archivistique ...).

        Une notice UNIMARC est constituée de différents blocs numérotés qui correspondent
à des types d'informations. Chacun de ces blocs est constitué de champs et de sous-champs.
Les champs sont numérotés, les sous-champs sont introduits par le symbole $ suivi d'une
lettre.

Voici un exemple de fichier UNIMARC correspondant à un exemplaire de code barre
5777008954 de :

               Les Champignons / Jean C. Keller. - Paris : le Livre de poche,
               1983 - 127 p. : ill. ; 17 cm. - (Le Livre de poche; 7847).


       Les rubriques d’UNIMARC                                   Significations
*****cam**22002411**450*                                     [Données codées]
010 ** $a 2-253-03268-9 $b Br. $d 24 F                       [ISBN, reliure, prix]
100 ** $a 19840104d1983****m**y0frey0103****ba               [Données codées]
101 ** $a fre                                                [Code de langue]
102 ** $a FR                                                 [Code de pays]
Les rubriques d’UNIMARC                                     Significations
105 ** $a aay**zz**00|z|                                      [Données codées]
106 ** $a r                                                   [Données codées]
200 1* $a Les Champignons $f Jean C. Keller                   [Titre, auteur]
210 *0 $a Paris $c le Livre de poche $d 1983                  [Edition]
215 ** $a 127 p. $c ill. $d 17 cm                             [Collation]
225 2* $a Le Livre de poche $v 7847                           [Collection]
606 ** $3 $a Champignons                                      [Vedette matiére]
676 ** $a 589.2                                               [Indice Dewey]
700 1* $a Keller $b Jean                                      [Vedette auteur]
995 ** $f 5777008954 $k 589.2 KEL
RQ : les * désignent des espaces = des blancs ou à des positions non renseignées


        Les jeux de caractères ISO sont utilisés pour les échanges de données en format
UNIMARC. Le label de notice, le répertoire, les indicateurs, les codes de sous-zones et les
autres codes spécifiés dans ce manuel doivent être enregistrés en utilisant les caractères de
commande et les caractères graphiques du jeu de caractères ISO 646 (IRV), ou alphabet
international de référence, qui est considéré par défaut comme le jeu de caractères de la
notice. Les techniques d’extension spécifiées dans le jeu de caractères ISO/IEC 2022 sont
utilisées quand plusieurs jeux de caractères sont nécessaires dans une même notice.


       III. XML

       XML (Extensible markup language) est un langage de balisage générique dont le but
est de permettre la fonctionnalité et l’interopérabilité du Web en permettant à plusieurs
systèmes d’information hétérogènes de communiquer et d’échanger. Autrement dit il repose
sur des principes : c’est un langage de balisage extensible ; sa maintenance est assurée par le
W3C; les balises ne sont pas prédéfinies mais libres et précisent le sens ou la structure et non
pas la présentation graphique; le contenu, la structure et la présentation sont nettement
dissociés ; la structure des informations est arborescente.

Les raisons qui rendent intéressantes son utilisation sont que : c’est un format libre et ouvert;
il est indépendant de toute plateforme informatique ; il est promis à une certaine pérennité (il
est répandu dans plusieurs domaines et bénéficie d’une solide structure de maintenance) ; il
facilite l’interopérabilité.

En bibliothèque son utilisation permet : d’afficher des notices bibliographiques sur le Web
(BiblioML, MarcXML, MODS…) ; d’y échanger ces notices (OAI, Dublin Core…) ; d’y
éditer des ressources (TEI, EAD…) ; d’y diffuser de l’information (RDF, RSS, Atom…).
Pour mieux cerner les possibilités permises par XML, faisons une petite comparaison avec le
format Marc. Marc se matérialise sous la forme d’un format de saisie constitué de zones
prédéfinies et immuables, certaines de ces zones permettent de communiquer avec d’autres
systèmes utilisant le même format ce qui permet à plusieurs bibliothèques d’échanger des
notices bibliographiques par l’import ou l’export de celles-ci. Mais ces échanges ne
concernent pas les usagers de quelques bibliothèques qui sont dans l’impossibilité d’accéder
aux notices via le Web (pour cela ils doivent préalablement passer par le site de la
Bibliothèque pour accéder à son OPAC). Alors qu’avec XML, ces notices bibliographiques
deviennent visibles à partir du Web parce qu’étant repérables par les différents outils de
recherche qui le sillonnent. En d’autres termes les OPAC sont mis en surface et accessibles,
en principe, à tout internaute. Un autre avantage parmi d’autres est, par exemple, le
changement de formats de notices de MARC à XML qui se fait sans perte de données,
permettant ainsi une retro-conversion « fidèle » de ces dernières… Ce souci de pallier
l’incapacité du Marc à permettre les échanges sur le WEB, sera à l’origine de la création du
MarcXML par la Bibliothèque du Congrès en juin 2002.


       IV. BiblioML

       BiblioML, ou Bibliographic Markup Language, est une DTD XML (XML Schéma
depuis la version 0.6 ) créée en 1999 sous l’égide de la Mission de la recherche et de la
technologie du Ministère de la Culture français qui souhaitait mettre en place un outil
commun de gestion des références bibliographiques de ses applications XML (dossiers
d'inventaire, dossiers d'artistes, rapports de fouilles, etc.). Cette DTD a été développé par
Martin Sévigny de la société AJLSM pour représenter toutes les informations que l'on trouve
dans une notice UNIMARC (bibliographique et autorités) en format XML.

                     Tableau de synthèse des correspondances

UNIMARC : Bloc et champ                        BiblioML : Elément-père, élément-fils
Bloc des informations descriptives 2XX,         <Description>
champ 200                                       <Title and Responsibility>
Bloc des informations descriptives 2XX,         <Description>
champ 205                                       <EditionGroup>
Bloc des informations descriptives 2XX,         <Description>
champ 210                                       <PublicationGroup>
Bloc des informations descriptives 2XX,         <Description>
champ 215                                       <PhysicalDescription>
Bloc des informations descriptives 2XX,
champ 225
Bloc des notes 3XX                              <Notes>
                                                <Description>
Bloc des notes 3XXBloc 0XX, champ 012           <IdentificationNumbers>
                                                <FingerprintID>
                                                <CodedValues>, mais
Bloc des informations codées 1XX                aussi <Meta> et
                                                <Description>
                                                <RelatedTitles>
Bloc des titres associés 5XX
                                                <Subjects>
Bloc de l'indexation-matière 6XX
                                                <Description>
Bloc de la responsabilité intellectuelle 7XX
                                                <IntellectualResponsibility>
Bloc 8XX des données
                                                <Meta>
Internationales
BiblioML permet la conversion au format XML de notices bibliographiques ou
d'autorité saisies en format UNIMARC. D'ailleurs, le Manuel UNIMARC a servi de document
de référence lors de la création de la DTD et les champs et sous-champs de BiblioML
correspondent à ceux d'UNIMARC. BiblioML comporte 224 éléments (BiblioRecord étant
celui de plus haut niveau), 2 entités (BooleanAttribute et DataContent) mais aucune notation.

       L'element BiblioRecord est composé de:

            Meta : métadonnées liées à l'enregistrement (date et lieu de création, etc...).
             Ces informations ont pour origine différents champs Unimarc, principalement
             les champs 0xx.
            Description : description de l'oeuvre : titre, auteurs, dates, éditeur, droits...
             (champs 2xx et 5xx d'Unimarc)
            Notes : notes concernant l'oeuvre, destinées au public (champs 3xx)
            CodedValues : informations codées relatives à la description de l'oeuvre
             (principalement, les champs 1xx d'Unimarc)
            Subjects : sujets traités par l'oeuvre, et mots-clés correspondant (champs 6xx)
            Relationships : liens vers d'autres oeuvres (champs 4xx)
            IntellectualResponsability : indications de responsabilité intellectuelle telles
             qu'elles figurent dans l'ISBD (champs 7xx)
            LocalData : données locales propres à l'établissement créateur de la notice
             (champs 9xx)
            Tables : table des matières et Index
            Text : texte de présentation de l'ouvrage




       <BiblioRecord Language="fre" id="B590092101_00073.173_001">
               <Meta>...</Meta>
               <Description>...</Description>
               <CodedValues>...</CodedValues>
               <Notes>...</Notes>
               <Subjects>...</Subjects>
               <LocalData>...</LocalData>
               <TableOfContents>...</TableOfContents>
               <Index>...</Index>
       </BiblioRecord>




        L'expressivité d'XML peut être menée plus loin. On peut ainsi tirer parti de
l'imbrication des éléments pour regrouper des informations et les nommer plus explicitement.
Si le champ 200 est le titre, et qu'il y a un sous-champ pour les sous-titres ($e), il n'est pas
désagréable de pouvoir l'indiquer expressément, exemple en "pseudo-code"
La souplesse du format BiblioML permet d'ajouter bien d'autres informations, comme
des index, des tables des matières, des illustrations, et surtout, ce qui est très particulier à
XML, du texte riche. La DTD BiblioML prévoit ainsi des noms permettant qu'une notice
devienne un document avec plus de contenu.

BiblioML et La Compatibilités : Dans une conversion UNIMARC vers BiblioML, la
plupart des champs documentés trouve une place en XML. Pour des usages spécifiques à une
organisation, les outils livrés peuvent être édités (XSL) pour rendre raison à des besoins qui
n'auraient pas été prévus. Par contre, une fois passés en BiblioML, surtout si les contenus ont
été enrichis, un retour en MARC pourrait perdre une partie de l'information.

Outils BiblioML. Autour de BiblioML, on trouvera des outils libres habituels : conversion
depuis l'UNIMARC, transformation de restitution. On mentionne particulièrement BiB-X, une
application libre qui administre, cherche et produit des notices. On notera la possibilité de
pouvoir définir ses propres formulaires de saisie (selon le type de documents), dans un
standard XML (XForm).

        BiblioML apporte des extensions au format UNIMARC, dont voici les plus
significatives :
- Il est possible d'encoder le texte du document en question, inclus dans l'élément <Text>.
- Il est également envisageable d'intégrer des tables et des index, au moyen de la balise
<Tables>, puis <TableOfContent> ou <Index>. Il s'agit d'une nette progression par rapport à
la possibilité de référencer une table des matières au moyen du champ 359 puisqu'il n'y a
plus de limitation de niveaux d'arborescence.

- En ce qui concerne les liens entre notices, indiqués par les éléments <Relationships> puis
<LinkedItem>, plusieurs solutions sont possibles. Comme le propose MARC, un simple lien
entre les notices peut être créé. L'élément <LinkedItem> est alors vide et l'attribut RecordID
indique le numéro de la notice concernée. On peut également envisager d'inclure la seconde
notice dans la première, en utilisant l'élément <BiblioRecord>.

Dans tous les cas, l'attribut « Relation » permet d'indiquer le type de relation entre les deux
ouvrages décrits. BiblioML apporte ainsi davantage de souplesse et de lisibilité que
l'utilisation éventuelle des champs 4XX proposés par UNIMARC.

- L'information concernant les exemplaires locaux peut être donnée directement, alors qu'une
notice d'exemplaire devait être liée à la notice bibliographique dans UNIMARC. Pour cela il
suffit d'utiliser l'élément <Copies> et ses éléments-fils. Cette expérience de traitement avec
BiblioML montre que si toute information de type bibliographique aurait pu être saisie en
MARC, BiblioML apporte davantage de clarté. Les extensions proposées par BiblioML ne
sont donc pas si significatives pour la description bibliographique du livre en tant que telle. Le
véritable enrichissement, c'est de rendre possible l'intégration de tout ou partie du document
primaire.
D’autre part, BiblioML permet une description bibliographique fine et complète, mais
les possibilités de renseigner les métadonnées de gestion techniques et administratives sont
bien moins riches que celles que proposent le Dublin Core ou l’en-tête de la TEI. En effet,
l'encodage dans BiblioML de ces métadonnées se limite à l'élément <Meta>, et elles
correspondent ni plus ni moins à celles qui figurent dans une notice MARC. Cela doit être
perçu comme une limitation, car dans un contexte de numérisation et d'édition sur le
Web, le contexte du document ainsi que les conditions d'accès doivent être précisées.


       V. Avantages de BiblioML


    Brièvement, l’utilisation du format BiblioML nous engendre plusieurs avantages dont les
plus importants sont les suivants :


      Format moderne : basée sur XML, adaptée à Internet
      Format ouvert : mises dans le domaine public, les spécifications de BiblioML sont

       disponibles sur le site officiel du ministère de la culture.

      Modèle de caractères Unicode : toutes les écritures, basées sur ce système de codage

       universel, sont représentables sans ambiguïté.

      Hiérarchie complète : tous les documents sont décrits exactement, quelle que soit la

       complexité de leur structure

      Taille illimitée : la taille des documents ou des zones n'est pas limitée.

      Toutes les extensions sont possibles : texte intégral, table des matières, index,
       illustrations graphiques ou sonores...

      Facilités de compréhension : les balises BiblioML permettent de décrire lisiblement
       la structure et la sémantique de chaque élément


       VI. Utilisations et projets en BiblioML

Utilisant ou S'appuyant sur BiblioML, plusieurs projets ont vu le jour. Voici quelques
applications utilisant BiblioML :

      La bibliographie nationale française (en ligne depuis juillet 2001). Les notices
       bibliographiques sont d'abord cataloguées en Intermarc puis extraites en UNIMARC,
       et ensuite converties en XML selon la DTD BiblioML. Un serveur de transformation
       produit enfin des pages HTML pour publication sur le Web.
   La bibliographie nationale française : le Dépôt légal utilise BiblioML pour générer
       les pages HTML statiques des différents numéros de la Bibliographie
       (http://bibliographienationale.bnf.fr).

      Base de documents SANGIS (Réseau du sud-est asiatique pour un systéme
       d'informations géologiques SANGIS) du CIFEG (centre international pour la
       formation et les échanges en géosciences) : base de données BiblioML pour la
       diffusion d'un catalogue collectif de références bibliographiques dans le domaine des
       sciences de la terre.

      Bilans scientifiques régionaux : projet de base bibliographique BiblioML dans le
       domaine archéologique

      Bibliographie Dossiers d'artistes : projet du Ministère de la culture et de la
       communication, ayant pour but de mettre en place une infrastructure permettant de
       gérer et diffuser des dossiers d'artistes complets et riches, incluant des références
       bibliographiques.

      Article Repository System : un projet du College of Business of Public
       Administration (BPA) de l'université de l'Arizona utilise une base de données
       d'articles et des références en BiblioML

      Open Citation System : un autre projet du BPA de l'université de l'Arizona utilise
       BiblioML "as an architecture-neutral middle layer to store large bibliographic citation
       databases for scientific sharing". Des convertisseurs seront développés de BiblioML
       vers divers formats comme BibTeX et EndNote.


       VII. Conclusion

       La bibliographie est un domaine très "balisé" dans l'informatique documentaire.
Comparativement à d'autres milieux, les bibliothèques ont rapidement implanté des formats et
des systèmes informatiques de catalogage. Les normes "MARC" ont permis de répondre à des
besoins que d'autres formats ne représentaient pas aussi bien. XML permet de représenter
correctement des informations codées en MARC, ainsi que d'autres.

BiblioML devient un format source susceptible d'être inclus ou transformé à destination
d'autres documents XML.

Cependant, pour d'autres contextes, la totalité des informations du format d'archivage ne sont
pas toujours indispensables (exemples : date d'enregistrement, référence à une notice
d'autorité spécifique à un système). Il est alors plus important que la source soit conforme à
l'espace de noms de destination. Ceci permettra une courte revue d'autres standards XML de
la bibliographie, permettant de mieux définir la spécificité d'un format complet de catalogage.

Lorsqu'un système bibliographique est utilisé par des auteurs (en XML), on comprend dès lors
le gros intérêt d'ajouter cette sorte d'exports. Un chercheur pourra par exemple composer sa
bibliographie sur le catalogue d'une bibliothèque, et obtenir son panier dans le format qui lui
est directement utile.
En fin, on peut distinguer les trois points suivants :

      La technologie MARC a donné les moyens de formuler très précisément les besoins
       bibliographiques. Cependant, le format impose des raideurs qui ne sont plus
       nécessaires et qui cantonnent son utilisation à des applications spécifiques et
       généralement commerciales. XML permet un décalque sans perte des informations et
       aussi de profiter des outils propres à cette technologie.
      Une DTD ou Schéma comme BiblioML permet de garder la richesse des catalogues,
       en pouvant y ajouter facilement d'autres informations, comme la table des matières, un
       résumé, un index, une illustration. Fonder un système bibliographique sur ce type de
       format peut par exemple agrémenter les catalogues pour donner un accès plus agréable
       au public.
      Enfin, l'adoption d'un format XML expressif apporte une souplesse à l'information, qui
       lui permet plus facilement d'être servie à des machines (DC, OAI) ou d'être utilisée par
       des auteurs.


       VIII. Exemple d’enregistrement BiblioML

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE BiblioRecord PUBLIC "-//MCC-FR//DTD BiblioML V03//EN" "biblioml_030.dtd">
       <BiblioRecord Language="fre" id="B20">
              <Meta>
                     ………………………….
              </Meta>
              <Description>
                     ………………………….
              </Description>
              <CodedValues>
                     ………………………….
              </CodedValues>
              <Notes>
                     ………………………….
              </Notes>
              <Subjects>
                     ………………………….
              </Subjects>
       </BiblioRecord>
On considère la notice bibliographique écrit sous format BiblioML




                                Métadonnées
Description
Valeurs codées




    Notes




   Subjects
LocalData




Table Of Contents
Index
IX. Webographie
   RESSOURCES EN LIGNE



Bottin, Michel. BiblioML : Une application XML pour les données bibliographiques et
d'autorités, compatible avec (UNI)MARC. [en ligne]. Disponible sur : <
http://www.paris-lavillette.archi.fr/docu/biblioml/fr/index.html>. (consulté le 20/12/2012).

Bibliothèque nationale de France. Manuel UNIMARC : format bibliographique. [en
ligne]. Disponible sur :
<http://www.bnf.fr/fr/professionnels/anx_formats/a.unimarc_manuel_format_bibliographi
que.html#SHDC__Attribute_BlocArticle3BnF>. (consulté le 20/12/2012).

PMB sevices. PMB : Guide de l'administrateur. [en ligne]. Disponible sur :
<http://www.sigb.net/doc/fr_FR/html-admin/>. (consulté le 24/12/2012).

Club BCDI. Unimarc ISO 2709. [en ligne]. Disponible sur : < http://club-bcdi.crdp-
poitiers.cndp.fr/docbcdi3ecole/unimarc.html#def>. (consulté le 24/12/2012).

L'école nationale supérieure d'architecture de Paris La Villette. (Notice
bibliographique). [en ligne]. Disponible sur : < http://www.paris-
lavillette.archi.fr/docu/biblioml/fr/B590092101_00073.173_001.xml>. (consulté le
20/12/2012).

Groupe de Recherche en Apprentissage Automatique Lille 3. BIBLIOML. [en ligne].
Disponible sur : < http://www.grappa.univ-
lille3.fr/~tommasi/InfoDoc/Formats2006/biblioML//bib-elt.html>. (consulté le
20/12/2012).

Blogokat, saga des DTD. Les DTD : 5. BiblioML. [en ligne]. Disponible sur : <
http://blogokat.canalblog.com/archives/2005/01/16/240301.html>. (consulté le
20/12/2012).

SENBIBDOC. Archives du mot-clef BiblioML : N° 10 – XML et bibliothèques. [en
ligne]. Disponible sur : http://antoninbenoitdiouf.com/tag/biblioml/>. (consulté le
20/12/2012).

coverpages. BiblioML - XML for UNIMARC Bibliographic Records. [en ligne].
Disponible sur : < http://xml.coverpages.org/biblioML.html>. (consulté le 20/12/2012).

Glorieux, Frédéric. Bibliographie et XML. [en ligne]. Disponible sur :
<http://projets.ajlsm.com/sdapa/sdapa/infos/standards/bibliographie.html>. (consulté le
20/12/2012).
MOREL-PAIR, Catherine. Métadonnées et XML Des standards efficients de
l’environnement numérique. Villeurbanne : ENSSIB, 2007, 32 p.

Olivier, Mabille. Enrichir le catalogage des documents audiovisuels : étude de faisabilité
au département de l'Audiovisuel. Villeurbanne : ENSSIB, 2006, 82 p.

Bernaudin, Anne-Claire. Mise en ligne d’un guide bibliographique en sciences
religieuses : difficultés, enjeux, perspectives. ENSSIB, 2005, 68 p.

Más contenido relacionado

La actualidad más candente (8)

Formation access
Formation accessFormation access
Formation access
 
Cours access
Cours accessCours access
Cours access
 
Support de cours ACCESS
Support de cours ACCESSSupport de cours ACCESS
Support de cours ACCESS
 
Cours access
Cours accessCours access
Cours access
 
Développement de modules pour odoo (anciennement OpenERP): exemples et exerci...
Développement de modules pour odoo (anciennement OpenERP): exemples et exerci...Développement de modules pour odoo (anciennement OpenERP): exemples et exerci...
Développement de modules pour odoo (anciennement OpenERP): exemples et exerci...
 
Ch5 base de données
Ch5   base de donnéesCh5   base de données
Ch5 base de données
 
Cours complet Base de donne Bac
Cours complet Base de donne Bac Cours complet Base de donne Bac
Cours complet Base de donne Bac
 
Chapitre 2
Chapitre 2Chapitre 2
Chapitre 2
 

Similar a M2 gidn bn biblio_ml

Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011
Sylvain Machefert
 
Metadonnees Introduction
Metadonnees IntroductionMetadonnees Introduction
Metadonnees Introduction
jbcomte
 
Utilisation d'un système de tag des objets elf
Utilisation d'un système de tag des objets elfUtilisation d'un système de tag des objets elf
Utilisation d'un système de tag des objets elf
Thierry Gayet
 
Ugif 04 2011 consulti x mediawiki - ugif
Ugif 04 2011   consulti x mediawiki - ugifUgif 04 2011   consulti x mediawiki - ugif
Ugif 04 2011 consulti x mediawiki - ugif
UGIF
 
introduction au SQL et MySQL
introduction au SQL et MySQLintroduction au SQL et MySQL
introduction au SQL et MySQL
Abdoulaye Dieng
 

Similar a M2 gidn bn biblio_ml (20)

2011 06-23 bi-b92_formats-de-donnees_fl-pl-b
2011 06-23 bi-b92_formats-de-donnees_fl-pl-b2011 06-23 bi-b92_formats-de-donnees_fl-pl-b
2011 06-23 bi-b92_formats-de-donnees_fl-pl-b
 
Les éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EADLes éléments d'indexation dans la DTD-EAD
Les éléments d'indexation dans la DTD-EAD
 
Modèles de données et langages de description ouverts 4 - 2021-2022
Modèles de données et langages de description ouverts   4 - 2021-2022Modèles de données et langages de description ouverts   4 - 2021-2022
Modèles de données et langages de description ouverts 4 - 2021-2022
 
Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011
 
PMB-BUG Atelier catalogage
PMB-BUG Atelier catalogagePMB-BUG Atelier catalogage
PMB-BUG Atelier catalogage
 
Ppt msh def.
Ppt msh def.Ppt msh def.
Ppt msh def.
 
Démo abelos
Démo abelosDémo abelos
Démo abelos
 
Metadonnees Introduction
Metadonnees IntroductionMetadonnees Introduction
Metadonnees Introduction
 
Les02.ppt
Les02.pptLes02.ppt
Les02.ppt
 
PHP #6 : mysql
PHP #6 : mysqlPHP #6 : mysql
PHP #6 : mysql
 
Normes archivistiques
Normes archivistiquesNormes archivistiques
Normes archivistiques
 
La bibliothèque numérique
La bibliothèque numériqueLa bibliothèque numérique
La bibliothèque numérique
 
Utilisation d'un système de tag des objets elf
Utilisation d'un système de tag des objets elfUtilisation d'un système de tag des objets elf
Utilisation d'un système de tag des objets elf
 
Adbs2012 presentation
Adbs2012 presentationAdbs2012 presentation
Adbs2012 presentation
 
Introduction à l'informatique documentaire
Introduction à l'informatique documentaireIntroduction à l'informatique documentaire
Introduction à l'informatique documentaire
 
Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013
 
Normes archivistiques
Normes archivistiquesNormes archivistiques
Normes archivistiques
 
Ugif 04 2011 consulti x mediawiki - ugif
Ugif 04 2011   consulti x mediawiki - ugifUgif 04 2011   consulti x mediawiki - ugif
Ugif 04 2011 consulti x mediawiki - ugif
 
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
Administrer une base de données d'inventaire : le cas concret de l'Ecole nati...
 
introduction au SQL et MySQL
introduction au SQL et MySQLintroduction au SQL et MySQL
introduction au SQL et MySQL
 

M2 gidn bn biblio_ml

  • 1. République Tunisienne Université de la manouba Ministère de l’enseignement supérieur Institut supérieur de la Documentation BiblioML Elaboré par Tarek Hamdi [M2 GIDN : Bibliothèques Numériques] 2012/2013
  • 2. Table des matières I. Introduction .......................................................................................................................................... 2 II. UNIMARC ............................................................................................................................................. 2 III. XML ..................................................................................................................................................... 3 IV. BiblioML.............................................................................................................................................. 4 V. Avantages de BiblioML ..................................................................................................................... 7 VI. Utilisations et projets en BiblioML ..................................................................................................... 7 VII. Conclusion ......................................................................................................................................... 8 VIII. Exemple d’enregistrement BiblioML................................................................................................ 9 IX. Webographie ................................................................................................................................... 15
  • 3. I. Introduction BiblioML est une représentation en XML (DTD puis schéma) des notices bibliographiques basée sur le format d’échange UNIMARC qui respect la norme ISO 2709. La norme ISO 2709 est une norme internationale qui définit la structure des notices contenant des données bibliographiques. Pour entamer le sujet de BiblioML, il parait indispensable d’éclaircir la notion d’UNIMARC et de présenter la technologie XML et les intersections possibles entre eux. II. UNIMARC UNIMARC est un standard d'échange de données bibliographiques et est aussi définit comme un format informatique international des données bibliographiques permettant les échanges entre logiciels documentaires ou bases de données bibliographiques. Principalement défini par l'IFLA (International Federation of Library and Institutions), l’UNIMARC est conforme à la norme ISO 2709. Le format UNIMARC est complété, en France, par la recommandation 995 qui complète l’UNIMARC en prenant en compte le codage des informations concernant les exemplaires (nombre et numéros d'exemplaires, par exemple). UNIMARC est un format "champs" (champ-valeur répétable), adaptable à de nombreux objets (bibliographie, autorités, classification, archivistique ...). Une notice UNIMARC est constituée de différents blocs numérotés qui correspondent à des types d'informations. Chacun de ces blocs est constitué de champs et de sous-champs. Les champs sont numérotés, les sous-champs sont introduits par le symbole $ suivi d'une lettre. Voici un exemple de fichier UNIMARC correspondant à un exemplaire de code barre 5777008954 de : Les Champignons / Jean C. Keller. - Paris : le Livre de poche, 1983 - 127 p. : ill. ; 17 cm. - (Le Livre de poche; 7847). Les rubriques d’UNIMARC Significations *****cam**22002411**450* [Données codées] 010 ** $a 2-253-03268-9 $b Br. $d 24 F [ISBN, reliure, prix] 100 ** $a 19840104d1983****m**y0frey0103****ba [Données codées] 101 ** $a fre [Code de langue] 102 ** $a FR [Code de pays]
  • 4. Les rubriques d’UNIMARC Significations 105 ** $a aay**zz**00|z| [Données codées] 106 ** $a r [Données codées] 200 1* $a Les Champignons $f Jean C. Keller [Titre, auteur] 210 *0 $a Paris $c le Livre de poche $d 1983 [Edition] 215 ** $a 127 p. $c ill. $d 17 cm [Collation] 225 2* $a Le Livre de poche $v 7847 [Collection] 606 ** $3 $a Champignons [Vedette matiére] 676 ** $a 589.2 [Indice Dewey] 700 1* $a Keller $b Jean [Vedette auteur] 995 ** $f 5777008954 $k 589.2 KEL RQ : les * désignent des espaces = des blancs ou à des positions non renseignées Les jeux de caractères ISO sont utilisés pour les échanges de données en format UNIMARC. Le label de notice, le répertoire, les indicateurs, les codes de sous-zones et les autres codes spécifiés dans ce manuel doivent être enregistrés en utilisant les caractères de commande et les caractères graphiques du jeu de caractères ISO 646 (IRV), ou alphabet international de référence, qui est considéré par défaut comme le jeu de caractères de la notice. Les techniques d’extension spécifiées dans le jeu de caractères ISO/IEC 2022 sont utilisées quand plusieurs jeux de caractères sont nécessaires dans une même notice. III. XML XML (Extensible markup language) est un langage de balisage générique dont le but est de permettre la fonctionnalité et l’interopérabilité du Web en permettant à plusieurs systèmes d’information hétérogènes de communiquer et d’échanger. Autrement dit il repose sur des principes : c’est un langage de balisage extensible ; sa maintenance est assurée par le W3C; les balises ne sont pas prédéfinies mais libres et précisent le sens ou la structure et non pas la présentation graphique; le contenu, la structure et la présentation sont nettement dissociés ; la structure des informations est arborescente. Les raisons qui rendent intéressantes son utilisation sont que : c’est un format libre et ouvert; il est indépendant de toute plateforme informatique ; il est promis à une certaine pérennité (il est répandu dans plusieurs domaines et bénéficie d’une solide structure de maintenance) ; il facilite l’interopérabilité. En bibliothèque son utilisation permet : d’afficher des notices bibliographiques sur le Web (BiblioML, MarcXML, MODS…) ; d’y échanger ces notices (OAI, Dublin Core…) ; d’y éditer des ressources (TEI, EAD…) ; d’y diffuser de l’information (RDF, RSS, Atom…). Pour mieux cerner les possibilités permises par XML, faisons une petite comparaison avec le format Marc. Marc se matérialise sous la forme d’un format de saisie constitué de zones prédéfinies et immuables, certaines de ces zones permettent de communiquer avec d’autres systèmes utilisant le même format ce qui permet à plusieurs bibliothèques d’échanger des notices bibliographiques par l’import ou l’export de celles-ci. Mais ces échanges ne concernent pas les usagers de quelques bibliothèques qui sont dans l’impossibilité d’accéder
  • 5. aux notices via le Web (pour cela ils doivent préalablement passer par le site de la Bibliothèque pour accéder à son OPAC). Alors qu’avec XML, ces notices bibliographiques deviennent visibles à partir du Web parce qu’étant repérables par les différents outils de recherche qui le sillonnent. En d’autres termes les OPAC sont mis en surface et accessibles, en principe, à tout internaute. Un autre avantage parmi d’autres est, par exemple, le changement de formats de notices de MARC à XML qui se fait sans perte de données, permettant ainsi une retro-conversion « fidèle » de ces dernières… Ce souci de pallier l’incapacité du Marc à permettre les échanges sur le WEB, sera à l’origine de la création du MarcXML par la Bibliothèque du Congrès en juin 2002. IV. BiblioML BiblioML, ou Bibliographic Markup Language, est une DTD XML (XML Schéma depuis la version 0.6 ) créée en 1999 sous l’égide de la Mission de la recherche et de la technologie du Ministère de la Culture français qui souhaitait mettre en place un outil commun de gestion des références bibliographiques de ses applications XML (dossiers d'inventaire, dossiers d'artistes, rapports de fouilles, etc.). Cette DTD a été développé par Martin Sévigny de la société AJLSM pour représenter toutes les informations que l'on trouve dans une notice UNIMARC (bibliographique et autorités) en format XML. Tableau de synthèse des correspondances UNIMARC : Bloc et champ BiblioML : Elément-père, élément-fils Bloc des informations descriptives 2XX, <Description> champ 200 <Title and Responsibility> Bloc des informations descriptives 2XX, <Description> champ 205 <EditionGroup> Bloc des informations descriptives 2XX, <Description> champ 210 <PublicationGroup> Bloc des informations descriptives 2XX, <Description> champ 215 <PhysicalDescription> Bloc des informations descriptives 2XX, champ 225 Bloc des notes 3XX <Notes> <Description> Bloc des notes 3XXBloc 0XX, champ 012 <IdentificationNumbers> <FingerprintID> <CodedValues>, mais Bloc des informations codées 1XX aussi <Meta> et <Description> <RelatedTitles> Bloc des titres associés 5XX <Subjects> Bloc de l'indexation-matière 6XX <Description> Bloc de la responsabilité intellectuelle 7XX <IntellectualResponsibility> Bloc 8XX des données <Meta> Internationales
  • 6. BiblioML permet la conversion au format XML de notices bibliographiques ou d'autorité saisies en format UNIMARC. D'ailleurs, le Manuel UNIMARC a servi de document de référence lors de la création de la DTD et les champs et sous-champs de BiblioML correspondent à ceux d'UNIMARC. BiblioML comporte 224 éléments (BiblioRecord étant celui de plus haut niveau), 2 entités (BooleanAttribute et DataContent) mais aucune notation. L'element BiblioRecord est composé de:  Meta : métadonnées liées à l'enregistrement (date et lieu de création, etc...). Ces informations ont pour origine différents champs Unimarc, principalement les champs 0xx.  Description : description de l'oeuvre : titre, auteurs, dates, éditeur, droits... (champs 2xx et 5xx d'Unimarc)  Notes : notes concernant l'oeuvre, destinées au public (champs 3xx)  CodedValues : informations codées relatives à la description de l'oeuvre (principalement, les champs 1xx d'Unimarc)  Subjects : sujets traités par l'oeuvre, et mots-clés correspondant (champs 6xx)  Relationships : liens vers d'autres oeuvres (champs 4xx)  IntellectualResponsability : indications de responsabilité intellectuelle telles qu'elles figurent dans l'ISBD (champs 7xx)  LocalData : données locales propres à l'établissement créateur de la notice (champs 9xx)  Tables : table des matières et Index  Text : texte de présentation de l'ouvrage <BiblioRecord Language="fre" id="B590092101_00073.173_001"> <Meta>...</Meta> <Description>...</Description> <CodedValues>...</CodedValues> <Notes>...</Notes> <Subjects>...</Subjects> <LocalData>...</LocalData> <TableOfContents>...</TableOfContents> <Index>...</Index> </BiblioRecord> L'expressivité d'XML peut être menée plus loin. On peut ainsi tirer parti de l'imbrication des éléments pour regrouper des informations et les nommer plus explicitement. Si le champ 200 est le titre, et qu'il y a un sous-champ pour les sous-titres ($e), il n'est pas désagréable de pouvoir l'indiquer expressément, exemple en "pseudo-code"
  • 7. La souplesse du format BiblioML permet d'ajouter bien d'autres informations, comme des index, des tables des matières, des illustrations, et surtout, ce qui est très particulier à XML, du texte riche. La DTD BiblioML prévoit ainsi des noms permettant qu'une notice devienne un document avec plus de contenu. BiblioML et La Compatibilités : Dans une conversion UNIMARC vers BiblioML, la plupart des champs documentés trouve une place en XML. Pour des usages spécifiques à une organisation, les outils livrés peuvent être édités (XSL) pour rendre raison à des besoins qui n'auraient pas été prévus. Par contre, une fois passés en BiblioML, surtout si les contenus ont été enrichis, un retour en MARC pourrait perdre une partie de l'information. Outils BiblioML. Autour de BiblioML, on trouvera des outils libres habituels : conversion depuis l'UNIMARC, transformation de restitution. On mentionne particulièrement BiB-X, une application libre qui administre, cherche et produit des notices. On notera la possibilité de pouvoir définir ses propres formulaires de saisie (selon le type de documents), dans un standard XML (XForm). BiblioML apporte des extensions au format UNIMARC, dont voici les plus significatives : - Il est possible d'encoder le texte du document en question, inclus dans l'élément <Text>. - Il est également envisageable d'intégrer des tables et des index, au moyen de la balise <Tables>, puis <TableOfContent> ou <Index>. Il s'agit d'une nette progression par rapport à la possibilité de référencer une table des matières au moyen du champ 359 puisqu'il n'y a plus de limitation de niveaux d'arborescence. - En ce qui concerne les liens entre notices, indiqués par les éléments <Relationships> puis <LinkedItem>, plusieurs solutions sont possibles. Comme le propose MARC, un simple lien entre les notices peut être créé. L'élément <LinkedItem> est alors vide et l'attribut RecordID indique le numéro de la notice concernée. On peut également envisager d'inclure la seconde notice dans la première, en utilisant l'élément <BiblioRecord>. Dans tous les cas, l'attribut « Relation » permet d'indiquer le type de relation entre les deux ouvrages décrits. BiblioML apporte ainsi davantage de souplesse et de lisibilité que l'utilisation éventuelle des champs 4XX proposés par UNIMARC. - L'information concernant les exemplaires locaux peut être donnée directement, alors qu'une notice d'exemplaire devait être liée à la notice bibliographique dans UNIMARC. Pour cela il suffit d'utiliser l'élément <Copies> et ses éléments-fils. Cette expérience de traitement avec BiblioML montre que si toute information de type bibliographique aurait pu être saisie en MARC, BiblioML apporte davantage de clarté. Les extensions proposées par BiblioML ne sont donc pas si significatives pour la description bibliographique du livre en tant que telle. Le véritable enrichissement, c'est de rendre possible l'intégration de tout ou partie du document primaire.
  • 8. D’autre part, BiblioML permet une description bibliographique fine et complète, mais les possibilités de renseigner les métadonnées de gestion techniques et administratives sont bien moins riches que celles que proposent le Dublin Core ou l’en-tête de la TEI. En effet, l'encodage dans BiblioML de ces métadonnées se limite à l'élément <Meta>, et elles correspondent ni plus ni moins à celles qui figurent dans une notice MARC. Cela doit être perçu comme une limitation, car dans un contexte de numérisation et d'édition sur le Web, le contexte du document ainsi que les conditions d'accès doivent être précisées. V. Avantages de BiblioML Brièvement, l’utilisation du format BiblioML nous engendre plusieurs avantages dont les plus importants sont les suivants :  Format moderne : basée sur XML, adaptée à Internet  Format ouvert : mises dans le domaine public, les spécifications de BiblioML sont disponibles sur le site officiel du ministère de la culture.  Modèle de caractères Unicode : toutes les écritures, basées sur ce système de codage universel, sont représentables sans ambiguïté.  Hiérarchie complète : tous les documents sont décrits exactement, quelle que soit la complexité de leur structure  Taille illimitée : la taille des documents ou des zones n'est pas limitée.  Toutes les extensions sont possibles : texte intégral, table des matières, index, illustrations graphiques ou sonores...  Facilités de compréhension : les balises BiblioML permettent de décrire lisiblement la structure et la sémantique de chaque élément VI. Utilisations et projets en BiblioML Utilisant ou S'appuyant sur BiblioML, plusieurs projets ont vu le jour. Voici quelques applications utilisant BiblioML :  La bibliographie nationale française (en ligne depuis juillet 2001). Les notices bibliographiques sont d'abord cataloguées en Intermarc puis extraites en UNIMARC, et ensuite converties en XML selon la DTD BiblioML. Un serveur de transformation produit enfin des pages HTML pour publication sur le Web.
  • 9. La bibliographie nationale française : le Dépôt légal utilise BiblioML pour générer les pages HTML statiques des différents numéros de la Bibliographie (http://bibliographienationale.bnf.fr).  Base de documents SANGIS (Réseau du sud-est asiatique pour un systéme d'informations géologiques SANGIS) du CIFEG (centre international pour la formation et les échanges en géosciences) : base de données BiblioML pour la diffusion d'un catalogue collectif de références bibliographiques dans le domaine des sciences de la terre.  Bilans scientifiques régionaux : projet de base bibliographique BiblioML dans le domaine archéologique  Bibliographie Dossiers d'artistes : projet du Ministère de la culture et de la communication, ayant pour but de mettre en place une infrastructure permettant de gérer et diffuser des dossiers d'artistes complets et riches, incluant des références bibliographiques.  Article Repository System : un projet du College of Business of Public Administration (BPA) de l'université de l'Arizona utilise une base de données d'articles et des références en BiblioML  Open Citation System : un autre projet du BPA de l'université de l'Arizona utilise BiblioML "as an architecture-neutral middle layer to store large bibliographic citation databases for scientific sharing". Des convertisseurs seront développés de BiblioML vers divers formats comme BibTeX et EndNote. VII. Conclusion La bibliographie est un domaine très "balisé" dans l'informatique documentaire. Comparativement à d'autres milieux, les bibliothèques ont rapidement implanté des formats et des systèmes informatiques de catalogage. Les normes "MARC" ont permis de répondre à des besoins que d'autres formats ne représentaient pas aussi bien. XML permet de représenter correctement des informations codées en MARC, ainsi que d'autres. BiblioML devient un format source susceptible d'être inclus ou transformé à destination d'autres documents XML. Cependant, pour d'autres contextes, la totalité des informations du format d'archivage ne sont pas toujours indispensables (exemples : date d'enregistrement, référence à une notice d'autorité spécifique à un système). Il est alors plus important que la source soit conforme à l'espace de noms de destination. Ceci permettra une courte revue d'autres standards XML de la bibliographie, permettant de mieux définir la spécificité d'un format complet de catalogage. Lorsqu'un système bibliographique est utilisé par des auteurs (en XML), on comprend dès lors le gros intérêt d'ajouter cette sorte d'exports. Un chercheur pourra par exemple composer sa bibliographie sur le catalogue d'une bibliothèque, et obtenir son panier dans le format qui lui est directement utile.
  • 10. En fin, on peut distinguer les trois points suivants :  La technologie MARC a donné les moyens de formuler très précisément les besoins bibliographiques. Cependant, le format impose des raideurs qui ne sont plus nécessaires et qui cantonnent son utilisation à des applications spécifiques et généralement commerciales. XML permet un décalque sans perte des informations et aussi de profiter des outils propres à cette technologie.  Une DTD ou Schéma comme BiblioML permet de garder la richesse des catalogues, en pouvant y ajouter facilement d'autres informations, comme la table des matières, un résumé, un index, une illustration. Fonder un système bibliographique sur ce type de format peut par exemple agrémenter les catalogues pour donner un accès plus agréable au public.  Enfin, l'adoption d'un format XML expressif apporte une souplesse à l'information, qui lui permet plus facilement d'être servie à des machines (DC, OAI) ou d'être utilisée par des auteurs. VIII. Exemple d’enregistrement BiblioML <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE BiblioRecord PUBLIC "-//MCC-FR//DTD BiblioML V03//EN" "biblioml_030.dtd"> <BiblioRecord Language="fre" id="B20"> <Meta> …………………………. </Meta> <Description> …………………………. </Description> <CodedValues> …………………………. </CodedValues> <Notes> …………………………. </Notes> <Subjects> …………………………. </Subjects> </BiblioRecord>
  • 11. On considère la notice bibliographique écrit sous format BiblioML Métadonnées
  • 13. Valeurs codées Notes Subjects
  • 15. Index
  • 16. IX. Webographie RESSOURCES EN LIGNE Bottin, Michel. BiblioML : Une application XML pour les données bibliographiques et d'autorités, compatible avec (UNI)MARC. [en ligne]. Disponible sur : < http://www.paris-lavillette.archi.fr/docu/biblioml/fr/index.html>. (consulté le 20/12/2012). Bibliothèque nationale de France. Manuel UNIMARC : format bibliographique. [en ligne]. Disponible sur : <http://www.bnf.fr/fr/professionnels/anx_formats/a.unimarc_manuel_format_bibliographi que.html#SHDC__Attribute_BlocArticle3BnF>. (consulté le 20/12/2012). PMB sevices. PMB : Guide de l'administrateur. [en ligne]. Disponible sur : <http://www.sigb.net/doc/fr_FR/html-admin/>. (consulté le 24/12/2012). Club BCDI. Unimarc ISO 2709. [en ligne]. Disponible sur : < http://club-bcdi.crdp- poitiers.cndp.fr/docbcdi3ecole/unimarc.html#def>. (consulté le 24/12/2012). L'école nationale supérieure d'architecture de Paris La Villette. (Notice bibliographique). [en ligne]. Disponible sur : < http://www.paris- lavillette.archi.fr/docu/biblioml/fr/B590092101_00073.173_001.xml>. (consulté le 20/12/2012). Groupe de Recherche en Apprentissage Automatique Lille 3. BIBLIOML. [en ligne]. Disponible sur : < http://www.grappa.univ- lille3.fr/~tommasi/InfoDoc/Formats2006/biblioML//bib-elt.html>. (consulté le 20/12/2012). Blogokat, saga des DTD. Les DTD : 5. BiblioML. [en ligne]. Disponible sur : < http://blogokat.canalblog.com/archives/2005/01/16/240301.html>. (consulté le 20/12/2012). SENBIBDOC. Archives du mot-clef BiblioML : N° 10 – XML et bibliothèques. [en ligne]. Disponible sur : http://antoninbenoitdiouf.com/tag/biblioml/>. (consulté le 20/12/2012). coverpages. BiblioML - XML for UNIMARC Bibliographic Records. [en ligne]. Disponible sur : < http://xml.coverpages.org/biblioML.html>. (consulté le 20/12/2012). Glorieux, Frédéric. Bibliographie et XML. [en ligne]. Disponible sur : <http://projets.ajlsm.com/sdapa/sdapa/infos/standards/bibliographie.html>. (consulté le 20/12/2012).
  • 17. MOREL-PAIR, Catherine. Métadonnées et XML Des standards efficients de l’environnement numérique. Villeurbanne : ENSSIB, 2007, 32 p. Olivier, Mabille. Enrichir le catalogage des documents audiovisuels : étude de faisabilité au département de l'Audiovisuel. Villeurbanne : ENSSIB, 2006, 82 p. Bernaudin, Anne-Claire. Mise en ligne d’un guide bibliographique en sciences religieuses : difficultés, enjeux, perspectives. ENSSIB, 2005, 68 p.