Présentation du projet de norme ISO DIS 25964-1 sur les thésaurus pour la recherche. A commenter avant mars 2010. (http://dossierdoc.typepad.com/descripteurs/2009/10/parution-de-la-norme-iso-dis-25964-th%C3%A9saurus.html)
Presentation (2009) du projet de norme ISO DIS 25964-1 sur les thésaurus
1. ISO DIS 25964-1 Thésaurus pour la recherche documentaire Sylvie Dalbin http://claimid.com/sylviedalbin À partir d’un document de travail du CG46/CN357/GE10 Etabli avec Hélène Zysman et Nathalie Yakovleff - Relecture : François Feyler v1 du 21/11/2009 ISO TC46 - Information et documentation Présentation du projet de norme ISO 25964 - Thésaurus et interopérabilité avec d'autres vocabulaires
9. 2. DIS 25964-1 : THESAURUS POUR LA RECHERCHE DOCUMENTAIRE Partie 1 - Thésaurus pour la recherche d’information Le projet de norme est présenté sous forme d’un document numérique structuré sur le site du BSI (UK) http://drafts.bsigroup.com/?d=517 (pré-inscription gratuite obligatoire)
10.
11.
12.
13.
14.
15. Changements terminologiques Groupement par facettes Thesaurus Array Facette Libellé (ou étiquette) de nœud Node label Relais virtuel Groupe de concepts, Domaine Concept Group Champ sémantique, micro- thésaurus, domaines,… Note explicative (ou d’emploi) Terme non préférentiel Terme préférentiel Maintenant (Fra) Scope note Non-preferred term Preferred term Maintenant (Eng) Le projet de norme n’étant pas encore traduit en français, ces traductions peuvent évoluer. Note d’application Non Descripteur Descripteur Avant (Fra)
16. 3. COMPOSANTS DE LA NORME A partir du modèle de données Chapitre 15 du DIS
17.
18. ISO25964-1 Diagramme UML scindé par Entités dans la suite du document Format tabulaire ( excel en ligne)
Suivi de la procédure pour l’ISO 25964 http://tinyurl.com/yz2vgzu = http://spreadsheets.google.com/pub?key=pOP3RjZt9TWe0kLGr3PU9Nw
ISO TC46/SC9 - http://www.iso.org/iso/fr/iso_technical_committee.html?commid=48836
Thésaurus à des fins de recherche d’information ??
Trad. par Sylvie Dalbin Texte original - Scope : « gives recommendations for the development and maintenance of thesauri intended for information retrieval applications. It applies to vocabularies used for retrieving information about all types of information resources, irrespective of the media used (text, sound, still or moving image, physical object ormultimedia) including knowledge bases and portals, bibliographic databases, text, museum or multimediacollections, and the items within them.
Relations - enrichissement sémantique : typage plus fin, personnalisable - relation d’instance (spécimen, exemplaire) - des notes adaptées à l'entité visée (concept, terme) et aux usages (utilisateur final, gestionnaire...) Modèle de représentation du thésaurus (modèle conceptuel) et notation - le formalisme propre au modèle entité-relation (classe-attribut-relation) - lire un diagramme des classes (avec le langage graphique UML) Eléments obligatoires (mandatory) ou optionnels (optional). Si vous voyez d'autres choses qui vous semblent importantes, n'hésitez pas
Ceci n’est qu’un exemple
COMMENTAIRE DIS : Sur le plan éditorial, comment rédiger le texte normatif en distinguant « visuellement » terme et concept Concernant le document lui m ême : - Ce document est surtout très enrichi par rapport à la norme NF. - Principe d'une norme : un cadre général hors applicatif, des principes directeurs, des recommandations, un document technique (et non pédagogique) - Ne couvre pas tous les besoins en indexation ou en recherche. - En particulier, ce n’est pas un manuel, mais un document technique qui décrit ce qu’est un thésaurus, ce qu'il doit a minima comporter et qui donne des recommandations sur la démarche de conception.
Lien tableau (non modifiable) : http://spreadsheets.google.com/ccc?key=0Ap30K5-aANOYdENMVFdVckFVN1JKTXYyc2Njdkp6UEE&hl=fr COMMENTAIRE les regroupements par facettes et les groupes de concepts de type Domaine, sont tous deux des regroupements de concepts ! Ils sont construits sur des critères différents et ils opèrent au sein du thésaurus de façon assez différente, ce qui a poussé le groupe ISO à les distinguer sur le plan du modèle de données.
http://spreadsheets.google.com/ccc?key=0Ap30K5-aANOYdENMVFdVckFVN1JKTXYyc2Njdkp6UEE&hl=fr COMMENTAIRE SD Pour les documentalistes ou gestionnaire de thésaurus, ce diagramme et les tableaux constituent une représentation plus rapide à percevoir, du modèle de donnée métier (le thésaurus). Toutefois, le schéma UML représente toutes les classes et en m ême temps, il ne rend pas compte de toutes les possibilités offertes dans la norme. Il ne constitue donc pas le modèle de VOTRE THESAURUS. Pour un développeur, le modèle de donnée constituent une spécification presque complète de ce qu'un développeur veut savoir pour traduire le modèle selon un langage de définition de données. Ici nous avons la plupart de ce qui est nécessaire pour décider si, et dans quelle mesure, une application va se conformer à la norme. Ces spécifications sont exposés à travers un diagramme UML et des tableaux, deux outils bien connus des informaticiens.
COMMENTAIRE DIS : revoir le modèle de donnée et la distinction entre les deux classes
COMMENTAIRES identification pérenne du thésaurus, des concepts et des termes distinction entre des regroupements (ConceptGroup) et termes de tête (terme générique de haut niveau sur la branche hiérarchique) Possibilité de spécifier les relations hiérarchiques : type de relation associative Cause/Conséquence,… Domaine est le terme choisi pour s’aligner sur la terminologie des taxonomies, ontologies. Il s’apparente aux champs sémantiques, micro thesaurus, thèmes, etc. Certaines pratiques utilisaient la notion de domaine, non normée, comme un regroupement de champs sémantiques.
COMMENTAIRE DIS : pourquoi la relation qui unit le terme au concept n’est il pas formalisée ? Dommage de ne pas rendre la langue obligatoire pour le terme, y compris dans le cas d’un thésaurus monolingue.
Les « termes non préférentiels à décomposer » ne sont que des termes, mais au sein de ce langage, ces termes ne représentent pas un Concept du thésaurus. COMMENTAIRE DIS : - attributs possibles pour les termes non préférentiels décomposés (SplitsNonPreferredTerm) : désigner le vocabulaire d’origine des termes
Transparents à compléter avec vos propres avis …
S’applique à l’ensemble des concepts d’un thésaurus (quand il existe)
COMMENTAIRES DIS - Proposer de modifier l’intitulé de cette classe : ThesaurusArray en ConceptArray (série de concepts) Facette - « Facet analysis is useful in generating hierarchies that conform to the rules for hierarchical relationships, as setout in 10.2, because these relationships are valid only for concepts belonging to the same general category » - Dommage que le nœud soit représenté obligatoirement par terme préférentiel. Justement sur les taxonomies de navigation, on pourrait vouloir choisir un autre terme, voire un autre signe non lexical (un graphisme…) [SD]
Documentation complémentaire : Du bon usage des facettes", Documentaliste - Sciences de l’information, 1999, vol. 36, n° 4-5 (non accessible en ligne), qui "plaide [...] pour un usage plus rigoureux du terme et de l’outil [classification à facettes), qui fasse clairement le partage entre la classification des concepts et le classement des sujets. « generating hierarchies that conform to the rules for hierarchical relationships […] because these relationships are valid only for concepts belonging to the same general category » (p.58) organisation combinable à celle des regroupements thématiques ne s’applique pas nécessairement sur tout le thésaurus Utilisable dans le cas de taxonomies de navigation
URL du tableau des définitions - http://spreadsheets.google.com/ccc?key=0Ap30K5-aANOYdDJGeVVzT2JYbVBCZy1ScVNQcFNpU1E&hl=fr
[autre qqchose à dire ?]
Symboles (explications p.95) Triangle = Is-a : terme préférentiel est « une type de » terme ; Losange = Has-a : un thésaurus (Thesaurus) contient des concepts (ThesaurusConcept)