2. Le web service AlgoLiens
• Lancé par l’ABES au printemps 2017,
• Webservice qui génère des rapports
d’anomalie portant sur les zones de liens des
notices SUDOC.
– Ex de notices : ppn 132515490
3.
4. Le web service AlgoLiens
L’absence de liens peut avoir 2 raisons :
• Les chantiers de rétroconversion en masse
• Un catalogage défaillant
5. Le web service AlgoLiens pour l’ILN 45
Comme préalable, le je-cours : AlgoLiens :
service de « détection d’absence de liens 5XX,
60X 7XX dans les notices »
http://moodle.abes.fr/course/view.php?id=100
Construction de la requête pour mon ILN :
www.idref.fr/AlgoLiens?&iln=45&date03032017
6. • Aperçu du fichier reçu :
Le web service AlgoLiens pour l’ILN 45
7. • Ex : la suppression des « doublons » :
Il y a autant de lignes qu’il y a de liens absents.
Le web service AlgoLiens pour l’ILN 45
Le tableau Excel peut être filtré et
trié à sa convenance.
8. 1. Le tableau de bord :
Le web service AlgoLiens pour l’ILN 45
9. Le web service AlgoLiens pour l’ILN 45
• Fichier PPN trié par RCR d’appartenance :
Un onglet par RCR
10. Bilan pour notre ILN :
– 36 164 notices pour lesquelles au moins un lien
n’a pas été réalisé,
– Parmi elles, 16 555 sont des unicas (où nous
sommes les seuls à être localisés),
– Des établissements plus ou moins impactés.
A partir de là, nous avons deux cas de figures possibles:
Le web service AlgoLiens pour l’ILN 45
11. Des bibliothèques moins concernées :
Ex : les différentes FDE de la région Languedoc-
Roussillon
• Moins de 250 notices à corriger
Choix du traitement en interne de ces
anomalies
Le web service AlgoLiens pour l’ILN 45
12. Le web service AlgoLiens pour la BIU
• Un établissement très impacté :
La bibliothèque interuniversitaire de Montpellier
34 259 notices dont 15 477 unicas.
Première étape : envoi d’un message d’alerte à
l’ensemble des catalogueurs
13. Présentation à la Mission Collections du chantier
AlgoLiens et des trois axes de travail possibles :
• Traitement en interne.
• Traitement par lot à l’ABES.
• Traitement ponctuel de thèmes ou de
périodes.
Le web service AlgoLiens pour la BIU
14. Le web service AlgoLiens pour la BIU
Travail en collaboration avec l’ABES :
1. Envoi d’un corpus de 93 notices issues du
fonds de la bibliothèque hispanique.
15. Le web service AlgoLiens pour la BIU
Le traitement par l’ABES a porté sur les notices
ayant une absence de lien pour les autorités
auteurs (zone B700, B701 ou B702).
• 43 notices parmi les 93 de notre corpus
• Soit la création automatique de 66 liens sur
les 222 nécessaires
16. Le web service AlgoLiens pour la BIU
• L’outil d’alignement propose un ou plusieurs
candidats potentiels
• La sélection des candidats se base sur la
présence ou non d’éléments de comparaison
dans des zones de la notice bibliographique et
la notices d’autorité de l’éventuel candidat
• Les critères sont : la cocontribution, la date, le
titre, la collectivité, l’unica et la cote dewey
17. Le web service AlgoLiens pour la BIU
Vérification par la bibliothèque hispanique :
• Validation des propositions d’alignement : (Cf
tableau)
• Créations des autorités manquantes
• Renvoi du fichier pour intégration en masse des
liens manquants
18. • Ex de notice après traitement :
Le web service AlgoLiens pour la BIU
19. Le web service AlgoLiens pour la BIU
2. Prochaine étape : traitement de la totalité
• Envoi des fichiers : totalité ou par paquet ?
• Traitement des autres types liens manquants :
en local ou par l’outil d’alignement V2 ?
20. Le web service AlgoLiens
BILAN POSITIF:
• « Montée en gamme » des notices issues de
notre ILN
• Très formateur pour les équipes
• Renforcement des liens entre les catalogueurs
et le correspondant autorité
• Développement de l’outil d’alignement qui se
révèle performant
21. Merci pour votre attention !
Julie Vidal
julie.vidal@umontpellier.fr
Journées ABES - 24 mai 2018
Notas del editor
Présentation rapide de mes fonctions actuelles et celles plus spécifiques depuis 10 ans en tant que correspondante autorités.
Passage des tâches exclusivement dédiées à la saisie de propositions Rameau auprès du FNPR à des activités demandant une technicité supérieure avec la mise en place d’algodoublons et d’algoliens : gestion de chantiers de corrections et travail sur les données.
Modification de mes relations avec les membres de mon iln. Avant : nous attendions qu’ils viennent à nous en nous proposant des créations. Maintenant : c’est nous qui allons vers eux pour leur proposer des améliorations de leurs signalements.
AlgoLiens est arrivé avant AlgoDoublons, en 2017
Objectif : nettoyage de la base
Concrètement, il génère une liste de ppn de notices pour lesquels les liens dans les blocs de zones A5XX, B60X, B70X, B71X et B72X n’ont pas été faits.
Ex de ppn qui ressort dans les listes générés par le webservice.
Les chantiers de catalogage massif qui ont eu lieu au moment de l’informatisation des bibliothèques ont laissé des séquelles. Même si beaucoup de notices ont été reprises, il en reste encore beaucoup pour lesquelles aucun traitement correctif n’a été fait
Le catalogueur catalogue correctement son document mais omet de faire les liens autorités auteurs, collections et sujets comme préconisé à l’aide des touches F9 et F11.
Le chantier a été lancé grâce au je-cours qui nous a appris à utiliser le webservice. Pour ceux qui ne l’ont pas encore suivi, il est toujours dispo sur le site ABES.Comme AlgoDoublons, l’utilisation est extrêmement simple.
Il suffit de lancer la requête dans son navigateur pour obtenir un fichier Excel.
Le tableau comporte 8 colonnes.
Colonne 1 : PPN concerné
Colonne 2 et 3 : ILN et RCR auquel est rattaché le PPN
Colonne 4 : Descriptif du lien manquant
Colonne 5 : Date de création de la notice
Colonne 6 : Code de la zone concernée par cette absence de lien
Colonne 7 : Type de Document
Colonne 8 : Libellé correspondant au type de document
Seules les colonnes 1, 3, 4 vont nous être utiles.
Ce tableau peut être travaillé en utilisant toutes les fonctionnalités Excel de tri.
Autant de lignes que de liens absents, il est préférable de retirer les « doublons » pour avoir un aperçu réel du travail à faire avec un nombre fiable de notice à corriger.
Par doublon, j’entends les notices ayant plusieurs absences de liens et non les doublons au sens doublons d’autorité, qui font autant de lignes avec des ppn identiques dans notre tableau.
Pour ma, part, j’ai crée 2 fichiers : Un tableau de bord et un fichier regroupant par RCR les ppn.
En ajoutant des compléments à la requête AlgoLiens, il est possible de filtrer les résultats en fonction du type de document, du type de zone ou du fait que ce soit des unicas ou pas.
Ces différents tris peuvent paraître fastidieux à réaliser mais ils permettent d’évaluer l’ampleur de la tâche ou des différents angles d’attaque possibles.
Toujours pareil : ce tableau n’est pas compliqué à réalisé et s’avère très utile pour la suite
Lors du lancement de ce chantier ABES, nous avions accès à un fichier collaboratif ou nous pouvions tous inscrire nos résultats.
Utile pour comparer et voir que nos sommes finalement dans la moyenne OUF !
Chantier d’une durée de 6 mois environ, avec en appui mon expertise pour les créations ou la construction des autorités.
Bilan très positif. Le personnel a été très demandeur de conseil et de formation. A l’issue de ce chantier, des liens nouveaux ont été tissés avec ces équipes et ils n’hésitent pas à revenir vers moi au besoin et même à faire des propositions d‘autorités ce qu’ils ne pensaient pas pouvoir faire.
Très impacté mais quand même dans la moyenne nationale.
Pour avoir une idée de l’ampleur de la tâche, avec B. Canipel (2ième correspondante autorité de l’ILN 45) nous avons choisi de traiter les unicas de nos RCR respectifs. En ce qui me concerne, j’ai traité en 15 heures, 210 des 440 notices de mon RCR. Je me suis vite rendu compte qu’il serait difficile de traiter cela en interne
Première étape : envoi d’un message d’alerte à l’ensemble des catalogueurs pour leur faire appréhender l’ampleur du chantier qui nous attend et l’importance d’un catalogage correctement réalisé. Je leurs ai rappelé les règles de catalogage et de liage des notices d’autorités et l’importance de ce lien.
Petit bémol : en faisant retourner le webservice dernièrement, je me suis aperçue que dans certaines BU, le nombre de notices ayant des absences de liens continuait à progresser… Un nouveau message plus ciblé par établissement sera fait lorsque les corrections de masse auront été effectuées, avec des exemples précis. Une des pistes pour expliquer ces nouvelles notices avec des absences de lien pourrait être l’importation de notices sans liens ou nous nous serions juste localisées. Mais ce point là, sera creusé dans une seconde étape.
Nous choisissons de tout traiter. Des lots identiques sont transmis à chaque catalogueur avec une deadline de traitement. En ce qui me concerne, j’ai traité en 15 heures, 210 des 440 notices de mon RCR. Si nous restons, sur une moyenne de 500 notices par catalogueur, cela peut être envisageable mais je ne vais pas me faire des amis et le chantier risque de s’éterniser car à ce moment là, nous nous approchons de l’échéance SGBM qui va mobiliser une bonne partie des troupes (dont moi-même).
Nous nous portons volontaire pour un traitement en masse avec l’ABES, mais nous serons pilote.
Nous ciblons des thèmes et/ou des périodes à traiter.
Le choix a été fait d’avoir recours au service de l’ABES
Dans un premier temps, nous avons choisi de travailler sur un ensemble de 93 notices. Le choix du corpus s’est fait en fonction de sa taille. Tous les types de liens manquants étaient présents. Avant de faire parvenir ce fichier, nous avons pris le temps de lister pour chaque notice le nombre de liens manquants et les zones concernées.
L’outil d’alignement de l’ABES porte sur les autorités personnes uniquement. Cela représente quand même un tiers des occurrences.
J’espère que ce test leur permettra de développer quelque chose pour traiter également, au moins, les autorités Sujets
Présentation des différentes colonnes qui permettent de valider ou non le choix (Fichier sur la clé : iln45_align_Bq_Hispanique_ABES_AvecCandidatsUniques). Le tableau peut paraître effrayant mais finalement il est d’une lecture très simple.
- cocontrib (sûr) : si deux personnes ont des noms très proches et des co-contributeurs aux noms très proches
- date (très fort) : si deux personnes ont des noms identiques et une année de naissance identique [PAS PRESENT ICI]- titre (très fort) : si deux personnes ont des noms identiques et une biblio dont le titre est identique ou dont un mot du terme est très rare à l'échelle de tous les mots des titres du Sudoc - collectivité (fort) : si deux personnes ont des noms identiques et sont associées à une même collectivité (laboratoire ou université) [PAS PRESENT ICI]- unica (fort) : si deux personnes ont des noms identiques et qu’il n’y a aucune autre autorité candidate dont le nom est approchant et que les dates de publication et/ou de vie sont en concordance, on peut en conclure qu'il s'agit de la même personne
- dewey (faible) : si deux personnes ont des noms identiques et des notices bibliographiques dont les indices dewey sont identiques
Présentation des différentes colonnes qui permettent de valider ou non le choix (Fichier sur la clé : iln45_align_Bq_Hispanique_ABES_AvecCandidatsUniques). Le tableau peut paraître effrayant mais finalement il est d’une lecture très simple.
Après vérification de ce tableau, nous avons accepté toutes les propositions faites. L’outil d’alignement est donc opérationnel !
Pour les autorités manquantes, nous avons procédé aux créations nécessaires et rajouté leurs PPN au tableau pour qu’ils soient intégrés avec ceux déjà repérés.
L’ensemble des 702 ont été liés.
Résultat plus que positif sur ce corpus. Il est temps de voir plus grand
Si le SGBM me le permet, et si ma méthode de travail convient à François, je voudrais traiter la totalité de mes unicas en procédant par l’envoi de lots de PPN propre à chaque RCR avant la fin de l’année 2018. Ce travail se fera en binôme avec le référent catalogage de la bibliothèque concernée car il est parfois nécessaire de faire des vérifications livre en main.
Si l’outil d’alignement peut être développé pour les autres types d’autorité (surtout les 600 où il y a quasiment toujours possibilité d’alignement d’après les tests que j’ai faits), nous procéderons de la même manière. Sinon, et pour les autres zones, nous traiterons cela en local. Certes ce sera plus fastidieux mais cela permettra un contrôle des notices
Très formateur pour les équipes qui ont fait le choix de traiter elles-mêmes ces anomalies, et qui avaient peut-être perdu de vue l’importance de ces zones.
L’utilisation de l’outil d’alignement Pour la BIU, le mix traitement automatisé / traitement par les agents devrait donner les mêmes résultats.
Possible uniquement avec l’appui de l’ABES
A terme et une fois la totalité des PPN corrigés, le correspondant autorité pourra comme il le fait déjà avec AlgoDoublons, faire tourner le webservice AlgoLiens et traiter au fil de l’eau les anomalies.