Bib2Hal, import par lot dans HAL à partir d'un fichier BibTeX -formation CCSD mars 2016
1. Bib2Hal-Import par lot dans HAL
à partir d’un fichier BibTeX
Mars 2016Laurence Farhi (DSI/Seism)
CCSD - Villeurbanne
2. Introduction
- 2
Bib2Hal : import par lot dans HAL à partir d’un fichier BibTeX
Compatible HALV3, import via Sword, utilisation des API
de HAL
Dépôt de tous les types de document HAL + PRESCONF
+ MEM (Inria) sauf Données de la recherche
Doc en ligne de Bib2Hal
5. Le format BibTeX
Format de fichier qui permet de décrire des références
bibliographiques et de les insérer dans un document écrit
en LaTeX.
Extension de fichier : .bib (ou fichier texte)
Pour en savoir plus :
http://fr.wikipedia.org/wiki/bibtex
Le format BibTeX
6. Exemple
@Article{IJICIC2012,
author = {Jaigu,Anne and Alain Monteil},
title = {{P}erformance Math'ematique pi},
journal = "Interstices",
abstract = {abstract simple},
volume = {8},
pages = {5295-5380},
year = {2012},
x-audience = {international},
x-language = {en}
}
Type du document
Caractères latex
Champs pour HAL : x-...
Clé BibTeX
Champs BibTeX
7. Règles principales
Plusieurs types de documents :
Standards : @article, @book, …
Spécifiques Bib2Hal : @presconf, @poster
Equivalence type BibTeX/type HAL
Pour chaque référence et selon le type :
Des champs obligatoires : title, author, ...
Des champs facultatifs : booktitle, pages, …
Des champs ajoutés pour HAL : x-audience, …
Equivalence champs BibTeX / champs HAL
Champs BibTeX obligatoires/optionnels par type de
document
8. Prérequis pour le fichier BibTeX de Bib2Hal
Un fichier BibTeX en utf-8 sans BOM (attention à
Notepad++).
Il est conseillé de faire un BibTeX par année, par auteur
ou par cycle de vie d’une équipe, <50 références (200
max).
Construire un BibTeX propre (Cf. Spécificités du BibTeX)
Si possible, le tester avec un compilateur BibTeX (pour
les chercheurs)
9. Préparer son fichier BibTeX : author
Le champ author : listes des auteurs
author = « Nom1, Prenom1 AND Nom2, Prenom2",
author = « Nom1 AND Prenom2 Nom2",
author = "Prenom1 Nom1 AND Nom2, Prenom2",
author = "De Nom, Prenom"
Pour les @inbook, @book, @inproceeding et
@proceedings, champ author ou editor pour le
calcul des auteurs
Attention : prénom en entier (Alain et nom A.),
comme dans HAL
10. Préparer son fichier BibTeX : autres champs
Champs multivalués séparateur : « ; » (ex:
val1;val2)
Attention au champ doi (10.xxx et non http://...)
journal : journal et x-hal_journal_id ou issn
Projets ANR et européens : x-
europeanproject_id et x-anrproject_id)
uniquement (projet dans Aurehal)
11. Préparer son fichier BibTeX : autres champs
address (ville/pays pour une conférence, un brevet, …) :
address= {ville,pays} où pays=libellé français ou anglais
présent dans la norme ISO 3166-1
address={Paris, France} Bib2Hal calcule x-country
et x-city OU x-country={FR}, x-city={Paris}
Sinon renseigner les champs x-country et x-city
Date de production (date de publication, de soutenance
…) :
• Champ Year obligatoire
• Champ month/day possible
x-onbehalfof (listes des comptes HAL séparés par ';' )
désigner les propriétaires du dépôt
Ex: x-onbehalfof={test;identifiant;compte;1234}
12. Préparer son fichier BibTeX : pdf
Dépôt du fulltext dans le champ pdf. Deux possibilités :
Lien http accessible sur Internet (sans authentification)
pdf={http://…./nom_du_fichier.pdf}
Lien vers son espace ftp HAL sous la forme
pdf={ftp://ftp.ccsd.cnrs.fr/fulltext.pdf }
Possibilité de renseigner l’origine du fichier (par défaut
« fichier auteur » ):
x-fileSource : ‘author','greenPublisher‘ …
Possibilité de donner la licence : x-licence
Possibilité de déposer la notice avec Bib2Hal puis d’ajouter
le fichier plus tard
ATTENTION: 1 seul pdf, pas d’annexe
14. Prérequis
Pour utiliser Bib2Hal, il faut :
Un compte HAL validé. Dans le cas du dépôt pour
un labo / une équipe éventuellement créer un
compte pour la structure
Un BibTeX propre
Seules les structures de recherche dans Aurehal
pourront être utilisées si possible, les créer en
amont (https://aurehal.archives-
ouvertes.fr/structure/index)
16. L'interface
Lister BibTeX : voir tous ses imports BibTeX
Déposer BibTeX : déposer un nouveau BibTeX
https://bib2hal.inria.fr
17. Lister les imports BibTeX
Identifiant à donner
en cas de problème
Synthèse
Editer
Changer de propriétaire
Liste des
références
Supprimer
Clore un import en cours
18. Bib2Hal - Bac à sable
https://dev-bib2hal.inria.fr/
20. Créer un import BibTeX
Domaines par défaut
(obligatoire)
Complétion sur le nom
ou le code du domaine
Sinon champ x-domain
possible par référence
Liste des collections
pour tamponnage manuel
Coll1;Coll2
Créer les collections avant
24. Analyser le fichier BibTeX – Modifier BibTeX
Modification du fichier avec un éditeur de texte
Clic Icone « Remplacer »
Sélectionner le fichier « modifié » sur son disque
Icone « Remplacer »
Puis Enregistrer
25. Analyser le fichier BibTeX : que faire en cas
d'erreur
Si l'erreur est compréhensible, la corriger (ex :
ajouter le titre, …) puis remplacer le fichier
Vérifier d'abord que fichier est en utf8 et
modifier encodage sinon :
Notepad++ : menu Encodage / Encoder en UTF-8
(sans Bom) ou Convertir en UTF-8 (sans Bom)
Scite : menu File/Encoding puis choisir utf8
Geany : Document/Définir
l’encodage/Unicode/Unicode(Utf8)
26. Analyser le fichier BibTeX : que faire en cas
d'erreur
Attention aux articles avec la même clé dans
le même fichier erreur BibTeX
Sinon, méthode de la dichotomie :
on enlève la moitié du fichier et on relance l'analyse
si ça ne marche toujours pas, on enlève encore la
moitié ...
jusqu'à trouver la référence qui pose problème
Sinon, mail à archive-ouverte@inria.fr avec la
référence erronée
27. Bib2Hal : import par lot
Compléter l’import BibTeX pour l’import
2
28. Compléter l’import BibTeX : procédure
3 grandes étapes pour réaliser l'import:
Gérer les doublons : publications qui sont déjà dans
HAL
Vérifier les métadonnées et les compléter
Générer / valider les affiliations
Ordre indifférent + procédure interruptible mais conseillé
de commencer par les doublons (lancé à l’analyse)
Ensuite :
modifier le fichier et RECOMMENCER
OU
modifier les données via l’interface Bib2Hal
29. Identifiant
de la référence
Indicateurs validité:
À valider
Non valide
Valide
Nouveau : après l’analyse, on connait les doublons potentiels
Listes des références « brutes »
30. Modifier le fichier BibTeX et recommencer
Attention, tout est perdu (affiliations, dédoublonnages,
corrections sur les métadonnées)
Après avoir modifié le fichier BibTeX,
vous pouvez le redéposer
31. Bib2Hal : import par lot
Compléter l’import BibTeX pour l’import
Extraire les doublons
2
32. Extraire les doublons
Critère sur le titre + nom 1er auteur (ressemblance,
sans casse ni accent, title_t) ou doi
Pour chaque référence :
bien comparer référence BibTeX / publication
HAL
choisir si déjà dans HAL ou pas (si doi,
doublon=Oui par défaut)
attention, bloquant pour l'import : il FAUT choisir
33. Extraire les doublons
Si même doi, Oui par défaut
Si même doi + doublon=Non suppression champ doi
Choisir pour toutes les références Oui ou Non
Les choix sont enregistrés au fur et à mesure
Si Doublons=Oui la référence disparait de la liste
34. Bib2Hal : import par lot
Compléter l’import BibTeX pour l’import
Vérifier les métadonnées
2
35. Vérifier les métadonnées
Lancer le calcul automatique des métadonnées manquantes
Valeurs par défaut OU champs calculés par Bib2Hal
Modifier le fichier BibTeX
Et recommencer
36. Calcul des métadonnées
Certains champs ont des valeurs par défaut :
abstract, x-audience, x-country, x-city, x-language, …
Création des champs obligatoires avec
valeur = Empty
x-country, x-city calculés si address = {ville,pays}
38. Affichage des métadonnées si valide
En gris, italique non gras :
MT du BibTeX non utilisées par Bib2Hal
Vérifier si champ Bib2hal équivalent (ex language / x-language)
Métadonnées valides
En noir et gras : les MT présentes dans
le fichier BibTeX et utiles pour HAL
En orange non gras : MT calculées par Bib2Hal
39. Affichage des métadonnées si non valide
En gras et orange avec croix rouge :
les erreurs ou champs vides Correction manuelle
Erreur dans les métadonnées
41. Vérifier les métadonnées
Pour avoir le détail sur les champs :
Champs obligatoires/facultatifs
Description des champs BibTeX
Corriger manuellement les erreurs qui restent →
elles sont indiquées par une croix rouge
OU
Modifier le fichier BibTeX et recommencer
43. Bib2Hal : import par lot
Compléter l’import BibTeX pour l’import
Générer/valider les affiliations
2
44. Bouton « Générer les affiliations »
A partir des affiliations dans HAL :
Même Nom/Prénom auteur
Année la plus proche possible de la référence
Selon l’année trouvée, un icône différent si
l’affiliation calculée est très probable, probable
ou possible
Attention à :
Le prénom est en général complet dans HAL
et souvent en abréviation dans le BibTeX
Particules : dans HAL, avec le nom, prénom
ou autre nom
Générer/valider les affiliations des auteurs
45. Affichage des affiliations générées
Probable
année < 4 ans avant ou après
Très probable
Même année
Possible
année > 4 ans avant ou après
46. Affichage des affiliations générées / idHal
Si Bib2Hal trouve un idHal, écrit en orange et gras vérifier
que c’est le bon (mail, Aurehal, …)
Si adresse email
Clic pour auteur
correspondant
47. 2 moyens :
Individuellement
Éventuellement éditer l’auteur et modifier
les affiliations
Valider
Globalement bouton « Valider toutes les
affiliations calculées »
Valider les affiliations générées
48. Auteur correspondant Oui/Non :clic sur icône
Possibilité de copier une structure de recherche
d'un auteur vers un autre par drag & drop
Possibilité de déplacer les auteurs d’une même
référence pour modifier l’ordre par drag & drop
Editer un auteur depuis la liste des
ressources
49. Possibilité de modifier/enrichir les informations sur
l’auteur (email, idHal, structure…)
Auteur correspondant Oui/Non
Modification des affiliations
Complétion sur le numéro, sigle ou nom de labo/EPI (labos
terminés ou valides)
Pas possible d’ajouter un nouveau Labo/EPI faire une
demande de création
Editer un auteur depuis le formulaire
50. Editer un auteur - formulaire
Auteur prévenu en cas de
Création/modification
Mail au support si on a l’adresse email
associée au portail
Ou
demander la création d'une nouvelle
structure de recherche à votre administrateur
Ajout de structure
51. Modifier un auteur / ajouter une affiliation
Ajout d’une affiliation, complétion sur l’acronyme, le nom, l’identifiant
Suppression d’une affiliation
52. Choix entre :
Modifier l’auteur courant uniquement
(référence courante)
Modifier tous les auteurs (même
nom/prénom/autre nom) de la même année
Modifier tous les auteurs (même
nom/prénom/autre nom) de la même année et
plus anciennes
Enregistrer les modifications sur un auteur
53. Les affiliations d’une référence sont valides si :
notice seule : valide si au moins un auteur est
affilié
dépôt avec texte intégral récent de moins de 5
ans : valide si tous les auteurs sont affiliés
dépôt avec texte intégral non récent (+ de 5 ans)
: valide si au moins un auteur est affilié
Validité des affiliations
56. On peut lancer l’import si et seulement si :
Aucune erreur de métadonnées
Aucune erreur d’affiliation
L’utilisateur a indiqué si les doublons potentiels
sont effectivement dans HAL ou non
Sinon message d’erreur
Conditions
58. Où sera le dépôt importé
Attendre quelques minutes (indexation Solr) ou se
connecter dans le portail de dépôt avec le compte
de dépôt ou un compte admin
Si notice seule Dépôts dans Mon espace / Mes
dépôts / Références bibliographiques
Si dépôt avec texte intégral Dépôts dans Mon
espace / Publications en attente de validation à
vérifier
Si on est connecté, on peut voir ses dépôts en
attente de validation
60. Import NOK
Message d’erreur = retour de Sword et/ou erreur de
schéma non valide message d’erreur
Les références non citées en erreur ont été
déposées voir synthèse pour connaître lesquelles
Modifier les références en erreur, puis relancer
l’import seules les références non déposées sont
importées
Attention, possibilité API Sword non disponible
Message pas toujours « clair » ! regarder l’article
non déposé sinon mail au support !
62. Retrouver ses dépôts Bib2hal
Tous les dépôts Bib2hal ont comme propriétaire
l'utilisateur bib2hal dont l'identifiant est : 313657.
Requête API : http://api.archives-
ouvertes.fr/search/index/?q=halId_s:hal-
01240375%20AND%20owners_i:313657&wt=xml
64. BABEL.bib
Trop d'articles (200 max, 50 conseillés)
pour le test, 10 premiers articles conservés
Certains champs ne seront pas pris en compte par
Bib2hal : collaborator, file, copyright, urldate, …
Voir la liste des champs traités par Bib2hal dans
https://hal.archives-ouvertes.fr/page/description-des-
champs-bibtex .
Certains champs pourrait être renommés : language
=> x-language
65. CCSD-17mars.bib
Problème dans le fichier Bibtex :
x-keywords_fr= = {compétition politique, département du Nord, ..}
x-language = {fre}, ==> code ISO sur 2 lettres x-
language = {FR},
Certains champs ne seront pas pris en compte par
Bib2hal : copyright, urldate, …
66. petitfichierLINARES.bib
Trop d'articles = 347 alors que 200 max
pour le test, env 10 articles conservés
Problèmes dans le fichier BibTeX :
crossref = {DBLP:conf/interspeech/2013} ==> provoque
une erreur par le compilateur
BigotSLFD13 = clé en triple
les clés BibTeX doivent être uniques, il faut renommer
les clés en doublon
Certains champs ne seront pas pris en compte par
Bib2hal : libelle, bibsource …
Certains champs peuvent être renommés et/ou calculés
ex ee= {http://dx.doi.org/10.1109/TASL.2013.2248716}
doi={10.1109/TASL.2013.2248716}
67. Cresson_bibtex_2014.bib
Problèmes dans le fichier BibTeX :
Problème sur le champ type des @phdthesis :
type = {Thèse de doctorat en architecture {ED} 454
{Sciences} de l’{Homme} du {Politique} et du {Territoire}}
type = {Valeurs possibles : thèse, thesis, Habilitation
à diriger des recherches ou HDR},
Certains champs ne seront pas pris en compte par
Bib2Hal : shorttitle , urldate, …
68. formation 17 mars agroparistech.bib
Problèmes dans le fichier BibTeX :
Nom de champ Usage-Count-(Last-180-days) qui
provoque une erreur supprimer les lignes
Erreur sur le champ MONTH (Month = {{SEP 19}}, non
valide) Month = {{SEP }}
Beaucoup de champs ne seront pas pris en compte par
Bib2Hal : affiliation, author-email, …
Certains champs peuvent être renommés et/ou calculés
(ex Language = {{English}} x-language={EN})
Certains documents sont déjà en preprod (même doi)
69. Volff publis igfl 2015.txt
Problèmes dans le fichier BibTeX :
Erreur sur le champ MONTH (Month = {{DEC 6}}, non
valide) Month = {{DEC}}
Certains champs ne seront pas pris en compte par
Bib2Hal : unique-id, …
70. savedrecsUMR2014.bib
savedrecsALBAREDE2014.bib
Problèmes dans le fichier BibTeX :
Erreur sur le champ MONTH (Month = {{APR 1}}, non
valide) Month = {{APR}}
Nom de champ Usage-Count-(Last-180-days) qui
provoque une erreur supprimer les lignes
Certains champs ne seront pas pris en compte par
Bib2Hal : unique-id, …