SlideShare una empresa de Scribd logo
1 de 22
Vers un outils de collation numérique
de livres anciens
Cinquième journée annuelle du RTR « Image » 
5 juillet 2018, Blois
Rémi Jimenes, Iandry Rakotoniaina
Financement de stage 2017‐2018 par le RTR Image
Caractérisation et classification de différences 
locales détectées dans des collections d’images 
similaires
Stagiaire: Iandry Rakotoniaina
Encadrant(e)s:
Jean‐Yves Ramel (LIFAT), Chiara Lastraioli, Rémi
Jimenes, Toshinori Uetani, Sandrine Breuil (CESR‐BVH)
Financement de stage 2017‐2018 par le RTR Image
Rappel du contexte
• Un premier stage l’année dernière : Shuo Bai
« Recalage et comparaison d’images de pages provenant de différents
exemplaires de livres anciens numérisés »
(5 mois d’avril à septembre 2017)
• Un partenariat ancien entre le LI et le CESR
– Équipe RFAI (Reconnaissance de forme et Analyse d’images)
– Programme Bibliothèques Virtuelles Humanistes
– Collaboration depuis 2003
3
Présentation de la problématique
• Le contexte :  projet Bibliothèques virtuelles Humanistes
4
http://www.bvh.univ‐tours.fr/
http://cesr.univ‐tours.fr/
Des documents difficiles à traiter :
• Dégradations et bruits
• Imperfection de la numérisation
• Variabilité : Mise en page imprévisible 
(illustrations, espaces, …)
• Manque de données, connaissances et 
expériences
• Polices différentes  données d’apprentissage à 
créer
• Langages différents: Lexiques, dictionnaires et 
modèles de langages à créer
Présentation de la problématique
• Bibliographie matérielle et histoire des textes : les études 
shakespeariennes
• Particularités d’exemplaires : 
– Annotations marginales
– Corrections manuscrites
– Soulignement, surlignement
• Variantes d’état : corrections sous presse
• Invention d’un outil de comparaison : “la machine à collationner”
5
Présentation de la problématique
6
Présentation de la problématique
• Objectifs : Construire une Machine à collationner numérique
« Identification, alignement et comparaison automatique des 
pages de différents exemplaires de livres anciens numérisés » 
• Cahier des charges
– Rapprochement et alignement d’images de pages issues d’exemplaires
différents d’un même ouvrage afin de pouvoir ensuite comparer plus 
finement leur contenu
– Suppression du bruit et recalage des images par application de 
transformations géométriques
– Comparaison page à page et signalement des variantes les plus 
importantes au travers d’IHMs conviviales
7
Solution existante
Chaîne de traitement existante
8
Solution proposée
Nouvelle chaîne de traitement proposée
9
Préparation
des images (1)
Création de couples
d’images (2)
Normalisation de la luminosité
Du fond des
couples d’images.(3)
Recalage d’image sur
les couples (4)
Application d’un filtre
gaussien sur les images sur
les images recalées (5)
Calcul de l’image des
différences (6)
Sélection et Visualisation
des résultats (7)
Offline -
Création d’une base
d’apprentissage (6’)
Online -
Classification des pixels
de différences (6’’)
Couple d’ouvrage
Images normalisées
700x500
Couple d’images non
recalées
Couple d’images
normalisées
Couple d’images
recalées
Couple d’images
recalées filtrées
Image de différence
analyser pixel par pixel
Image contenant la carte
des probabilités des
classes de chaque pixel
Tableau d’individu
représenter par un pixel
avec leur classe
IHM
Mise en place d’une image des différences
10
‐ différence à base de 
pixel
> soustraction pixel à 
pixel
‐ différence à base de 
région autour d’un 
pixel
> soustraction moyenne 
des niveaux de gris
Création d’une base d’apprentissage
• Création d’une base contenant l’ensemble des pixels avec leur caractéristiques et leur classe.
• Sélection des couples d’images pertinentes en fonction des types de différences à détecter pour constituer l’ensemble de 
nos images de vérité terrain (15 images).
• Traitement des images sélectionnées afin de constituer notre base d’apprentissage.
• En général 4 classes, annotation manuscrite, correction sous presse et/ou correction manuscrite, ajout/suppression, bruit. 
11
Image Recalée
Image
Référence
Image des
différences
binaires
Classe Diff
Classe Bruit
Création d’une base d’apprentissage
12
Architecture de base d’un CNN
Architecture d’un CNN
autoencoder
Création d’une base d’apprentissage
13
Conv
Max
Pool Conv
Max
Pool
Un
Pool
Conv.T
Conv.T
Conv.T Conv.T
Un
PoolMax
Pool
Conv
encoder decoder
Image
Image
reconstruit
Transfert des caractéristiques
Flatten Dense
DropOut
Dense Activation -
sigmoïd
Création d’une base d’apprentissage
• Découpage en patch des couples d’images avec l’image des différences (taille 30).
14
Création d’une base d’apprentissage
• Extraction des caractéristiques : GLCM, moyenne, variance, lbp, intensité pixel.
15
Moyenne, Variance des voisinages du pixel A
Création d’une base d’apprentissage
 Nombre de patch (30x30) dans la base d’apprentissage: 34872 patchs.
 Ajout : 13783
 Annotation manuscrite : 2645
 Correction : 1211
 Bruit :  17233
 Regroupement en deux classes : Différence (17639) VS Bruit (17233)
16
Classification des différences et visualisation des 
résultats
17
Binarisation de l’image
des différences
Sélection des pixels à
classifier
Classification des pixels.
Illustration en rouge des
pixels de différences et
bleu pour les bruits.
Classification des différences et visualisation des 
résultats
18
Évaluation des résultats
19
Différent en
fonction de l’indice
utilisé
Résultat quantitatif en
fonction de l’indice de Dice
seul
Résultat quantitatif en fonction de tous
les indices de performance
Conclusion
20
 Le modèle doit avoir beaucoup d’exemple pour bien faire la détection des différences.
 L’ensemble des traitements a tendance à être optimal pour seulement les images utilisés 
pour l’apprentissage.
 Un mauvais alignement entre les images peut être problématique pour la détection. 
Perspectives
21
 Trouver une meilleure formule pour le calcul de la différence ou application d’un modèle 
de réseau de neurone siamoise.
 Implémenter un modèle de génération artificiel de différence.
 Améliorer l’interface graphique pour rendre l’analyse des différences plus conviviale.
 Chercher à créer un modèle adaptatif en fonction des différents types d’ouvrages utilisés 
en entrée.
Merci de votre attention !

Más contenido relacionado

Más de Bibliothèques Virtuelles Humanistes - CESR, Université de Tours, UMR 7323

Más de Bibliothèques Virtuelles Humanistes - CESR, Université de Tours, UMR 7323 (20)

Catalogues régionaux des Incunables des bibliothèques publiques de France : S...
Catalogues régionaux des Incunables des bibliothèques publiques de France : S...Catalogues régionaux des Incunables des bibliothèques publiques de France : S...
Catalogues régionaux des Incunables des bibliothèques publiques de France : S...
 
Architecture de la bibliothèque numérique : Déploiement du protocole IIIF - A...
Architecture de la bibliothèque numérique : Déploiement du protocole IIIF - A...Architecture de la bibliothèque numérique : Déploiement du protocole IIIF - A...
Architecture de la bibliothèque numérique : Déploiement du protocole IIIF - A...
 
Autour du projet BiRayMa : "Bibliothèque de Raymond Marcel" (CollEx-Persée) -...
Autour du projet BiRayMa : "Bibliothèque de Raymond Marcel" (CollEx-Persée) -...Autour du projet BiRayMa : "Bibliothèque de Raymond Marcel" (CollEx-Persée) -...
Autour du projet BiRayMa : "Bibliothèque de Raymond Marcel" (CollEx-Persée) -...
 
Rabelais : Les documents de Berne et l'Almanach d'Alessandria - Assemblée gén...
Rabelais : Les documents de Berne et l'Almanach d'Alessandria - Assemblée gén...Rabelais : Les documents de Berne et l'Almanach d'Alessandria - Assemblée gén...
Rabelais : Les documents de Berne et l'Almanach d'Alessandria - Assemblée gén...
 
Projet Scripta Manent : Une nouvelle base de données : les relations sociales...
Projet Scripta Manent : Une nouvelle base de données : les relations sociales...Projet Scripta Manent : Une nouvelle base de données : les relations sociales...
Projet Scripta Manent : Une nouvelle base de données : les relations sociales...
 
Projet Les Bibliotheques françoises de La Croix du Maine et de Du Verdier - A...
Projet Les Bibliotheques françoises de La Croix du Maine et de Du Verdier - A...Projet Les Bibliotheques françoises de La Croix du Maine et de Du Verdier - A...
Projet Les Bibliotheques françoises de La Croix du Maine et de Du Verdier - A...
 
Architecture de la bibliothèque numérique : Modélisation en XML-TEI - Assembl...
Architecture de la bibliothèque numérique : Modélisation en XML-TEI - Assembl...Architecture de la bibliothèque numérique : Modélisation en XML-TEI - Assembl...
Architecture de la bibliothèque numérique : Modélisation en XML-TEI - Assembl...
 
Architecture de la bibliothèque numérique : Veille fonctionnelle et technique...
Architecture de la bibliothèque numérique : Veille fonctionnelle et technique...Architecture de la bibliothèque numérique : Veille fonctionnelle et technique...
Architecture de la bibliothèque numérique : Veille fonctionnelle et technique...
 
Architecture de la bibliothèque numérique : Modélisation et migrations de don...
Architecture de la bibliothèque numérique : Modélisation et migrations de don...Architecture de la bibliothèque numérique : Modélisation et migrations de don...
Architecture de la bibliothèque numérique : Modélisation et migrations de don...
 
Production BVH : Epistemon (éditions numériques TEI-Renaissance) - Assemblée ...
Production BVH : Epistemon (éditions numériques TEI-Renaissance) - Assemblée ...Production BVH : Epistemon (éditions numériques TEI-Renaissance) - Assemblée ...
Production BVH : Epistemon (éditions numériques TEI-Renaissance) - Assemblée ...
 
Production BVH : Fac-similés (Numérisations) - Assemblée générale 2021, Progr...
Production BVH : Fac-similés (Numérisations) - Assemblée générale 2021, Progr...Production BVH : Fac-similés (Numérisations) - Assemblée générale 2021, Progr...
Production BVH : Fac-similés (Numérisations) - Assemblée générale 2021, Progr...
 
Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...
Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...
Bilan 2020-2021 & perspectives 2022+ Assemblée générale 2021, Programme de re...
 
Bibliothèque virtuelle des manuscrits médiévaux, IRHT. Gilles Kagan & Cyril M...
Bibliothèque virtuelle des manuscrits médiévaux, IRHT. Gilles Kagan & Cyril M...Bibliothèque virtuelle des manuscrits médiévaux, IRHT. Gilles Kagan & Cyril M...
Bibliothèque virtuelle des manuscrits médiévaux, IRHT. Gilles Kagan & Cyril M...
 
Mise en oeuvre de IIIF dans le cadre de Biblissima. Régis Robineau
Mise en oeuvre de IIIF dans le cadre de Biblissima. Régis RobineauMise en oeuvre de IIIF dans le cadre de Biblissima. Régis Robineau
Mise en oeuvre de IIIF dans le cadre de Biblissima. Régis Robineau
 
Rayonnement, communication, valorisation & formation - Programme de recherche...
Rayonnement, communication, valorisation & formation - Programme de recherche...Rayonnement, communication, valorisation & formation - Programme de recherche...
Rayonnement, communication, valorisation & formation - Programme de recherche...
 
Bilan 2019 & perspectives 2020 du programme de recherche BVH
Bilan 2019 & perspectives 2020 du programme de recherche BVHBilan 2019 & perspectives 2020 du programme de recherche BVH
Bilan 2019 & perspectives 2020 du programme de recherche BVH
 
Projet Biblissima "Le livre illustré à Lyon (1480-1600)"
Projet Biblissima "Le livre illustré à Lyon (1480-1600)"Projet Biblissima "Le livre illustré à Lyon (1480-1600)"
Projet Biblissima "Le livre illustré à Lyon (1480-1600)"
 
Projet Bibliothèques françaises de La croix du Maine et de Du Verdier
Projet Bibliothèques françaises de La croix du Maine et de Du Verdier Projet Bibliothèques françaises de La croix du Maine et de Du Verdier
Projet Bibliothèques françaises de La croix du Maine et de Du Verdier
 
Projet partenarial Biblissima "Bibliothèques humanistes ligériennes"
Projet partenarial Biblissima "Bibliothèques humanistes ligériennes"Projet partenarial Biblissima "Bibliothèques humanistes ligériennes"
Projet partenarial Biblissima "Bibliothèques humanistes ligériennes"
 
Projet CollEx "Bibliothèque de Raymond Marcel". Rémi Jimenes
Projet CollEx "Bibliothèque de Raymond Marcel". Rémi JimenesProjet CollEx "Bibliothèque de Raymond Marcel". Rémi Jimenes
Projet CollEx "Bibliothèque de Raymond Marcel". Rémi Jimenes
 

Último

Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Ville de Châteauguay
 
optimisation logistique MLT_231102_155827.pdf
optimisation logistique  MLT_231102_155827.pdfoptimisation logistique  MLT_231102_155827.pdf
optimisation logistique MLT_231102_155827.pdfSoukainaMounawir
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de planchermansouriahlam
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestionyakinekaidouchi1
 
Algo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigésAlgo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigésSana REFAI
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirstjob4
 

Último (7)

Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
Présentation_Soirée-Information_ Surverse_Thibert _30 avril 2024
 
optimisation logistique MLT_231102_155827.pdf
optimisation logistique  MLT_231102_155827.pdfoptimisation logistique  MLT_231102_155827.pdf
optimisation logistique MLT_231102_155827.pdf
 
JTC 2024 Bâtiment et Photovoltaïque.pdf
JTC 2024  Bâtiment et Photovoltaïque.pdfJTC 2024  Bâtiment et Photovoltaïque.pdf
JTC 2024 Bâtiment et Photovoltaïque.pdf
 
conception d'un batiment r+4 comparative de defferente ariante de plancher
conception d'un  batiment  r+4 comparative de defferente ariante de plancherconception d'un  batiment  r+4 comparative de defferente ariante de plancher
conception d'un batiment r+4 comparative de defferente ariante de plancher
 
comprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestioncomprehension de DDMRP dans le domaine de gestion
comprehension de DDMRP dans le domaine de gestion
 
Algo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigésAlgo II: les files cours + exercices corrigés
Algo II: les files cours + exercices corrigés
 
firefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdffirefly algoriyhm sac a dos step by step .pdf
firefly algoriyhm sac a dos step by step .pdf
 

Vers un outils de collation numérique de livres anciens