SlideShare una empresa de Scribd logo
1 de 4
Descargar para leer sin conexión
Solutions de recherche et d'accès à l'information



ISIDORE est la plateforme d'accès unifié aux données produites par
la recherche francophone en sciences humaines et sociales. Elle est un
socle applicatif ouvert constitué à la fois d'un moteur de recherche et
d'un point de diffusion des données en accès libre selon les principes
du Web Sémantique.


ISIDORE est une réalisation du Très Grand Equipement ADONIS du
CNRS. http://www.rechercheisidore.fr



Contexte et objectifs
Toutes les disciplines des Sciences Humaines et Sociales (SHS) sont confrontées à un accroissement accéléré des données
numérisées ou nativement numériques. Ces masses de données hétérogènes - sources textuelles, orales, iconographiques,
audiovisuelles, images 3D, publications électroniques, séries de calculs - soulèvent de nombreuses questions : accessibilité,
interopérabilité, publication, conservation, pérennité. Face à de tels enjeux, le CNRS met en oeuvre une infrastructure pour la
recherche et l'enseignement supérieur qui permettra d'accroître la visibilité des travaux et des résultats de la recherche par une
meilleure mise à disposition des données.

Fin 2009, le TGE Adonis a lancé la                  Le cahier des charges de la plateforme Isidore est particulièrement ambitieux,
réalisation du socle de services et le              tant en termes de diversité et de volumétrie des données, qu'en termes de
moteur de recherche pour accéder                    fonctionnalités :
aux données et documents des SHS.
Cette plateforme, nommée Isidore, doit              »»oissonnage ciblé des données scientifiques et des métadonnées
                                                     M
                                                        structurées selon des protocoles variés. Plus de 750 sources différentes
permettre :                                             constituent le corpus SHS.
»» d'offrir à la communauté un                     »»
                                                     Normalisation des métadonnées et enrichissement des données en
   ensemble de services de traitement                   s'appuyant sur des référentiels reconnus dans la communauté.
   et de diffusion des données
   mutualisable à haute valeur ajoutée ;            »»oteur de recherche sur les données non structurées (texte
                                                     M
                                                     
                                                        intégral) et sur les données structurées (métadonnées documentaires
»» de constituer la mémoire vivante de                 existantes ou crées par enrichissement).
   la recherche en SHS ;
                                                    »»ise à disposition des métadonnées enrichies afin de créer une
                                                     M
                                                     
»» de placer les données des SHS dans                  boucle de rétroaction vers les producteurs de données selon les
   le « Web de données », la prochaine                  principes et technologies du Web Sémantique.
   évolution du Web, permettant ainsi
   une meilleure mise à disposition des             »»
                                                     I
                                                     ntégration possible du moteur de recherche Isidore et des données
   ressources, de leurs relations et de                 exposées dans un autre environnement par la mise à disposition d'API Web.
   leurs échanges.


A l'issu d'un appel d'offres, le CNRS a retenu les solutions
Information Factory (AIF) et Finder Suite (AFS) d'Antidot
pour la réalisation de la plateforme Isidore.




               www.antidot.net
Information Factory
Antidot Information Factory (AIF) est une solution logicielle conçue spécialement pour répondre aux enjeux de valorisation
et d'exploitation des données non structurées ou semi structurées. Information Factory est une « machine à produire de
l'information » qui industrialise la captation et le traitement des données existantes puis la mise à disposition automatisée
d'informations enrichies.

AIF s'utilise comme un jeu de construction : pour créer des chaines de
traitement, il suffit d'assembler et de paramétrer des modules prêts à
l'emploi. Il en existe plus de 50 disponibles :

 odules de captation qui se connectent aux sources et
  m
  récupèrent les données ciblées ;
modules de normalisation et de nettoyage des données ;
 odules d'enrichissement pour la classification, l'annotation et
  m
  la mise en relation.
En bout de chaine, les données enrichies ou créées peuvent être
exposées / publiées de plusieurs façons telles que la génération de
fichiers ou l'injection dans une base ou un triplestore RDF.

Bien évidemment en bout de chaine il est possible connecter le moteur de recherche AFS afin d'offrir en plus un service de
recherche performant et riche sur l'ensemble des données.


Classification des données
Parmi les 750 sources, il en est une, l'archive en ligne HAL-SHS (http://halshs.archives-
ouvertes.fr) qui propose près de 30 000 documents déjà tous affectés dans un plan de
classement. Cette taxonomie est assez simple et représentative du domaine des SHS, si bien
qu'il a été décidé de l'étendre à l'ensemble de 750 sources grâce au module de classification
d'AIF. Cela signifie que les millions de documents du corpus Isidore doivent être rangés dans
ces catégories. Vu les volumes, toute intervention manuelle est bien évidemment exclue.

                                                     La première étape consiste à utiliser les 30 000 documents de HAL-SHS
                                                     déjà catégorisés pour entrainer le module de classification. Celui-ci regarde
                                                     pour chaque document la ou les catégories dans lesquelles ce dernier est
                                                     rangé afin d'apprendre. A l'issu de cette phase, le classifieur génère une
                                                     base de signatures sémantiques.

La base de signatures ainsi générée est exploitée lors de la
phase de traitement. Lorsqu'un document passe à travers le
module de classification, il se voit automatiquement attribuer
une ou plusieurs catégories de la taxonomie HAL-SHS. Même les
documents de HAL-SHS sont retraités et certains qui n'avaient qu'une catégorie s'en voient affecter une seconde.

                                            Une des applications de cette classification est de pouvoir offrir, lors de la
                                            recherche, une facette (un filtre) qui s'applique à l'ensemble des documents et pas
                                            seulement à ceux issus de HAL-SHS.
                                            Les résultats obtenus ont été évalués et sont d'excellente qualité puisque le score
                                            de précision est supérieur à 90%. Ce sont en tout 4 classifications différentes qui
                                            sont réalisées dans Isidore puisque les éléments du corpus sont analysés et rangés
                                            selon d'autres taxonomies comme les sujets et les époques historiques.
Gestion des sources
1   Pour chacune des 750 sources à
    capter et enrichir, ce sont plus de 30
    modules de traitement qui s'enchainent.
    Certains sont spécifiques au type de la
                                                                           1
    source (flux RSS, site, entrepôt OAI...).
    D'autres sont génériques. Générique ou
    spécifique, chaque module est configuré
    par des paramètres qui déterminent son
    comportement.

2   La définition des sources et de leurs
    caractéristiques est réalisée à travers
    une application dédiée qui fournit ces
    paramètres sous forme de fichiers XML.

3   Une chaine de traitement AIF a été
    configurée afin de transformer ces fichiers                    2                         3
    XML de définition des sources en fichiers
    de configuration de la chaine et des
    modules AIF.

    Ainsi la configuration de la captation et
    de l'enrichissement des 750 sources est
    auto générée et chaque ajout/modification
    de source depuis l'interface de gestion
    modifie dynamiquement le comportement de l'ensemble de la solution.




    Web de données
    Afin de rendre les documents SHS compatibles avec le Web de données, une URI pérenne leur est attribuée si elles n'en
    possèdent pas déjà. En effet, seules quelques rares sources (telles que la BnF) attribuent à leurs données des URI (Uniform
    Resource Identifier) stables et pérennes. Or l'URI est l'élément fondamental
    du Web de données : c'est l'identifiant unique de la ressource par lequel le lien
    entre éléments est fait. Ainsi, lorsqu'un document a déjà une URI, celle-ci est
    repérée et utilisée. Sinon une URI pérenne lui est attribuée lors de la phase de
    normalisation. Le système de gestion des URI est Handle (www.handle.net).
    Un module AIF dédié est chargé de repérer si un document possède déjà une
    URI et sinon d'en demander une au système Handle.

    En bout de chaine AIF, un sous-ensemble choisi de
    métadonnées est transformé en RDF selon une ontologie
    cible, et ces triplets RDF sont injectés dans des entrepôts.
    Plusieurs triplestore sont constitués, contenant chacun les
    triplets nécessaires à des usages spécifiques.

    Ces entrepôts sont rendus accessibles par un point d'accès SPARQL. Les données SHS sont ainsi exposées dans le Web de
    données dans une perspective d'Open Data. Respectant les principes de la négociation de contenu en vigueur sur le Web,
    chaque ressource informationnelle est accessible selon plusieurs formats : HTML, RDF/XML, N3.
Moteur de recherche
 Les données captées et enrichies par Antidot Information Factory sont
 indexées par le moteur de recherche AFS.

 Le moteur permet d'offrir un accès fonctionnellement riche sur
 l'ensemble des données constituées :

 autocomplétion tolérante et structurée lors de la saisie ;
  ffinage dynamique des réponses grâce aux facettes. Les facettes
   a
   proposées proviennent pour certaines des métadonnées des
   documents, alors que d'autres ont été générées par AIF lors de
   l'enrichissement : catégories issues des étapes de classification,
   alignement sur des référentiels ;
  avigation transversale dans le corpus grâce à des fonctions
   n
   de rebond et de liens inter documents pour une assistance à la
   découverte d'information ;
  echerche visuelle grâce à des représentations cartographiques
   r
   ou par le positionnement des documents clés sur des échelles
   temporelles.




 Résultat projet
 La maîtrise d'ouvrage, le TGE Adonis, avait posé un cahier des charges ambitieux et visionnaire. Grâce au travail commun
 de la maitrise d'oeuvre CNRS (le CCSD), de l'intégrateur (Sword) et du fournisseur des composants technologiques (Antidot),
 l'ensemble des défis fonctionnels et techniques ont été relevés et résolus avec succès.

 Le résultat est reconnu par la communauté comme une réussite indéniable. Le CNRS dispose à présent d'une plateforme




«L
 ouverte dont les services (enrichissement, maillage, recherche, navigation) peuvent être intégrés à des applications variées.
 Le portail Isidore en est le premier représentant.

      a mission principale du projet, réalisé par le très grand équipement Adonis du CNRS, était de proposer un accès
      unifié à des données hétérogènes et distribuées. Il s'agit de valoriser des données structurées et le texte intégral
 associé, produits dans les laboratoires et les bibliothèques de recherche. L'unification des données et l'enrichissement
 offre la possibilité de naviguer dans un espace documentaire et informationnel étendu permettant d'explorer des
 questions scientifiques nouvelles mais aussi les frontières scientifiques des disciplines. Les trois modes d'accès (web,
 api, 3store RDF) sont complémentaires et permettent de développer des outils à géométrie variable suivant les




                                                                                                           »
 usages. Ainsi, la solution Information Factory d'Antidot, qui est au coeur d'ISIDORE, correspond pleinement aux
 attentes du TGE Adonis car elle permet de traiter à la fois les données structurées, le texte intégral, l'enrichissement,
 les modes accès dans le respect des standards du web sémantique ce qui est un réel plus pour nous.

 M. Stéphane Pouyllau
 co-directeur du projet




       Paris | Lyon | Aix-en-Provence     www.antidot.net       info@antidot.net                 +33 (0)4 72 76 03 80

Más contenido relacionado

Similar a ANTIDOT - Cas client ISIDORE

Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...pascal aventurier
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Gautier Poupeau
 
Isidore à l'interface de la rencontre des SHS et du Web de données
Isidore à l'interface de la rencontre des SHS et du Web de donnéesIsidore à l'interface de la rencontre des SHS et du Web de données
Isidore à l'interface de la rencontre des SHS et du Web de donnéesAntidot
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...infoclio.ch
 
Spire : l'archive ouverte de Sciences Po
Spire : l'archive ouverte de Sciences PoSpire : l'archive ouverte de Sciences Po
Spire : l'archive ouverte de Sciences PoJean-François Lutz
 
structuration des métadonnées de pérennisation
structuration des métadonnées de pérennisationstructuration des métadonnées de pérennisation
structuration des métadonnées de pérennisationPascal Romain
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantiquebadirh
 
Presentation PIN 2011
Presentation PIN 2011Presentation PIN 2011
Presentation PIN 2011Pascal Romain
 
Cours ressources électroniques sur l'Amérique du Nord et l'Amérique latine et...
Cours ressources électroniques sur l'Amérique du Nord et l'Amérique latine et...Cours ressources électroniques sur l'Amérique du Nord et l'Amérique latine et...
Cours ressources électroniques sur l'Amérique du Nord et l'Amérique latine et...Françoise Gouzi
 
JABES 2017- Vers un fichier national d'entités (FNE)
JABES 2017- Vers un fichier national d'entités (FNE)JABES 2017- Vers un fichier national d'entités (FNE)
JABES 2017- Vers un fichier national d'entités (FNE)ABES
 
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "OATAO, ar...
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "OATAO, ar...Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "OATAO, ar...
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "OATAO, ar...ABES
 
5Jpro CTLes : intervention MM Géroudet
5Jpro CTLes : intervention MM Géroudet5Jpro CTLes : intervention MM Géroudet
5Jpro CTLes : intervention MM GéroudetCTLes
 
Medialille evolutions catalogage_avril2014_web-donnees
Medialille evolutions catalogage_avril2014_web-donneesMedialille evolutions catalogage_avril2014_web-donnees
Medialille evolutions catalogage_avril2014_web-donneesnonue12
 

Similar a ANTIDOT - Cas client ISIDORE (20)

Semantic web introduction
Semantic web introductionSemantic web introduction
Semantic web introduction
 
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
Mettre en pratique les recommandations sur les archives ouvertes de nouvelle ...
 
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
Le "Lac de données" de l'Ina, un projet pour placer la donnée au cœur de l'or...
 
Isidore à l'interface de la rencontre des SHS et du Web de données
Isidore à l'interface de la rencontre des SHS et du Web de donnéesIsidore à l'interface de la rencontre des SHS et du Web de données
Isidore à l'interface de la rencontre des SHS et du Web de données
 
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
Stéphane Pouyllau (CNRS) - ISIDORE : plateforme d’accès unifié aux données de...
 
Spire : l'archive ouverte de Sciences Po
Spire : l'archive ouverte de Sciences PoSpire : l'archive ouverte de Sciences Po
Spire : l'archive ouverte de Sciences Po
 
structuration des métadonnées de pérennisation
structuration des métadonnées de pérennisationstructuration des métadonnées de pérennisation
structuration des métadonnées de pérennisation
 
ANTIDOT - Antidot information factory
ANTIDOT - Antidot information factoryANTIDOT - Antidot information factory
ANTIDOT - Antidot information factory
 
Le web sémantique - Sylvie Fayet
Le web sémantique - Sylvie FayetLe web sémantique - Sylvie Fayet
Le web sémantique - Sylvie Fayet
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
 
Presentation PIN 2011
Presentation PIN 2011Presentation PIN 2011
Presentation PIN 2011
 
Cours ressources électroniques sur l'Amérique du Nord et l'Amérique latine et...
Cours ressources électroniques sur l'Amérique du Nord et l'Amérique latine et...Cours ressources électroniques sur l'Amérique du Nord et l'Amérique latine et...
Cours ressources électroniques sur l'Amérique du Nord et l'Amérique latine et...
 
JABES 2017- Vers un fichier national d'entités (FNE)
JABES 2017- Vers un fichier national d'entités (FNE)JABES 2017- Vers un fichier national d'entités (FNE)
JABES 2017- Vers un fichier national d'entités (FNE)
 
Polytech geii sept2016
Polytech geii sept2016Polytech geii sept2016
Polytech geii sept2016
 
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "OATAO, ar...
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "OATAO, ar...Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "OATAO, ar...
Jabes 2010 - Sessions 1 - Expériences et projets des bibliothèques "OATAO, ar...
 
5Jpro CTLes : intervention MM Géroudet
5Jpro CTLes : intervention MM Géroudet5Jpro CTLes : intervention MM Géroudet
5Jpro CTLes : intervention MM Géroudet
 
Hal Inria
Hal InriaHal Inria
Hal Inria
 
Hal Inria
Hal InriaHal Inria
Hal Inria
 
Hal Inria
Hal InriaHal Inria
Hal Inria
 
Medialille evolutions catalogage_avril2014_web-donnees
Medialille evolutions catalogage_avril2014_web-donneesMedialille evolutions catalogage_avril2014_web-donnees
Medialille evolutions catalogage_avril2014_web-donnees
 

Más de Documation Gestion de l'information et du document numérique en entreprise

Más de Documation Gestion de l'information et du document numérique en entreprise (20)

ZYNCRO - Zyncro, la solution de réseau social d'entreprise la plus complète ...
ZYNCRO  - Zyncro, la solution de réseau social d'entreprise la plus complète ...ZYNCRO  - Zyncro, la solution de réseau social d'entreprise la plus complète ...
ZYNCRO - Zyncro, la solution de réseau social d'entreprise la plus complète ...
 
W4 - L'IT et le métier ensemble pour des applications sur mesure
W4 - L'IT et le métier ensemble pour des applications sur mesureW4 - L'IT et le métier ensemble pour des applications sur mesure
W4 - L'IT et le métier ensemble pour des applications sur mesure
 
SQLI - Mise en place d'un private cloud avec SharePoint 2010 et les solutions...
SQLI - Mise en place d'un private cloud avec SharePoint 2010 et les solutions...SQLI - Mise en place d'un private cloud avec SharePoint 2010 et les solutions...
SQLI - Mise en place d'un private cloud avec SharePoint 2010 et les solutions...
 
SQLI - Réduire vos coûts et augmenter la productivité de vos équipes au trav...
SQLI -  Réduire vos coûts et augmenter la productivité de vos équipes au trav...SQLI -  Réduire vos coûts et augmenter la productivité de vos équipes au trav...
SQLI - Réduire vos coûts et augmenter la productivité de vos équipes au trav...
 
SPOTTER - Aide à la décision: technologies et indicateurs pour le marketing e...
SPOTTER - Aide à la décision: technologies et indicateurs pour le marketing e...SPOTTER - Aide à la décision: technologies et indicateurs pour le marketing e...
SPOTTER - Aide à la décision: technologies et indicateurs pour le marketing e...
 
SCENARI - Scenari 4 comment optimiser la rédaction collaborative et la gestio...
SCENARI - Scenari 4 comment optimiser la rédaction collaborative et la gestio...SCENARI - Scenari 4 comment optimiser la rédaction collaborative et la gestio...
SCENARI - Scenari 4 comment optimiser la rédaction collaborative et la gestio...
 
Mondeca - Smart content ou comment rendre vos contenus plus intelligents par...
Mondeca  - Smart content ou comment rendre vos contenus plus intelligents par...Mondeca  - Smart content ou comment rendre vos contenus plus intelligents par...
Mondeca - Smart content ou comment rendre vos contenus plus intelligents par...
 
Klee Group / Spark Archives - Gel des documents & e-discovery - comment arch...
Klee Group /  Spark Archives - Gel des documents & e-discovery - comment arch...Klee Group /  Spark Archives - Gel des documents & e-discovery - comment arch...
Klee Group / Spark Archives - Gel des documents & e-discovery - comment arch...
 
KODAK - Gestion documentaire enrichie pour SharePoint 2010 - capture, recher...
KODAK  - Gestion documentaire enrichie pour SharePoint 2010 - capture, recher...KODAK  - Gestion documentaire enrichie pour SharePoint 2010 - capture, recher...
KODAK - Gestion documentaire enrichie pour SharePoint 2010 - capture, recher...
 
ISIS PAPYRUS - Comment optimiser la gestion des cas dossiers pour améliorer...
ISIS PAPYRUS   - Comment optimiser la gestion des cas dossiers pour améliorer...ISIS PAPYRUS   - Comment optimiser la gestion des cas dossiers pour améliorer...
ISIS PAPYRUS - Comment optimiser la gestion des cas dossiers pour améliorer...
 
INGE COM - Optimisez vos processus métiers en dématérialisant vos courriers e...
INGE COM - Optimisez vos processus métiers en dématérialisant vos courriers e...INGE COM - Optimisez vos processus métiers en dématérialisant vos courriers e...
INGE COM - Optimisez vos processus métiers en dématérialisant vos courriers e...
 
FLA Consultants - Présentation des principaux serveurs agrégateurs
FLA Consultants  - Présentation des principaux serveurs agrégateursFLA Consultants  - Présentation des principaux serveurs agrégateurs
FLA Consultants - Présentation des principaux serveurs agrégateurs
 
ESKER - Diminuez vos coûts et augmentez votre productivité en dématérialisant...
ESKER - Diminuez vos coûts et augmentez votre productivité en dématérialisant...ESKER - Diminuez vos coûts et augmentez votre productivité en dématérialisant...
ESKER - Diminuez vos coûts et augmentez votre productivité en dématérialisant...
 
Coexel - Retour d'expérience du centre national RFID mytwip® – solution col...
Coexel  - Retour d'expérience  du centre national RFID mytwip® – solution col...Coexel  - Retour d'expérience  du centre national RFID mytwip® – solution col...
Coexel - Retour d'expérience du centre national RFID mytwip® – solution col...
 
Campana & Schott - MS Project et SharePoint Serve, des projets plus performa...
Campana & Schott  - MS Project et SharePoint Serve, des projets plus performa...Campana & Schott  - MS Project et SharePoint Serve, des projets plus performa...
Campana & Schott - MS Project et SharePoint Serve, des projets plus performa...
 
Calinda Software - Comment accélérer le déploiement et l'adoption progressive...
Calinda Software - Comment accélérer le déploiement et l'adoption progressive...Calinda Software - Comment accélérer le déploiement et l'adoption progressive...
Calinda Software - Comment accélérer le déploiement et l'adoption progressive...
 
Bentley Systems - Les avantages de Project Wise, solution logicielle permetta...
Bentley Systems - Les avantages de Project Wise, solution logicielle permetta...Bentley Systems - Les avantages de Project Wise, solution logicielle permetta...
Bentley Systems - Les avantages de Project Wise, solution logicielle permetta...
 
Armadillo - Web sémantique, les outils d’un open data culturel
Armadillo  - Web sémantique, les outils d’un open data culturelArmadillo  - Web sémantique, les outils d’un open data culturel
Armadillo - Web sémantique, les outils d’un open data culturel
 
ADBS & Veille Magazine - Pratiques et usages de l'information professionnelle...
ADBS & Veille Magazine - Pratiques et usages de l'information professionnelle...ADBS & Veille Magazine - Pratiques et usages de l'information professionnelle...
ADBS & Veille Magazine - Pratiques et usages de l'information professionnelle...
 
ERIC Archivage et MULTIGEST
ERIC Archivage et MULTIGESTERIC Archivage et MULTIGEST
ERIC Archivage et MULTIGEST
 

ANTIDOT - Cas client ISIDORE

  • 1. Solutions de recherche et d'accès à l'information ISIDORE est la plateforme d'accès unifié aux données produites par la recherche francophone en sciences humaines et sociales. Elle est un socle applicatif ouvert constitué à la fois d'un moteur de recherche et d'un point de diffusion des données en accès libre selon les principes du Web Sémantique. ISIDORE est une réalisation du Très Grand Equipement ADONIS du CNRS. http://www.rechercheisidore.fr Contexte et objectifs Toutes les disciplines des Sciences Humaines et Sociales (SHS) sont confrontées à un accroissement accéléré des données numérisées ou nativement numériques. Ces masses de données hétérogènes - sources textuelles, orales, iconographiques, audiovisuelles, images 3D, publications électroniques, séries de calculs - soulèvent de nombreuses questions : accessibilité, interopérabilité, publication, conservation, pérennité. Face à de tels enjeux, le CNRS met en oeuvre une infrastructure pour la recherche et l'enseignement supérieur qui permettra d'accroître la visibilité des travaux et des résultats de la recherche par une meilleure mise à disposition des données. Fin 2009, le TGE Adonis a lancé la Le cahier des charges de la plateforme Isidore est particulièrement ambitieux, réalisation du socle de services et le tant en termes de diversité et de volumétrie des données, qu'en termes de moteur de recherche pour accéder fonctionnalités : aux données et documents des SHS. Cette plateforme, nommée Isidore, doit »»oissonnage ciblé des données scientifiques et des métadonnées M structurées selon des protocoles variés. Plus de 750 sources différentes permettre : constituent le corpus SHS. »» d'offrir à la communauté un »» Normalisation des métadonnées et enrichissement des données en ensemble de services de traitement s'appuyant sur des référentiels reconnus dans la communauté. et de diffusion des données mutualisable à haute valeur ajoutée ; »»oteur de recherche sur les données non structurées (texte M intégral) et sur les données structurées (métadonnées documentaires »» de constituer la mémoire vivante de existantes ou crées par enrichissement). la recherche en SHS ; »»ise à disposition des métadonnées enrichies afin de créer une M »» de placer les données des SHS dans boucle de rétroaction vers les producteurs de données selon les le « Web de données », la prochaine principes et technologies du Web Sémantique. évolution du Web, permettant ainsi une meilleure mise à disposition des »» I ntégration possible du moteur de recherche Isidore et des données ressources, de leurs relations et de exposées dans un autre environnement par la mise à disposition d'API Web. leurs échanges. A l'issu d'un appel d'offres, le CNRS a retenu les solutions Information Factory (AIF) et Finder Suite (AFS) d'Antidot pour la réalisation de la plateforme Isidore. www.antidot.net
  • 2. Information Factory Antidot Information Factory (AIF) est une solution logicielle conçue spécialement pour répondre aux enjeux de valorisation et d'exploitation des données non structurées ou semi structurées. Information Factory est une « machine à produire de l'information » qui industrialise la captation et le traitement des données existantes puis la mise à disposition automatisée d'informations enrichies. AIF s'utilise comme un jeu de construction : pour créer des chaines de traitement, il suffit d'assembler et de paramétrer des modules prêts à l'emploi. Il en existe plus de 50 disponibles : odules de captation qui se connectent aux sources et m récupèrent les données ciblées ; modules de normalisation et de nettoyage des données ; odules d'enrichissement pour la classification, l'annotation et m la mise en relation. En bout de chaine, les données enrichies ou créées peuvent être exposées / publiées de plusieurs façons telles que la génération de fichiers ou l'injection dans une base ou un triplestore RDF. Bien évidemment en bout de chaine il est possible connecter le moteur de recherche AFS afin d'offrir en plus un service de recherche performant et riche sur l'ensemble des données. Classification des données Parmi les 750 sources, il en est une, l'archive en ligne HAL-SHS (http://halshs.archives- ouvertes.fr) qui propose près de 30 000 documents déjà tous affectés dans un plan de classement. Cette taxonomie est assez simple et représentative du domaine des SHS, si bien qu'il a été décidé de l'étendre à l'ensemble de 750 sources grâce au module de classification d'AIF. Cela signifie que les millions de documents du corpus Isidore doivent être rangés dans ces catégories. Vu les volumes, toute intervention manuelle est bien évidemment exclue. La première étape consiste à utiliser les 30 000 documents de HAL-SHS déjà catégorisés pour entrainer le module de classification. Celui-ci regarde pour chaque document la ou les catégories dans lesquelles ce dernier est rangé afin d'apprendre. A l'issu de cette phase, le classifieur génère une base de signatures sémantiques. La base de signatures ainsi générée est exploitée lors de la phase de traitement. Lorsqu'un document passe à travers le module de classification, il se voit automatiquement attribuer une ou plusieurs catégories de la taxonomie HAL-SHS. Même les documents de HAL-SHS sont retraités et certains qui n'avaient qu'une catégorie s'en voient affecter une seconde. Une des applications de cette classification est de pouvoir offrir, lors de la recherche, une facette (un filtre) qui s'applique à l'ensemble des documents et pas seulement à ceux issus de HAL-SHS. Les résultats obtenus ont été évalués et sont d'excellente qualité puisque le score de précision est supérieur à 90%. Ce sont en tout 4 classifications différentes qui sont réalisées dans Isidore puisque les éléments du corpus sont analysés et rangés selon d'autres taxonomies comme les sujets et les époques historiques.
  • 3. Gestion des sources 1 Pour chacune des 750 sources à capter et enrichir, ce sont plus de 30 modules de traitement qui s'enchainent. Certains sont spécifiques au type de la 1 source (flux RSS, site, entrepôt OAI...). D'autres sont génériques. Générique ou spécifique, chaque module est configuré par des paramètres qui déterminent son comportement. 2 La définition des sources et de leurs caractéristiques est réalisée à travers une application dédiée qui fournit ces paramètres sous forme de fichiers XML. 3 Une chaine de traitement AIF a été configurée afin de transformer ces fichiers 2 3 XML de définition des sources en fichiers de configuration de la chaine et des modules AIF. Ainsi la configuration de la captation et de l'enrichissement des 750 sources est auto générée et chaque ajout/modification de source depuis l'interface de gestion modifie dynamiquement le comportement de l'ensemble de la solution. Web de données Afin de rendre les documents SHS compatibles avec le Web de données, une URI pérenne leur est attribuée si elles n'en possèdent pas déjà. En effet, seules quelques rares sources (telles que la BnF) attribuent à leurs données des URI (Uniform Resource Identifier) stables et pérennes. Or l'URI est l'élément fondamental du Web de données : c'est l'identifiant unique de la ressource par lequel le lien entre éléments est fait. Ainsi, lorsqu'un document a déjà une URI, celle-ci est repérée et utilisée. Sinon une URI pérenne lui est attribuée lors de la phase de normalisation. Le système de gestion des URI est Handle (www.handle.net). Un module AIF dédié est chargé de repérer si un document possède déjà une URI et sinon d'en demander une au système Handle. En bout de chaine AIF, un sous-ensemble choisi de métadonnées est transformé en RDF selon une ontologie cible, et ces triplets RDF sont injectés dans des entrepôts. Plusieurs triplestore sont constitués, contenant chacun les triplets nécessaires à des usages spécifiques. Ces entrepôts sont rendus accessibles par un point d'accès SPARQL. Les données SHS sont ainsi exposées dans le Web de données dans une perspective d'Open Data. Respectant les principes de la négociation de contenu en vigueur sur le Web, chaque ressource informationnelle est accessible selon plusieurs formats : HTML, RDF/XML, N3.
  • 4. Moteur de recherche Les données captées et enrichies par Antidot Information Factory sont indexées par le moteur de recherche AFS. Le moteur permet d'offrir un accès fonctionnellement riche sur l'ensemble des données constituées : autocomplétion tolérante et structurée lors de la saisie ; ffinage dynamique des réponses grâce aux facettes. Les facettes a proposées proviennent pour certaines des métadonnées des documents, alors que d'autres ont été générées par AIF lors de l'enrichissement : catégories issues des étapes de classification, alignement sur des référentiels ; avigation transversale dans le corpus grâce à des fonctions n de rebond et de liens inter documents pour une assistance à la découverte d'information ; echerche visuelle grâce à des représentations cartographiques r ou par le positionnement des documents clés sur des échelles temporelles. Résultat projet La maîtrise d'ouvrage, le TGE Adonis, avait posé un cahier des charges ambitieux et visionnaire. Grâce au travail commun de la maitrise d'oeuvre CNRS (le CCSD), de l'intégrateur (Sword) et du fournisseur des composants technologiques (Antidot), l'ensemble des défis fonctionnels et techniques ont été relevés et résolus avec succès. Le résultat est reconnu par la communauté comme une réussite indéniable. Le CNRS dispose à présent d'une plateforme «L ouverte dont les services (enrichissement, maillage, recherche, navigation) peuvent être intégrés à des applications variées. Le portail Isidore en est le premier représentant. a mission principale du projet, réalisé par le très grand équipement Adonis du CNRS, était de proposer un accès unifié à des données hétérogènes et distribuées. Il s'agit de valoriser des données structurées et le texte intégral associé, produits dans les laboratoires et les bibliothèques de recherche. L'unification des données et l'enrichissement offre la possibilité de naviguer dans un espace documentaire et informationnel étendu permettant d'explorer des questions scientifiques nouvelles mais aussi les frontières scientifiques des disciplines. Les trois modes d'accès (web, api, 3store RDF) sont complémentaires et permettent de développer des outils à géométrie variable suivant les » usages. Ainsi, la solution Information Factory d'Antidot, qui est au coeur d'ISIDORE, correspond pleinement aux attentes du TGE Adonis car elle permet de traiter à la fois les données structurées, le texte intégral, l'enrichissement, les modes accès dans le respect des standards du web sémantique ce qui est un réel plus pour nous. M. Stéphane Pouyllau co-directeur du projet Paris | Lyon | Aix-en-Provence www.antidot.net info@antidot.net +33 (0)4 72 76 03 80