Modélisation, environnements sémantiques et Web de données
1. Juin 2010 muriel.foulonneau@tudor.lu 1 Modélisation, environnements sémantiques et Web de données Muriel Foulonneau Centre de Recherche Public Henri Tudor Luxembourg séminaire ISKO juin 2010
3. Objectif La représentation des données De la forme traditionnelle à une publication avec les technologies sémantiques Partager Les descriptions mais aussi leur sens et les associations 3
11. Les terminologies Les vocabulaires contrôlés Réduire l’ambiguité du langage naturel lorsque l’on décrit et recherche des informations. Composé de termes utilisés pour représenter un concept Problèmes Des particularités du langage naturel posent des problèmes (synonymes et ambiguité) Différents termes (synonymes) peuvent représenter le même concept. Le même terme (homographes) peut représenter différents concepts. 6
12. Différents types de terminologies Liste contrôlée non hiérarchisée Taxonomie et système de classification (avec organisation hiérarchique) Thésaurus Équivalence Hiérarchique (termes génériques/spécifiques) Association (voir aussi) => Pour intégrer des synonymes dans des recherches, élargir des recherches, naviguer, représenter, … 7
13. Listes de termes Pour permettre de gérer les ambiguités. Des fichiers d’autorité comportent des variantes d’un nom. Les glossaires sont des listes de termes avec leurs définitions dans un domaine spécifique Dictionnaires, ils incluent différentes acceptions d’un terme, ils sont présentés de manière alphabétique, avec éventuellement des informations sur l’origine du terme “Gazetteers” avec des noms de lieux, leur position etc “Synonym Rings” pour étendre des requêtes de manière transparente 8
14. Taxonomies Organisation hiérarchique de catégories Généralement utilisées pour classifier 9 http://biodiversite.wallonie.be/cgi/sibw.esp.list2.pl?VAR=Mammiferes
15. Autorités sujet Listes contrôlées de sujet Ex Rameau, LCSH, MeSH Permettent souvent des compositions Peuvent inclure des sous-catégories 10
16. Thésaurus Pour de la recherche Ensemble limité de relations entre les termes Equivalence (synonymes) Hiérarchique (termes génériques / spécifiques) générique (sous-classe/super-classe), instance (classe/instance) et partitive (tout-partie) Association (voir aussi). 11
17. Systèmes de classification Similaires à des taxonomies Visent à l’exhaustivité et en principe les concepts ne se recouvrent pas (appartenance exclusive). Systèmes énumératifs (tous les concepts sont explicites) ou synthétiques (des règles permettent des combinaisons de concepts) Les facettesprésentes desclassifications selon des dimensions qui s’excluent mutuellement 12
18. Les bases lexicales Des relations plus riches que celles des thésaurus, éventuellement spécifiques à chaque base Ex. WordNet inclut homonymie, antonymie, synonymie 13 http://wordnetweb.princeton.edu/perl/webwn?s=mill&sub=Search+WordNet&o2=&o0=1&o7=&o5=&o1=1&o6=&o4=&o3=&h=
19. Les ontologies Modélisation d’un domaine avec des classes, des instances, des attributs, des sous-classes, … et de nombreuses relations spécifiques. Ex. CIDOC-CRM (Martin Doerr, Stephen Stead http://cidoc.ics.forth.gr/docs/crm_for_imperial_2009.ppt) E52 Time-Span E53 Place E39 Actor 7012124 E38 Image E31 Document “Yalta Agreement” E52 Time-Span E39 Actor E39 Actor 1945-02-11 February 1945 P82 at some time within P7 took place at P11 participated in E7 Activity “Crimea Conference” P86 falls within P67 is referred to by E65 Creation Event * 14 P81 ongoing throughout P14 performed P94 has created
20. Folksonomies Pour indexation par une communauté d’utilisateurs cinema people vs movie people (C. Shirky) 15 http://www.flickr.com/photos/tags/
22. Technologies sémantiques RDF Classes et instances 17 http://moi/est_employee_par Alice CNRS foaf:name Alice Dupont Foaf:organization Foaf:person rdfs:subclass_of Moi:research_organization rdf:type rdf:type http://moi/est_employee_par Alice CNRS
23. Les règles Je peux par exemple définir que Si foaf:person http://moi/est_employee_parFoaf:organization Et Foaf:organization http://moi/localisation x => Alors foaf:person http://moi/localisation x 18 Foaf:organization Foaf:person Moi:research_organization rdf:type rdf:type http://moi/est_employee_par http://moi/localisation Alice CNRS Paris
24. La transitivité 19 foaf:knows foaf:knows Alice Charles Hugues foaf:knows http://moi/a_le_meme_age_que http://moi/a_le_meme_age_que Alice Charles Hugues
28. Structure de base Concept scheme permet de décrire tous les systèmes de terminologies Thesaurus, système de classification, autorités, vocabulaires contrôlés ... Il est défini comme un ensemble de concepts, éventuellement avec des propriétés et des relations avec d’autres concepts Concept 23
40. Construire le Web de données Des données sous forme de RDF statements Identification des ressources via des HTTP URIs « dé-référençables » Il doit être possible de cliquer et obtenir de l’information Distinction « information resources » (lien vers la ressource) and « non information resources » (redirection vers une ressource d’intérêt) Représentations multiples des ressources Au moins RDF/XML Négociation de contenu 35 Dublin Core
41. Une source de données Il est préférable d’utiliser des relations vers des sources de données externes (ex: dbpedia) 36 http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
42. Fusion de graphes 37 http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
43. Lier des graphes a posteriori Si une ressource est désignée avec 2 URIs différentes dans 2 sources de données différentes Il est possible d’ajouter une équivalence entre les URIs grâce à owl:sameAs 38 <http://dbpedia.org/resource/Berlin> owl:sameAs <http://sws.geonames.org/2950159/>
51. Dublin Core: différentes ères Des métadonnées simples pour les ressources Web Orientées « discovery » Faire mieux que l’anarchie 15 éléments Des « qualifiers » Dcterms Qualifiers (ex hasVersion) ou de premier niveau (ex. audience) Des profils d’applications DC Collection, DC Education, DC Library etc Des terminologies Des termes pour indiquer les terminologies 46
58. Structures et activités du DCMI Usage Board, Advisory Board Des communautés et des task groups Les conférences Un task group KOS pour décrire les KOS SWAP validé comme DC AP 52
59. Comment rendre une terminologie sémantique? La skosifier? Le modèle Rendre explicites un certain nombre de relations L’encoder (et la valider) La référencer et l’exposer: linked data, registries, repositories… S’assurer que les collections référencent correctement la terminologie 53
60. Des terminologies sur le Web sémantique Partage Modèle décentralisé L’exploitation des ressources sur le Web via de simples liens Descriptions non ambigües, pour les machines Le principe 1 – 1 Faut-il penser comme une machine? problèmes de validité, fiabilité, autorité, qualité Modèles d’inférences 54
61. Références CRM tutorial at Imperial College, UK, May 22, 2009 .Martin Doerr, Steve Stead, The CIDOC CRM, a Standard for the Integration of Cultural Information http://cidoc.ics.forth.gr/docs/crm_for_imperial_2009.ppt Alistair Miles, SKOS Core Tutorial, DC Conference 2005, Madrid Douglas Tudhope, Traugott Koch, Rachel Heery, Terminology Services and Technology - JISC state of the art review http://www.ukoln.ac.uk/terminology/TSreview-jisc-final-Sept.html Chris Bizer , Richard Cyganiak, Tom HeathHow to Publish Linked Data on the Web, 2007, http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ http://ivan-herman.name/2009/05/01/library-of-congress-subject-headings-in-skos-on-line/ http://dublincore.org/documents/abstract-model/ Clay Shirky, Ontology is Overrated: Categories, Links, and Tags http://www.shirky.com/writings/ontology_overrated.html Thierry Boucher, Le vocabulaire Rameau en SKOS, http://rameau.bnf.fr/informations/pdf/journee2008/rameau_skos.pdf 55