2. PLAN
Séance 1 :
• Problématique, Problème1
Séance 2 :
• Le web sémantique,
Séance 3 :
• RDF / RDFS, les Ontologies,
Séance 4 :
• OWL, SKOS, SIOC, FOAF
Séance 5 :
• Linked Data ou Web of Data, Le langage Sparql
Cours 6
:
• Le web sémantique & social en Action
3. Problématique
Hypothèses
• Systèmes d'information (SI)
- Accessibles sur Internet et/ou Intranet
- A l’aide d'un navigateur
• Architecture distribuées fondée sur l’architecture du Web
• Appelés « Sémantiques » parce que fondés sur les
principes du Web Sémantique
4. Problématique
Enjeu principal des SI
• Réutilisation, partage et échange des données
- sur internet / Intranet
- Par les machines (automatiquement)
5. Problématique
Internet
/ Intranet
• Technologie pour
- Accéder à des informations non structurées, hétérogènes et
distribuées
- L’accès à l’information et à des sources de connaissance devient
essentiel
• L’importance d’Internet est due :
- Aux services qu’il nous fournis: IRC, ICQ, Chat, email, News
groups, FTP, WWW, E-commerce, B2B, B2C, etc.
6. Problématique
WWW : succès fondé sur sa simplicité, MAIS !
• Développé pour des lecteurs humains
- Les données actuelles sont principalement organisées et
structurées pour être simple à transmettre et être présentées à des
humains
– HTML et PDF sont principalement des langages de présentation de
données
» <H2> Triple X </H2> : ne dit rien sur le titre sauf pour des humains
- Internet est de plus en plus utilisé par des machines – search
engines, robots, etc.
7. Problématique
Problèmes
• Accéder, traiter l’information, extraire et interpréter
l’information
- La majorité des données sur le web est sous une forme qui ne
permet pas de l’utiliser à grande échelle.
- Pas de système global de publication de données permettant aux
machines et aux humains de les traiter
– Évènements sportifs, météo, guides TV, guides cinéma, etc. sont
présentés par de nombreux sites Web, mais presque tous au format
HTML (structure logique + présentation)
– Comment trouver et extraire l’information pertinente pour différents
services
8. Problématique
Problèmes
• Entrave la recherche, l’extraction, la maintenance et la
génération d’information
• Actuellement, pas d’accès réel au contenu des
documents
- Contenu et Information pas accessible ni interprétable par des
machines
9. Problématique
Problèmes
• Qualité de la recherche d’information
- Comment la machine peut-elle savoir que les résultats de la
recherche sont pertinents ?
• Réutilisation des contenus de sites web
- Comment peut-on réutiliser les contenus de sites web ?
page 9 Semantic Web in Action
10. Problématique
Recherche d’information de type Google
• Polysémie
• Nombre de résultats très important
Requête : « directeur » « André Chomette »
• Intention : On ne veut que le site de Telecom Bretagne !
• 44 000 résultats : toutes les pages qui contiennent ces
deux termes ou l’un des deux
page 10 Semantic Web in Action
23. Problématique
Pour Donner du sens aux données
• Nous utilisons nos connaissances
dans des domaines spécifiques
pour identifier / reconnaître ces données
• Connaissances partagées par des
communautés
24. Problématique
Donner du sens aux informations
• Description du site Telecom Bretagne
- Forme générale d’une description
– Des phrases de type :
Sujet Verbe Complément
- Exemple
– Telecom Bretagne a pour directeur André Chomette
– Telecom Bretagne est une grande école française
– Telecom Bretagne a pour site web http://www.tele...
page 24
25. Problématique
Donner du sens aux informations
• Compréhension de ces phrases
- Différents contextes : différents termes
– « a pour directeur », « président », « Dean », …
- Interprétation commune liée à des connaissances communes
– Utilisation de vocabulaires standards partagés par tous !
– Chaque vocabulaire détermine un sens unique aux verbes,
aux catégories de sujets et de compléments
page 25
26. Problématique
Plus formellement, ou presque
• Telecom Bretagne dbpprop:president André Chomette (en)
• Telecom Bretagne dbpprop:type French Grande Ecole (en)
• Telecom Bretagne dbpprop:website http://www.tele...
Questions
• French Grande Ecole dont André Chomette est président ?
- ?Grande_Ecole dbpprop:president André Chomette (en)
- ?Grande_Ecole dbpprop:type French Grande Ecole (en)
page 26
27. Problématique
Site Dbpedia
- Wikipedia + indexation sémantique
http://dbpedia.org/page/%C3%89cole_nationale_sup%
C3%A9rieure_des_t%C3%A9l%C3%A9communications
_de_Bretagne
28. Le Web sémantique
Objectifs
• Réutilisation, partage, échange des données
• Automatisation ou semi-automatisation de certains
services en réutilisant les données
Moyens
• Les données sont décrites / indexées de tel sorte que les
contenus – sens et sémantique - du web soient
« interprétables » par les machines.
page 28 Semantic Web in Action
29. Le Web sémantique
Le Web sémantique
• Les données doivent être encodées de tel sorte que les
contenus – sens et sémantique - du web soient plus
« compréhensibles » pour les machines, ou en d’autres
termes par des algorithmes.
30. Le Web sémantique
3ème Génération WWW
Séparation de la sémantique et de la stucture
Fondée sur RDF, RDFS, Ontologies, Logique, ...
2ème Génération WWW (Fin 1990)
Séparation de la structure et de la présentation
Fondée sur XML, XSL, ..
1ère Génération WWW (Début 1990)
Séparation de la présentation et de la localisation
Fondée sur HTML, PDF, ...
31. Le Web sémantique
TimBerners-Lee
• Première vision du « Semantic Web »
- Accès automatique à l’information fondé sur une sémantique des
données interprétable par l’ordinateur et des heuristiques utilisant
celle-ci.
- Une sémantique explicite des données, associée à des théories
sur des domaines (ontologies), permettra l’accès à de nouveaux
services sur Internet
32. Le Web sémantique
• Point clé de l’automatisation ou de la semi-
automatisation
- Recherche d’information pertinentes : Rappel et Précision
• Recherche d’information précise
- Réutilisation, partage, échange et composition possible des
informations retrouvées
- Mais aussi, capacité à concevoir certaines « opérations »
automatiquement
• Donc pas de services élaborés possible : pas
d’automatisation ou semi-automatisation de certains
services ou tâches
- Comment assurer le B2B, B2C “automatiquement”
– Exemple: voyage complexe avec réservation,
33. Architecture du SW
LeSW nécessite
• Une architecture partagée par tous pour échanger des
ressources sur Internet
• Des standards pour
- Les ontologies et mécanismes d’inférence associés
- La sémantique explicite des ressources ou méta données
sémantiques liées à des ontologies
- Le format des ressources ou documents
- L’adressage des ressources ou documents
34. Architecture du SW
Proof:
Inference
Engine
Ontology Semantic Level
RDF + RDF
Schema
XML + Name Spaces Syntactic level
Naming/Addressing
URI
Level
36. Niveau Adressage /Nommage : URI
URI: Uniform Resource Identifier (RFC 2396)
• Un simple identifieur Web
- Chacun peut en créer – décentralisé -
- Ressource avec une URI être sur le Web
• URL: ftp, gopher, http, internet mail, etc. (normalisée)
- 1 Protocole, 1 machine, 1 chemin
• URN : URI persistente
• W3C maintient une liste des schémas d’URI
37. Niveau Syntaxique: XML
XML : eXtensible Markup Language
- Sélection d’un sous-ensemble de SGML simple à implanter, mais
néanmoins extensible : chacun défini ses propres balises
• Séparation de la présentation et du contenu
• XML a été conçu pour décrire des données
• Les balises XML ne sont pas prédéfinis. Vous devez
définir vos propres balises
• XML utilise un Document Type Definition (DTD) or an
XML Schéma pour un « modèle » des données
38. Niveau Syntaxique: XML
• XML n’est pas un remplacement d’HTML
- HTML a été conçu pour afficher des données et se concentre
surtout sur leur présentation (taille, couleur, etc.)
• XML a été conçu pour décrire des données et se
concentre sur la structure de ces données.
• XML a été conçu pour assurer l’interopérabilité
• XML et HTML sont complémentaire
- XSL / XSLT transforme XML en HTML
39. Niveau Syntaxique: XML
Propriétés de XML
• Indépendant des logiciels et matériels
• Infrastructure des échanges de données structurées
• Interopérabilité : conçu pour décrire des données, les
stocker, les transporter et les échanger et les partager
– XML DTD: une DTD défini les éléments constitutifs d’un documents. Il
défini la structure syntaxique (un arbre) d’un document type à l’aide
d’une grammaire.
– Il permet donc à toute application de vérifier la conformité d’un
document à la DTD
– Et donc de manipuler et transformer celui-ci lorsqu’il est conforme à
cette DTD.
40. Niveau Syntaxique: XML
• XML peut être utilisé pour créer de nouveaux
langages
- XML est le prère de WAP et WML (Wireless Markup Language).
- MATHML, etc.
41. Niveau Syntaxique : XML
<?xml version="1.0"?>
<!DOCTYPE note [ <!ELEMENT note (to,from,heading,body)>
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT heading (#PCDATA)>
<!ELEMENT body (#PCDATA)> ]>
<note>
<to> Tove </to>
<from> Jani </from>
<heading>Reminder </heading>
<body> Don't forget me this weekend </body>
</note>
42. Niveau Syntaxique: XML
<?xml version="1.0" encoding="ISO-8859-1"?>
<!-- Edited with XML Spy v4.2 -->
<CATALOG>
<CD>
<TITLE>Empire Burlesque</TITLE>
<ARTIST>Bob Dylan</ARTIST>
<COUNTRY>USA</COUNTRY>
<COMPANY>Columbia</COMPANY>
<PRICE>10.90</PRICE>
<YEAR>1985</YEAR>
</CD>
<CD> <TITLE>Hide your heart</TITLE>
<ARTIST>Bonnie Tyler</ARTIST>
<COUNTRY>UK</COUNTRY>
<COMPANY>CBS Records</COMPANY>
<PRICE>9.90</PRICE> <YEAR>1988</YEAR>
</CD>
</CATALOG>
43. Niveau Syntaxique: XML
Réutilisation des ressources/documents
• Le même contenu peut apparaître de manières
différentes dans différents contextes indépendamment
des plate formes
- Différents média : papier, en ligne,
- Différentes tailles : manuels, rapports
- La présentation peut être adaptée/personnalisée aux préférences
de l’utilisateur
- Présentations standardisées peuvent être réalisées : entreprises,
universités, mairies, etc.
44. Niveau Syntaxique: XML
XML
• Ne contient aucune sémantique formelle pour l’ordinateur
• Ce sont les humains qui donnent un sens, une
sémantique, aux balises et leur contenu pas les
machines
• « La sémantique »est un domaine qui étudie comment
les symboles se référent aux objets
• « Note » ne référence rien pour une machine, la
référence est uniquement faite dans l’esprit des lecteur
humains
- D’où RDF pour la sémantique
45. Niveau sémantique : RDF/RDFS
RDF – Resource Description Framework
RDFS – Resource Description Framework Schema
RDF/RDFS a été créé pour le traitement des
métadonnées
• Ce sont des langages de description de métadonnées au
niveau sémantique
• Fournit l’interopérabilité – au niveau sémantique - entre
applications pour l’échange, le partage et la réutilisation
d’informations non interprétable pour la machine
46. Niveau sémantique : RDF/RDFS
RDF/RDFS provient principalement des communautés
• De standardisation du Web
• Des bibliothèques
• Des documents structurés
• Représentation de connaissances
• Programmation orientée objets et langages de
modélisation,
• Etc.
47. Niveau sémantique : RDF/RDFS
Langages Interprétables par une machine
• Un langage peut être compris (interprété) par une
machine si et seulement si ce langage possède une
sémantique formelle.
- Le langage doit se référencer à un modèle sous-jacent.
• En logique, le sens est fondé sur une théorie des
modèles qui associe, entre autres, une valeur de vérité à
chaque formule bien formée.
- Elle permet donc de « relier » les formules aux objets du monde
modélisé.
48. Niveau sémantique : RDF/RDFS
Logique
• Théorie axiomatique
- Un langage et des formules bien formées
- Des axiomes, des règles d’inférences
- A, (A B) -- B
- Des théorèmes: formules bien formées déduites des axiomes et
règles d’inférences
• Théorie des modèles
- Interprétation, Formules vraies/fausses
- Formules valides
49. Niveau sémantique : RDF/RDFS
Théorème Formule valide
Une démonstrateur automatique de théorèmes est un
algorithme qui « respecte les axiomes et règles
d’inférences »
Il « respecte aussi le principe ci-dessus »
Les opérations de la machine « respecte la sémantique
formelle »
50. Niveau sémantique : RDF/RDFS
Calculdes prédicats
• Théorie axiomatique : des prédicats
• Théorie des modèles : des relations
Le web sémantique
• Importe l’idée d’une sémantique formelle dans le
monde du WWW (point de vue logico-linguistique).
• RDF/RDFS propose un langage adéquat à l’implantation
de métadonnées sémantiques associées aux ressources.
51. Niveau sémantique: RDF/RDFS
RDF est
• Un simple modèle relationnel
- Une déclaration RDF est constituée d’un triplet
« Objet, Attribut, Valeur »,
dont chaque membre peut être un littéral ou une ressource web
- Ce triplet peut être interprété comme le tuple suivant :
- « Sujet, Prédicat, Objet » ou encore Prédicat (Sujet,
Objet)
Exemple
• <http://music.fi/pieces#finlandia, creator,
http://composer.org/Sibelius>
• <http://music.fi/pieces#finlandia, type, music>
52. Niveau sémantique: RDF/RDFS
Le modèle de données RDF est formellement défini par:
• Un ensemble appelé Ressources.
• Un ensemble appelé Littéraux
• Un sous-ensemble de Ressources appelées
Propriétés.
• Un ensemble appelé Déclarations, dont chaque
élément est un triplet
(prédicat, sujet, objet)
« prédicat » est une propriété (membre de Propriétés),
« sujet » est une ressource (membre de Ressources)
« objet » est soit une ressource soit un littéral (membre
de Littéraux).
53. Niveau sémantique: RDF/RDFS
Le modèle de données RDF
• N’est pas une sérialisation d’un arbre syntaxique XML,
ou les branches devraient être présentées dans l’ordre
spécifié par une DTD XML.
Le modèle de données RDF est un ensemble de triplet
!!!!!!!!!!
• C’est un graphe orienté
57. Niveau sémantique: RDF/RDFS
RDF Schéma
• RDF ne permet pas de spécifier le vocabulaire utilisé
dans une description RDF, comme par exemple :
« author », « music »,
« creator », etc.
• C’est-à-dire définir la « sémantique » des propriétés
• RDF Schéma est une extension de RDF avec laquelle il
et possible de
- Décrire les concepts utilisés dans des déclarations RDF
- Un ensemble de contraintes sur les objets et les valeurs du triplet.
58. Niveau sémantique: RDF/RDFS
RDFSchema
• Pourrait être vu comme un modèle orienté objet pour le
WWW
- « rdfs:Class » & « rdfs:SubClass » définissent la hiérarchie des
classes
- « rdf:type » défini les instances d’une classe
- « rdf:domain » & « rdf:range » défini des contraintes sur les types
de ressources
60. Niveau sémantique : RDF/RDFS
• Mais, RDF schéma définie les propriétés en terme de
classes de ressources auxquelles elles s’appliquent
au lieu de définir les classes en terme de propriétés
que les instances possèdent.
- Par exemple, on définit la propriété « eg:author » avec pour
« domain » « eg:Document » et avec un « range » de « eg:Person »,
tandis qu’un système classique orienté objet aurait défini une classe
« eg:Book « avec un attribut appelé « eg:author » de type
« eg:Person ».
- En utilisant une approche RDF, il est facile pour les autres de définir
des propriétés additionnelles avec un « domain » de
« eg:Document » or un « range » « eg:Person ».
61.
62. Le niveau sémantique: RDF/RDFS
Nom de la classe Commentaire
rdfs:Resource la classe Ressource.
rdfs:Class le concept de Classe
rdf:Property le concept de propriété
rdfs:Literal la classe littéral represente les
valeurs de type littéral
rdf:Statement la classe de RDF déclarations
rdfs:Container représente l’ensemble des
Conteneurs.
rdf:Bag une collection non ordonnée
rdf:Seq une collection ordonnée
rdf:Alt une collection d’alternatives
65. Niveau sémantique: RDF/RDFS
RDFS est limité en termes de pouvoir d’expression
• Il est souvent nécessaire de pouvoir exprimer des
contraintes supplémentaires
- Cardinalités min et Max, contraintes entre propriétés, etc.
Lesontologies dans le cadre du Web sémantique sont
des extensions de RDFS.
66. Niveau sémantique: les Ontologies
Langages logiques : formalismes typiques
• Logiques de descriptions
- Loom, FaCT, Racer, Jena, …
• Logiques de frames
- Ontobroker, Florid, XSB, KAON…
• Graphes conceptuels
- Prolog+CG, Corese, etc.
• RDF / RDF Schéma
- Sesame, RQL, TRIPLE, SiLRi, …
67. Niveau sémantique: les Ontologies
OWL site du W3C http://www.w3.org/2004/OWL/
Semantic Web
• http://www.semanticweb.org/
• http://www.w3.org/2001/sw/
• http://www.lalic.paris4.sorbonne.fr/stic/as5.html
• http://www.schemaweb.info/default.aspx
• AS Web Sémantique, rapport final
- http://rtp-
doc.enssib.fr/basedoc/rapports/ASWebSemantique2003.pdf
69. Niveau sémantique: les Ontologies
Les outils/environnements
• http://www.semanticweb.org/
• Les logiques de descriptions :
- http://dl.kr.org/
- http://www.ida.liu.se/labs/iislab/people/patla/DL/
• Les graphes conceptuels :
- http://www.cs.uah.edu/~delugach/CG/ ;
- http://www.jfsowa.com/cg/ ;
70. Niveau sémantique: les Ontologies
Lesoutils/environnements
• Les Frames Logic
– http://www.informatik.uni-freiburg.de/~dbis/Publications/95/flogic-
jacm.html
– http://www.cs.sunysb.edu/~kifer/dood/papers.html
– http://www.ontoprise.de/members/angele/pubs/ontologyhandbook.pdf
71. Ontology Web Langage
OWL
• C’est une version modifiée de DAML (Darpa) + OIL
(Europe)
• Conçu pour des applications qui traitent le contenu, pas
uniquement la présentation des informations
• Une extension de RDFS, muni d’une sémantique
formelle
• Constitué de trois langages
- OWL Lite
- OWL DL
- OWL Full
72. Ontology Web Langage
OWL Lite
• Classification hiérarchie + contraintes simples
OWL DL
• Pouvoir d’expression supérieur, avec complétude (toutes
les conclusions sont calculables) et décidabilité
• C’est une logique de description (DL)
OWL Full
• Expressivité maximale, pas de garantie sur les résultats
de calculs
73. Ontology Web Langage
Toute ontologie OWL Lite valide est une ontologie
OWL DL valide
Toute ontologie OWL DL valide est une ontologie OWL
Full valide
Toute conclusion valide de OWL Lite est une
conclusion valide de OWL DL
Toute conclusion valide de OWL DL est une conclusion
valide de OWL Full
74. Ontology Web Langage
Exemples
• http://www.schemaweb.info/schema/BrowseSchema.asp
x
• http://www.daml.org/ontologies/category.html
• http://www.daml.org/ontologies/category.html