SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
Apport du Web sémantique à la
recherche d'information



            Pierre Molette
            www.acetic.fr

           I-Expo - mai 2008
Le Web sémantique, est-ce une
 bonne appellation ?
  Tim Berners-Lee répond ceci :
  « Le terme Web sémantique prête un peu à confusion
  car la sémantique s’intéresse au sens du langage pour
  en déduire des constructions logiques.
  Du coup, certains ont pensé qu’il s’agissait d’un Web
  qui permettrait par exemple d’effectuer des recherches
  sur Internet en posant des questions en langage
  naturel.
  Or ce n’est pas son but. En fait, nous aurions dû
  l’appeler dès le départ quot;Web de donnéesquot;. Mais il est
  trop tard pour changer... »
Le Web sémantique propose des
 normes reconnues et utilisées
  Ces normes visent à rendre le Web
  accessible et réutilisable en utilisant des
  meta-données. Par exemple :
   RDF : modèle conceptuel permettant de décrire des données ;
   RDF Schema : langage permettant de créer des vocabulaires,
  ensembles de termes utilisés pour décrire des choses ;
   OWL : langage permettant de créer des ontologies,
  vocabulaires plus complexes servant de support aux traitements
  logiques (inférences, classification, etc).

  RDF et OWL sont des vocabulaires XML qui font
  déjà l'objet de nombreuses applications.
Le W3C prévoit dans le Web 3.0
 des évolutions majeures d'Internet
   Certains projets du W3C prévoient de
   transformer Internet en une gigantesque
   ontologie, visible comme une base de
   données structurée par concepts
   Le contenu du Web devra tenir compte du
   langage naturel, généraliser l'affichage en
   3D et exploiter l'Intelligence Artificielle
   Le Web 3.0 étant à l'état de projet, il faut
   prendre ces annonces avec précaution et
   attendre que cette technologie soit adoptée
OWL est une norme permettant de
 construire des ontologies
  OWL, qui signifie Web Ontology Language,
  permet de contruire des classifications de
  concepts structurées et arborescentes
  OWL propose aussi des règles permettant
  de garantir la cohérence entre les concepts
  Les thesaurus, taxinomies (ou d'autres
  classifications) peuvent être exportés au
  format OWL, mais le contrôle de cohérence
  demande un travail supplémentaire
Quelques ontologies disponibles
dans les Sciences naturelles
 AGROVOC / FAO (Food and Agriculture
 Organization, Nations Unies) ;
 ITIS / Department of Agriculture (USDA, USA) ;
 MeSH / National Library of Medicine (NIH, USA) ;
 NCI Thesaurus / National Cancer Institute (NCI,
 USA) ;
 Wikipedia / Wikipedia Foundation (USA) ;
 Wordnet   / Princeton University.
AGROVOC : thesaurus et ontologie

 Conçu pour standardiser l'indexation des
 documents relatifs à l'agriculture
 Diffusé par la FAO (instance de l'ONU pour
 l'alimentation et l'agriculture) en collaboration
 avec certains pays membres
 Disponible en 5 langues : anglais, français,
 espagnol, chinois et arabe
 Distribué sous différents formats : MySQL,
 TagText, ISO2709, Microsoft Access et XML
Agrovoc est disponible en version
OWL multilingue
                   Chaque descripteur fait
                   l'objet d'un label dans une
                   langue différente
                   D'autres langues sont en
                   cours de développement
                   (allemand, italien,
                   japonais, coréen, ...)
                   Ce n'est pas une vraie
                   ressource terminologique
                   normalisée
Le projet FAO / CIRAD / ACETIC

 Transformer l'ontologie AGROVOC en
 ressource linguistique
 Intégrer cette ressource dans un moteur de
 recherche sémantique
 Classer automatiquement des documents
 scientifiques avec cette ressource linguistique
 Tester et évaluer le résultat obtenu
Transformer une ontologie en
ressource sémantique
 Constituer un dictionnaire spécialisé
 (vocabulaire contrôlé) qui va établir la
 correspondance entre les mots des textes et
 les concepts de l’ontologie ;
 Disposer d’une logique permettant de
 résoudre les problèmes linguistiques ;
 Transformer des descriptions vagues en
 descriptions concrètes.
Créer une ressource sémantique =
résoudre plusieurs problèmes :
 Grammaticaux (par exemple quot;livrequot;
 correspond à un nom dans quot;une pile de livresquot;
 et à un verbe dans quot;on nous livre du bétonquot;) ;
 Sémantiques (par exemple quot;livrequot; indique une
 œuvre littéraire quot;un livrequot;, une monnaie quot;la
 livrequot; ou un poids quot;une livre de beurrequot;) ;
 Qualitatifs (les fautes de frappe, de
 typographie ou d’orthographe peuvent créer
 certains contresens fâcheux.
Protocole de test et d'évaluation

 Partir d’une première classification
 Analyser une collection conséquente de
 documents représentatifs du sujet traité
 Identifier tous les termes qui ne sont pas pris
 en compte dans la classification et qui sont
 pertinents par rapport à la problématique
 Rajouter les termes pertinents dans la
 classification et repartir à la première étape
Test cyclique d'ontologie
Nécessité d'une ontologie correcte
et suffisamment exhaustive
 Un travail de classification n'est acceptable
 que s'il est suffisamment exhaustif (la majorité
 des utilisateurs trouvent ce qu'ils cherchent) ;
 Ceci explique l'abandon des thesaurus et des
 annuaires internet au profit des moteurs de
 recherche en texte intégral ;
 Les moteurs de recherche sémantiques
 permettent de combiner les deux mondes (en
 ajoutant des ontologies au full-text).
Extension d'AGROVOC par ajout
d'ontologies complémentaires
 Conserver toutes les arborescences de
 classifications jugées pertinentes ;
 Remplacer les classifications généralistes
 (peu pertinentes) par les ontologies utilisées
 en standard dans le moteur Tropes d'Acetic ;
 Etendre ou remplacer certaines classifications
 scientifiques en utilisant à la fois ITIS, MeSH,
 Wordnet et d’autres sources (pertinentes).
Trouver un consensus entre
plusieurs ontologies
Résultat de la fusion d'ontologies

 Le nombre de termes contrôlés a pu être
 augmenté de plus de 200% (par rapport à la
 version française AGROVOC) ;
 La classification est jugée satisfaisante, dans
 la majorité des cas, bien qu'elle ne soit pas
 complète (et elle ne le sera jamais parce que
 le vocabulaire évolue continuellement) ;
 L'absence d'informations terminologiques
 précises dans les ontologies OWL nécessite
 un lourd travail d'arbitrage.
Perspectives d'avenir

 Selon le W3C, les ontologies devraient constituer un
 socle important du Web 3.0, en le structurant très
 fortement de façon sémantique
 Les normes actuelles, comme OWL, ne permettent
 pas une intégration rapide des classifications, parce
 qu'elles ignorent certains problèmes linguistiques
 Les normes d'ontologies devront donc évoluer vers
 un modèle unifié et réellement sémantique
 Toutefois OWL est, dès aujourd'hui, une norme
 exploitable dans de nombreux logiciels propriétaires

Contenu connexe

Tendances

Tendances (20)

Intelligence-Artificielle-cours.pdf
Intelligence-Artificielle-cours.pdfIntelligence-Artificielle-cours.pdf
Intelligence-Artificielle-cours.pdf
 
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...Présentation intelligence artificielle et domaines d'applications - #DigitalT...
Présentation intelligence artificielle et domaines d'applications - #DigitalT...
 
Intelligence artificielle
Intelligence artificielleIntelligence artificielle
Intelligence artificielle
 
Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de recherche
 
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
Web sémantique, Web de données, Web 3.0, Linked Data... Quelques repères pour...
 
Introduction au Machine Learning
Introduction au Machine LearningIntroduction au Machine Learning
Introduction au Machine Learning
 
Cv dridi-lotfi
Cv dridi-lotfiCv dridi-lotfi
Cv dridi-lotfi
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
 
Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...
Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...
Intelligence Artificielle: résolution de problèmes en Prolog ou Prolog pour l...
 
BigData_TP3 : Spark
BigData_TP3 : SparkBigData_TP3 : Spark
BigData_TP3 : Spark
 
Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...Présentation PFE (Conception et développement d'une application web && mobile...
Présentation PFE (Conception et développement d'une application web && mobile...
 
IA et éducation
IA et éducationIA et éducation
IA et éducation
 
Ontology concept et applications
Ontology concept et applicationsOntology concept et applications
Ontology concept et applications
 
Cours 1/3 "Architecture Web"
Cours 1/3 "Architecture Web"Cours 1/3 "Architecture Web"
Cours 1/3 "Architecture Web"
 
Cours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategyCours design pattern m youssfi partie 1 introduction et pattern strategy
Cours design pattern m youssfi partie 1 introduction et pattern strategy
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
Introduction au web cours.pdf
Introduction au web cours.pdfIntroduction au web cours.pdf
Introduction au web cours.pdf
 
Support de cours Spring M.youssfi
Support de cours Spring  M.youssfiSupport de cours Spring  M.youssfi
Support de cours Spring M.youssfi
 
Exercice 1 java Héritage
Exercice 1 java HéritageExercice 1 java Héritage
Exercice 1 java Héritage
 
Support programmation orientée aspect mohamed youssfi (aop)
Support programmation orientée aspect mohamed youssfi (aop)Support programmation orientée aspect mohamed youssfi (aop)
Support programmation orientée aspect mohamed youssfi (aop)
 

En vedette

Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantique
Antidot
 
ALIAOnline Practical Linked (Open) Data for Libraries, Archives & Museums
ALIAOnline Practical Linked (Open) Data for Libraries, Archives & MuseumsALIAOnline Practical Linked (Open) Data for Libraries, Archives & Museums
ALIAOnline Practical Linked (Open) Data for Libraries, Archives & Museums
Jon Voss
 

En vedette (20)

Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantique
 
Les moteurs de recherche pour Drupal
Les moteurs de recherche pour DrupalLes moteurs de recherche pour Drupal
Les moteurs de recherche pour Drupal
 
Linked Open Data-enabled Strategies for Top-N Recommendations
Linked Open Data-enabled Strategies for Top-N RecommendationsLinked Open Data-enabled Strategies for Top-N Recommendations
Linked Open Data-enabled Strategies for Top-N Recommendations
 
Innvovative cities: web de données et web sémantique, ressources ubiquitaires...
Innvovative cities: web de données et web sémantique, ressources ubiquitaires...Innvovative cities: web de données et web sémantique, ressources ubiquitaires...
Innvovative cities: web de données et web sémantique, ressources ubiquitaires...
 
What is #LODLAM?! Understanding linked open data in libraries, archives [and ...
What is #LODLAM?! Understanding linked open data in libraries, archives [and ...What is #LODLAM?! Understanding linked open data in libraries, archives [and ...
What is #LODLAM?! Understanding linked open data in libraries, archives [and ...
 
Intro to Linked Open Data in Libraries Archives & Museums.
Intro to Linked Open Data in Libraries Archives & Museums.Intro to Linked Open Data in Libraries Archives & Museums.
Intro to Linked Open Data in Libraries Archives & Museums.
 
Towards an architecture and adoption process for Linked Data technologies in ...
Towards an architecture and adoption process for Linked Data technologies in ...Towards an architecture and adoption process for Linked Data technologies in ...
Towards an architecture and adoption process for Linked Data technologies in ...
 
UKSG webinar: Making Connections - Creating Linked Open Library Data with Nei...
UKSG webinar: Making Connections - Creating Linked Open Library Data with Nei...UKSG webinar: Making Connections - Creating Linked Open Library Data with Nei...
UKSG webinar: Making Connections - Creating Linked Open Library Data with Nei...
 
Linked Open Data. Definizioni, esempi, esperienze pisane
Linked Open Data. Definizioni, esempi, esperienze pisaneLinked Open Data. Definizioni, esempi, esperienze pisane
Linked Open Data. Definizioni, esempi, esperienze pisane
 
L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...L’apport des technologies du Web sémantique à la gestion des données structur...
L’apport des technologies du Web sémantique à la gestion des données structur...
 
Méthodes et outils pour interrelier le web des données
Méthodes et outils pour interrelier le web des donnéesMéthodes et outils pour interrelier le web des données
Méthodes et outils pour interrelier le web des données
 
Linked open data and libraries
Linked open data and librariesLinked open data and libraries
Linked open data and libraries
 
ALIAOnline Practical Linked (Open) Data for Libraries, Archives & Museums
ALIAOnline Practical Linked (Open) Data for Libraries, Archives & MuseumsALIAOnline Practical Linked (Open) Data for Libraries, Archives & Museums
ALIAOnline Practical Linked (Open) Data for Libraries, Archives & Museums
 
Intro to Linked Open Data in Libraries, Archives & Museums
Intro to Linked Open Data in Libraries, Archives & MuseumsIntro to Linked Open Data in Libraries, Archives & Museums
Intro to Linked Open Data in Libraries, Archives & Museums
 
Les professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de donnéesLes professionnels de l'information face aux défis du Web de données
Les professionnels de l'information face aux défis du Web de données
 
#opentourism - Linked Open Data Publishing and Discovery Workshop
#opentourism - Linked Open Data Publishing and Discovery Workshop#opentourism - Linked Open Data Publishing and Discovery Workshop
#opentourism - Linked Open Data Publishing and Discovery Workshop
 
Linked Open Data for Libraries
Linked Open Data for LibrariesLinked Open Data for Libraries
Linked Open Data for Libraries
 
Overview of Open Data, Linked Data and Web Science
Overview of Open Data, Linked Data and Web ScienceOverview of Open Data, Linked Data and Web Science
Overview of Open Data, Linked Data and Web Science
 
EIFL 2014 - Linked Open Data
EIFL 2014 - Linked Open DataEIFL 2014 - Linked Open Data
EIFL 2014 - Linked Open Data
 
LODAC 2017 Linked Open Data Workshop
LODAC 2017 Linked Open Data WorkshopLODAC 2017 Linked Open Data Workshop
LODAC 2017 Linked Open Data Workshop
 

Similaire à L’apport du Web sémantique à la recherche d’informations

Présentation de Claire Sibille et Michel Jacobson
Présentation de Claire Sibille et Michel JacobsonPrésentation de Claire Sibille et Michel Jacobson
Présentation de Claire Sibille et Michel Jacobson
AssociationAF
 
Sibille jacobson thesaurus
Sibille jacobson thesaurusSibille jacobson thesaurus
Sibille jacobson thesaurus
AssociationAF
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
badirh
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
Ivan Herman
 
Comparaison_outils_citations1
Comparaison_outils_citations1Comparaison_outils_citations1
Comparaison_outils_citations1
marthegag
 

Similaire à L’apport du Web sémantique à la recherche d’informations (20)

Présentation de Claire Sibille et Michel Jacobson
Présentation de Claire Sibille et Michel JacobsonPrésentation de Claire Sibille et Michel Jacobson
Présentation de Claire Sibille et Michel Jacobson
 
Sibille jacobson thesaurus
Sibille jacobson thesaurusSibille jacobson thesaurus
Sibille jacobson thesaurus
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
 
Datalift at SemWebPro
Datalift at SemWebProDatalift at SemWebPro
Datalift at SemWebPro
 
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
ISO 25964 Thésaurus pour la recherche documentaire (éditeurs logiciels)
 
Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"
 
États des lieux du Web sémantique
États des lieux du Web sémantiqueÉtats des lieux du Web sémantique
États des lieux du Web sémantique
 
Présentation cice telos
Présentation cice   telosPrésentation cice   telos
Présentation cice telos
 
Xavier Hennequin (Kelis) : chaîne éditoriale et accessibilité
Xavier Hennequin (Kelis) : chaîne éditoriale et accessibilitéXavier Hennequin (Kelis) : chaîne éditoriale et accessibilité
Xavier Hennequin (Kelis) : chaîne éditoriale et accessibilité
 
Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...Apport des thésaurus pour le catalogage et la localisation des données enviro...
Apport des thésaurus pour le catalogage et la localisation des données enviro...
 
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...Le Web et son architecture : Pour une critique philosophique de la notion d’u...
Le Web et son architecture : Pour une critique philosophique de la notion d’u...
 
Webinaire irp 20170120
Webinaire irp 20170120Webinaire irp 20170120
Webinaire irp 20170120
 
Semantic web introduction
Semantic web introductionSemantic web introduction
Semantic web introduction
 
Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)Séminaire Inria IST - Référentiels et interoperabilité (2)
Séminaire Inria IST - Référentiels et interoperabilité (2)
 
Le studio SAPHIR pour segmenter et décrire des documents audiovisuels, visuel...
Le studio SAPHIR pour segmenter et décrire des documents audiovisuels, visuel...Le studio SAPHIR pour segmenter et décrire des documents audiovisuels, visuel...
Le studio SAPHIR pour segmenter et décrire des documents audiovisuels, visuel...
 
Gérer efficacement votre bibliographie de cours avec Zotero
Gérer efficacement votre bibliographie de cours avec ZoteroGérer efficacement votre bibliographie de cours avec Zotero
Gérer efficacement votre bibliographie de cours avec Zotero
 
Panorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiquesPanorama des logiciels de gestion de références bibliographiques
Panorama des logiciels de gestion de références bibliographiques
 
Comparaison_outils_citations1
Comparaison_outils_citations1Comparaison_outils_citations1
Comparaison_outils_citations1
 
Ontologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformationOntologies, web de données et SKOS transformation
Ontologies, web de données et SKOS transformation
 
Zotero Adbs
Zotero AdbsZotero Adbs
Zotero Adbs
 

Plus de Aref Jdey

Social Technologies for Collaboration
Social Technologies for CollaborationSocial Technologies for Collaboration
Social Technologies for Collaboration
Aref Jdey
 
Enterprise Social Use and Perceptions by Microsoft
Enterprise Social Use and Perceptions by MicrosoftEnterprise Social Use and Perceptions by Microsoft
Enterprise Social Use and Perceptions by Microsoft
Aref Jdey
 
Accenture Digital Doctor
Accenture Digital DoctorAccenture Digital Doctor
Accenture Digital Doctor
Aref Jdey
 
The Rise of Enterprise Social Networks
The Rise of Enterprise Social NetworksThe Rise of Enterprise Social Networks
The Rise of Enterprise Social Networks
Aref Jdey
 
The Dark Side of Social Media
The Dark Side of Social MediaThe Dark Side of Social Media
The Dark Side of Social Media
Aref Jdey
 
Structuring a social_media_team
Structuring a social_media_teamStructuring a social_media_team
Structuring a social_media_team
Aref Jdey
 
The Business of Social Business
The Business of Social BusinessThe Business of Social Business
The Business of Social Business
Aref Jdey
 
Livre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veilleLivre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veille
Aref Jdey
 
DHS - Social Media Monitoring
DHS - Social Media MonitoringDHS - Social Media Monitoring
DHS - Social Media Monitoring
Aref Jdey
 
Enquête Vie Privée
Enquête Vie PrivéeEnquête Vie Privée
Enquête Vie Privée
Aref Jdey
 
Enquête Google - Santé
Enquête Google - SantéEnquête Google - Santé
Enquête Google - Santé
Aref Jdey
 

Plus de Aref Jdey (20)

Complete Guide to Twitter Analytics
Complete Guide to Twitter AnalyticsComplete Guide to Twitter Analytics
Complete Guide to Twitter Analytics
 
Social Technologies for Collaboration
Social Technologies for CollaborationSocial Technologies for Collaboration
Social Technologies for Collaboration
 
Enterprise Social Use and Perceptions by Microsoft
Enterprise Social Use and Perceptions by MicrosoftEnterprise Social Use and Perceptions by Microsoft
Enterprise Social Use and Perceptions by Microsoft
 
Accenture Digital Doctor
Accenture Digital DoctorAccenture Digital Doctor
Accenture Digital Doctor
 
The Rise of Enterprise Social Networks
The Rise of Enterprise Social NetworksThe Rise of Enterprise Social Networks
The Rise of Enterprise Social Networks
 
The Dark Side of Social Media
The Dark Side of Social MediaThe Dark Side of Social Media
The Dark Side of Social Media
 
Digital journey to wellness
Digital journey to wellnessDigital journey to wellness
Digital journey to wellness
 
Technorati Digital Influence Report 2013
Technorati Digital Influence Report 2013Technorati Digital Influence Report 2013
Technorati Digital Influence Report 2013
 
Structuring a social_media_team
Structuring a social_media_teamStructuring a social_media_team
Structuring a social_media_team
 
Tech trends 2013
Tech trends 2013Tech trends 2013
Tech trends 2013
 
The Business of Social Business
The Business of Social BusinessThe Business of Social Business
The Business of Social Business
 
Livre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veilleLivre blanc : nouveaux usages de la veille
Livre blanc : nouveaux usages de la veille
 
DHS - Social Media Monitoring
DHS - Social Media MonitoringDHS - Social Media Monitoring
DHS - Social Media Monitoring
 
Enquête Vie Privée
Enquête Vie PrivéeEnquête Vie Privée
Enquête Vie Privée
 
E-reputation : le livre blanc
E-reputation : le livre blancE-reputation : le livre blanc
E-reputation : le livre blanc
 
Search 2010 - Tendances et perspectives
Search 2010 - Tendances et perspectivesSearch 2010 - Tendances et perspectives
Search 2010 - Tendances et perspectives
 
Réseau Social d'Entreprise avec Sharepoint 2010
Réseau Social d'Entreprise avec Sharepoint 2010Réseau Social d'Entreprise avec Sharepoint 2010
Réseau Social d'Entreprise avec Sharepoint 2010
 
Panorama de la Cyber-criminalité - Année 2009
Panorama de la Cyber-criminalité - Année 2009Panorama de la Cyber-criminalité - Année 2009
Panorama de la Cyber-criminalité - Année 2009
 
L'intelligence économique pour les PME
L'intelligence économique pour les PMEL'intelligence économique pour les PME
L'intelligence économique pour les PME
 
Enquête Google - Santé
Enquête Google - SantéEnquête Google - Santé
Enquête Google - Santé
 

L’apport du Web sémantique à la recherche d’informations

  • 1. Apport du Web sémantique à la recherche d'information Pierre Molette www.acetic.fr I-Expo - mai 2008
  • 2. Le Web sémantique, est-ce une bonne appellation ? Tim Berners-Lee répond ceci : « Le terme Web sémantique prête un peu à confusion car la sémantique s’intéresse au sens du langage pour en déduire des constructions logiques. Du coup, certains ont pensé qu’il s’agissait d’un Web qui permettrait par exemple d’effectuer des recherches sur Internet en posant des questions en langage naturel. Or ce n’est pas son but. En fait, nous aurions dû l’appeler dès le départ quot;Web de donnéesquot;. Mais il est trop tard pour changer... »
  • 3. Le Web sémantique propose des normes reconnues et utilisées Ces normes visent à rendre le Web accessible et réutilisable en utilisant des meta-données. Par exemple : RDF : modèle conceptuel permettant de décrire des données ; RDF Schema : langage permettant de créer des vocabulaires, ensembles de termes utilisés pour décrire des choses ; OWL : langage permettant de créer des ontologies, vocabulaires plus complexes servant de support aux traitements logiques (inférences, classification, etc). RDF et OWL sont des vocabulaires XML qui font déjà l'objet de nombreuses applications.
  • 4. Le W3C prévoit dans le Web 3.0 des évolutions majeures d'Internet Certains projets du W3C prévoient de transformer Internet en une gigantesque ontologie, visible comme une base de données structurée par concepts Le contenu du Web devra tenir compte du langage naturel, généraliser l'affichage en 3D et exploiter l'Intelligence Artificielle Le Web 3.0 étant à l'état de projet, il faut prendre ces annonces avec précaution et attendre que cette technologie soit adoptée
  • 5. OWL est une norme permettant de construire des ontologies OWL, qui signifie Web Ontology Language, permet de contruire des classifications de concepts structurées et arborescentes OWL propose aussi des règles permettant de garantir la cohérence entre les concepts Les thesaurus, taxinomies (ou d'autres classifications) peuvent être exportés au format OWL, mais le contrôle de cohérence demande un travail supplémentaire
  • 6. Quelques ontologies disponibles dans les Sciences naturelles AGROVOC / FAO (Food and Agriculture Organization, Nations Unies) ; ITIS / Department of Agriculture (USDA, USA) ; MeSH / National Library of Medicine (NIH, USA) ; NCI Thesaurus / National Cancer Institute (NCI, USA) ; Wikipedia / Wikipedia Foundation (USA) ; Wordnet / Princeton University.
  • 7. AGROVOC : thesaurus et ontologie Conçu pour standardiser l'indexation des documents relatifs à l'agriculture Diffusé par la FAO (instance de l'ONU pour l'alimentation et l'agriculture) en collaboration avec certains pays membres Disponible en 5 langues : anglais, français, espagnol, chinois et arabe Distribué sous différents formats : MySQL, TagText, ISO2709, Microsoft Access et XML
  • 8. Agrovoc est disponible en version OWL multilingue Chaque descripteur fait l'objet d'un label dans une langue différente D'autres langues sont en cours de développement (allemand, italien, japonais, coréen, ...) Ce n'est pas une vraie ressource terminologique normalisée
  • 9. Le projet FAO / CIRAD / ACETIC Transformer l'ontologie AGROVOC en ressource linguistique Intégrer cette ressource dans un moteur de recherche sémantique Classer automatiquement des documents scientifiques avec cette ressource linguistique Tester et évaluer le résultat obtenu
  • 10. Transformer une ontologie en ressource sémantique Constituer un dictionnaire spécialisé (vocabulaire contrôlé) qui va établir la correspondance entre les mots des textes et les concepts de l’ontologie ; Disposer d’une logique permettant de résoudre les problèmes linguistiques ; Transformer des descriptions vagues en descriptions concrètes.
  • 11. Créer une ressource sémantique = résoudre plusieurs problèmes : Grammaticaux (par exemple quot;livrequot; correspond à un nom dans quot;une pile de livresquot; et à un verbe dans quot;on nous livre du bétonquot;) ; Sémantiques (par exemple quot;livrequot; indique une œuvre littéraire quot;un livrequot;, une monnaie quot;la livrequot; ou un poids quot;une livre de beurrequot;) ; Qualitatifs (les fautes de frappe, de typographie ou d’orthographe peuvent créer certains contresens fâcheux.
  • 12. Protocole de test et d'évaluation Partir d’une première classification Analyser une collection conséquente de documents représentatifs du sujet traité Identifier tous les termes qui ne sont pas pris en compte dans la classification et qui sont pertinents par rapport à la problématique Rajouter les termes pertinents dans la classification et repartir à la première étape
  • 14. Nécessité d'une ontologie correcte et suffisamment exhaustive Un travail de classification n'est acceptable que s'il est suffisamment exhaustif (la majorité des utilisateurs trouvent ce qu'ils cherchent) ; Ceci explique l'abandon des thesaurus et des annuaires internet au profit des moteurs de recherche en texte intégral ; Les moteurs de recherche sémantiques permettent de combiner les deux mondes (en ajoutant des ontologies au full-text).
  • 15. Extension d'AGROVOC par ajout d'ontologies complémentaires Conserver toutes les arborescences de classifications jugées pertinentes ; Remplacer les classifications généralistes (peu pertinentes) par les ontologies utilisées en standard dans le moteur Tropes d'Acetic ; Etendre ou remplacer certaines classifications scientifiques en utilisant à la fois ITIS, MeSH, Wordnet et d’autres sources (pertinentes).
  • 16. Trouver un consensus entre plusieurs ontologies
  • 17. Résultat de la fusion d'ontologies Le nombre de termes contrôlés a pu être augmenté de plus de 200% (par rapport à la version française AGROVOC) ; La classification est jugée satisfaisante, dans la majorité des cas, bien qu'elle ne soit pas complète (et elle ne le sera jamais parce que le vocabulaire évolue continuellement) ; L'absence d'informations terminologiques précises dans les ontologies OWL nécessite un lourd travail d'arbitrage.
  • 18. Perspectives d'avenir Selon le W3C, les ontologies devraient constituer un socle important du Web 3.0, en le structurant très fortement de façon sémantique Les normes actuelles, comme OWL, ne permettent pas une intégration rapide des classifications, parce qu'elles ignorent certains problèmes linguistiques Les normes d'ontologies devront donc évoluer vers un modèle unifié et réellement sémantique Toutefois OWL est, dès aujourd'hui, une norme exploitable dans de nombreux logiciels propriétaires