Catégories populaires, catégories cachées et prototypes : approches des taxin...
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie appliqués à des artefacts logiciels
1. Du texte à la connaissance :
annotation sémantique
et peuplement d'ontologie
appliqués à des artefacts logiciels
Florence Amardeilh & Danica Damljanovic
IC’2009, 27 mai 2009, Hammamet
Funded by: European Commission – 6th Framework
Project Reference: IST-2004-026460
2. Contexte
Projet européen IST-TAO (2006-2009)
Transitioning Applications to Ontologies
www.tao-project.eu
Use-case scenario:
Annotation d’artefacts logiciels (documentation technique, code
source, web services, WSDL files…)
2
3. Bridging the gap
Contenu
hétérogène non
structuré
Contenu structuré
+
Connaissance structurée
3
4. Processus
Structured
information
Text Mining
Ontology and
Audio Mining vocabulary control
Reasoning
Input engines
documents
Metadata
generation
Format
transformation
Knowledge
population
User
(knowledge store
validation
integration)
4
5. Content Augmentation Manager (CA Manager)
Definition du processus en trois étapes principales :
Extraction d’information
Consolidation d’information
Stockage d’information
Avoir un unique format d’échange entre chaque étape
Avoir un ensemble de services de consolidation répondant
aux objectifs de l’application cible
Etre open-source et chaque composant doit être
indépendant d’une plateforme ou d’un outil existant
Reposer sur une “Service Oriented Architecture” (SOA)
5
6. Architecture choisie
Choix de UIMA comme épine dorsale du CA-Manager.
framework open-source IBM
Avantages :
Capacité à définir un workflow flexible
Composants distribués et pluggables
Une structure de données commune aux
composants
Partage et réutilisabilité de composants open-source
Choix des langages et techniques du Web Sémantique
Interopérabilité
Facilité d’échanger/partager/exploiter les formats et leur
sémantique
Facilité de créer/appeler de nouveaux services
6
7. Quels types de données voulons-nous?
Title : « brave new world »
Date : 1954-09-23
Person :
Place :
3 choses :
Connaissance: entités, relations,
attributs
Occurrences : offsets/positions des
entités dans le texte analysé
Annotations : ensemble de
métadonnées sur le document soumis
(se référant aux entités de
connaissance)
7
8. CA Manager pipeline
1. Extraction 2. Consolidation 3. Stockage
d’Information d’Information d’Information
Découpe Nettoyer + Sérialise
Extraire Contrôler Inférer Stocker
r Fusionner r
RegEx
KCIT ITM Pellet RDF OWL ITM Sesame
p
8
9. Cas d’usage : annoter les artefacts logiciels
Key Concept Identification Tool (KCIT) for
automatic content augmentation:
produces ontology-aware annotations
automatically
deals with term and morphological variations
(list of documents, document list)
deals with wide range of file formats and
differently sized documents
domain independent: easily used with
different ontologies
9
10. Challenges raised by software artefacts
Customisation of generic Tokeniser for
processing software artefacts:
e.g. getDocumentName should be
separated into get, Document, and
Name tokens
Customisation of generic Sentence Splitter
JavaDoc: usually no punctuation marks
10
13. KCIT évaluation: corpus
Sélection de 20 documents servant de corpus
représentatif concernant les artefacts logiciels de la
plateforme GATE :
4 forum posts de la mailing liste GATE
3 java classes du source code de GATE
7 chapitres du guide utilisateur de GATE
3 publications sur la plateforme GATE
2 pages Web accessibles depuis le site Web
http://gate.ac.uk
1 guide du développeur d’applications GATE
13
15. CA Manager évaluation : résultats
Evaluation de la flexibilité et du passage à l’échelle de
l’infrastructure offerte par le CA Manager
Evaluation de la performance des algorithmes de
consolidation
Même corpus que pour l’évaluation de KCIT
Exemple : “movies.xml”
129 annotations générées par KCIT
46 instances de connaissances créées par le CA
Manager
27 annotations sémantiques crées pour ce
document au final
Element type Number of Number of Number of Recall Precision F1-measure
in the correct missing spurious (A/A+B) (A/A+C) (R*P)/0.5(R+
ontology elements (A) elements (B) elements (C) P)
Kb instances 208 0 64 1 0,765 0,867
Annotations 168 0 12 1 0,933 0,965
Difficultés à évaluer la performances en utilisant des
15
mesures plus adéquates comme la Learning accuracy
ou la Balanced Distance Measure
16. Conclusion
Avantages de cette infrastructure :
Spécialisation d’un workflow UIMA dédié à l’annotation et au
peuplement d’ontologies en bénéficiant de ses apports
Cache la complexité d’UIMA si ce n’est pas nécessaire
Focalise sur la transmission et l’interprétation des résultats
des outils d’extraction d’information aux référentiels
sémantiques
Définit un Schéma d’annotation générique
Fournit un service (simple, à distance, architecture SOA)
Plug&play : possibilité d’écrire facilement un nouveau
connecteur vers un outil externe (IE ou référentiel
sémantique)
Démo en libre accès, comme un web service ou une interface de
test, accessible à :
http://62.210.155.132/ca-test
16
17. Travaux futurs
project ontology corpus CA tool repository
Terradata Architectural 3D objects DBPedia and ITM
ontology (3D Geonames
objects) web services
VigiTermes Adverse Drug PubMed Luxid (Temis) ITM
Effect ontology abstracts
Eiffel Tourism Touristic TimeFrame ITM
ontology web sites (Modyco, Univ
Paris X)
Microbio MiRNA ontology PubMed FunGen Sesame
articles Discovery
(INSERM)
17