O documento descreve uma dissertação de mestrado que explora a inferência em um sistema de anotação semântica. O trabalho propõe desenvolver uma ferramenta capaz de gerar novas anotações a partir de conceitos de uma ontologia usando raciocínio, e usar meta-anotações para justificar as anotações inferidas. O documento apresenta os fundamentos teóricos da anotação semântica e da representação de ontologias, além de revisar ferramentas atuais de anotação e busca semântica.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA
1. Explorando Inferência em um Sistema de
Anotação Semântica
Orientadoras:
Maria Claudia R. Cavalcanti, D.Sc.
Ana Maria de Carvalho Moura, Dr. Ing
Aluno: Celso Araujo Fontes
Instituto Militar de Engenharia
Rio de Janeiro, 26 de maio de 2011
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
2. Sumário
1. Introdução
2. Fundamentação Teórica
3. Anotação Semântica
4. Arquitetura para o desenvolvimento de um
sistema de anotação automática em documentos
5. Desenvolvimento da ferramenta AutôMeta
6. Avaliação e Testes
7. Conclusão
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
3. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Introdução
• Pesquisas ainda são baseadas em
textos, dificultando a precisão na
recuperação da informação
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
4. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Introdução
• Metadados
• Web Semântica
• RDF, OWL ...
• Web Tradicional = usa-se somente HTML
• Onde está a semântica?
nome: <b>celso</b>, cidade: <i>rio de janeiro</i>
• Anotação Semântica
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
5. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Motivação
• Anotar não é uma tarefa trivial
• Grande volume de documentos
• Necessidade de mecanismos automáticos de
anotação
• Ferramentas atuais de anotação semântica
• Vocabulários Arbitrários
• Ferramentas nem sempre exploram as informações
implícitas
• Utilização de formatos próprios dificulta a
recuperação por ferramenta de busca
semântica.
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
6. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Hipótese
É possível gerar documentos melhor anotados a partir
da exploração mais profunda da
ontologia, contemplando inferência?
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
7. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Objetivos da dissertação
• Desenvolver um sistema para anotação
semântica em documentos com base em
conceitos de uma ontologia
• Utilizar-se de um raciocinador para inferir
novas anotações
• Uso de meta anotações para justificar as
anotações inferidas.
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
8. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Fundamentação Teórica
• Ontologia:
• “Uma especificação explícita de uma
conceituação. A conceituação é uma abstração
simplificada do domínio em que se deseja
representar para algum propósito”
(GRUBBER, 1992)
• Características:
• Classes
• Relações
• Instâncias
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
9. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Linguagens para Representação de Ontologias
• RDF (Resource Description Framework)
• Exemplo:
• Maria Claudia orienta Celso
#Maria orienta
#Celso
Claudia
Sujeito Predicado Objeto
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
10. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Linguagens para Representação de Ontologias
OWL (Web Ontology Language):
Um exemplo com inferência com sinonímia
Celso
orienta (inferido)
Maria
Claudia
Yoko
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
11. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Anotação Semântica
“A anotação semântica de um
documento descreve o seu conteúdo pela
associação de trechos relevantes do
texto e conceitos descritos em uma
ontologia” (ELLER, 2008).
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
12. Anotação Semântica
Adaptado de (OREN, 2006)
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
13. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Anotação Semântica
Para OREN et al. (2006), o resultado de uma
anotação A é uma tupla <as, ap, ao, ac>, onde:
• as é o dado (ou sujeito) sendo anotado
• ao é a anotação em si
• ap é o predicado que define o tipo de
relacionamento entre o as e ao
• ac é o contexto em que a anotação é feita.
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
14. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Especificações para Anotação Semântica
• Microformat
• eRDF
• RDFa
• HTML5 Microdata
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
15. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
HTML
<div>
<b>Celso Araujo</b>, nascido em <i>25/11/1985</i>.
</div>
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
16. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
HTML+RDFa
<div id="#Celso">
<b property="foaf:name">Celso Araujo</b>, nascido em
<i property="foaf:birthday">25/11/1985</i>
</div>
“Celso Araujo”
#Celso
“25/11/1985”
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
17. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Ferramentas de Anotação Semântica
• GATE
• SMORE
• Annotea
• Amaya
• OpenCalais
• Zemanta
• Ontos
• Textwize
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
18. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Ferramentas de Anotação Semântica
I Ii iii Iv v Vi Vii
Armazenamento da Referência com a Referência entre Entrada de Ontologias
Representação da Anotação Tipo Plataforma
Anotação Ontologia termo e Anotação Customizadas
Annotea Não intrusiva RDF/XML Xpointer SIM SIM Manual Desktop
GATE Híbrida Banco de dados e XML URIS SIM SIM Híbrida Desktop
KIM Não intrusiva ??? ??? SIM SIM Automática Desktop
RDF/XML, JSON,
OpenCalais Não intrusiva Microformat e URIS SIM NÃO Automática Web
SimpleFormat
XML, JSON, WNJSON,
Zemanta Não intrusiva URL NÃO NÃO Automática Web
RDF/XML
SMORE Não intrusiva RDF/XML URIS NÃO SIM Manual Desktop
Ontos Não intrusiva JSON ??? ??? SIM Automática Web
TextWise Não intrusiva JSON, XML e RDF URI SIM NÃO Automática Web
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
19. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Ferramentas de Análise e Busca Semântica
• Sindice
• Google Rich Snippets
• Yahoo Search Monkey
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
20. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Uso de Anotação Semântica
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
21. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Uso de Anotação Semântica
fonte: http://oreilly.com/catalog/9780596153823/
as
<h1 ... property="dc:title">Programming the Semantic Web</h1>
ap ao
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
22. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Ferramentas de Análise e Busca Semântica
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
23. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Arquitetura para anotação Semântica Automática em Documentos
Analisador Raciocinador
Documento Usuário
Ontologia
Anotador Anotado
Análise e
Comparação MetaAnotação
Meta
Documento Anotador Agente
Não Estruturado
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
24. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Processo de Anotação (Entrada)
owl:sameAs
#Maria_Claudia #Yoko
conhece
Ontologia #Celso conhece
#Ana_Maria
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
25. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Processo de Anotação (Identificação dos Termos)
Celso é aluno das Professoras Yoko e Ana Maria.
Analise e owl:sameAs
Comparação #Maria_Claudia #Yoko
conhece
#Celso conhece
#Ana_Maria
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
26. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Processo de Anotação (Identificação das Triplas)
Celso é aluno das Professoras Yoko e Ana Maria.
1. Celso conhece Maria_Claudia
2. Celso conhece Ana_Maria
3. Celso conhece Yoko
Analisador Raciocinador
owl:sameAs
#Maria_Claudia #Yoko
conhece
#Celso conhece
#Ana_Maria
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
27. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Processo de Anotação (Meta anotação sob a inferência)
3. Celso conhece Yoko
Anotação referenciaId ‘3’
_ resultadoDe:
Celso conhece Maria_Claudia
Maria_Claudia mesmaPessoaQue Yoko
owl:sameAs
#Maria_Claudia #Yoko
conhece
#Celso conhece
Raciocinador
#Ana_Maria
Explainer
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
28. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Avaliação e Testes
Conclusão
Referências Bibliográficas
Meta-Anotação
Baseado em OWL (MCGUINNESS e HARMELEN, 2004) e OWL2 (MOTIK, et al., 2009)
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
29. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Meta-Anotação
• Toda Pessoa tem 2 progenitores
• Neymar é filho de Nadine e Neymar Santos
• Sua mãe e seu pai não são as mesmas pessoas
• Seu pai também é conhecido como Neymar Pai
Declarações <2,"Annotation Inequality DifferentIndividuals" >
(metaanotaçao) <”#Pessoa”,rdf:subclass>
<”owl:cardinality, “2”>
<onProperty, “temProgenitor”>
<”#Neymar”,temProgenitor,”#Nadine”>
<”#Neymar”,temProgenitor,”#NeymarPai”>
<”#Neymar”,temProgenitor,”#NeymarDaSilvaSantos”>
<”#Nadine”,differentFrom,”#NeymarPai”>
<”#Nadine”,differentFrom,”#NeymarDaSilvaSantos”>
Anotação <2,”#NeymarPai”,sameAs,”#NeymarDaSilvaSantos”>
Inferida
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
30. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Desenvolvimento da ferramenta AutôMeta (AutoMatic MetaData)
Tecnologias adotadas para prototipação:
• JAVA
• NetBeans
• OWLAPI
• Pellet
• Java-rdfa
• Jakarta-Commons
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
31. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Formalismo de Anotação do AutôMeta
<ai, asi, T[ao1..aom] ><ai, apm+1, aom+1 />..<ai, apn ..aon /> Termo </>
<span id="ai" about="asi" typeof="ao1 .. aon ">
<span id="ai+1" rel="pi+1" resource="aon+1"></span>
…
<span id="ai+m" property="pi+m" content="aon+m"></span>
Termo
</span>
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
32. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Exemplo de Anotação gerada pelo Autômeta
<span id="am-1" about="#Celso" typeof="auto:Aluno auto:Pessoa">
<span id="am-2" rel="orientadoPor" resource="Ana"></span>
<span id="am-3" rel="orientadoPor" resource="Maria"></span>
<span id="am-4" property="nomeCompleto" content="Celso
Fontes“></span>
Celso
</span>
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
34. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Prototipação – AutôMeta
Documento
+Anotação
Metadados
Extraídos
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
35. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Prototipação – AutôMeta
Agente
Potencial para buscas
semânticas:
Usuário • Sindice
• Google Rich Snippets
• Yahoo Search Monkey
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
36. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Avaliação e Testes
OBJETIVO:
• Avaliar o potencial de recuperação de
informações sobre documentos anotados
semanticamente pela ferramenta AutôMeta
• Volume extensivo de documentos
• Ontologia de domínio
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
37. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
TREC Genômica 2006
• Text Retrieval Conference
• Textos completos em HTML = 162.259
• 11.638 documentos distintos avaliados
• 28 perguntas
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
38. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
TREC (Pergunta e Avaliação)
NEW ID GENE(S) DISEASE QUESTION
160 PRNP Mad Cow What is the role of PrnP in mad cow
Disease disease?
TOPIC PMID OFFSET LENGTH SPANID RELEVANCE
160 8995353 1983 1766 899.535.319.831.766 NOT
160 8995353 3962 1369 899.535.339.621.369 DEFINITELY
160 9045652 4268 2400 904.565.242.682.400 DEFINITELY
160 9535949 50363 1856 9.535.949.503.631.850 NOT
160 15722549 8230 2514 1.572.254.982.302.510 POSSIBLY
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
39. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
TREC (Exemplo de Documento)
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
40. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Ontologia de Entrada
• Testes com Gene e Mesh sem sucesso
• Através do SINDICE verificou-se que a
Dbpedia comtempla a maior parte dos
termos utilizados nas perguntas
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
41. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Dbpedia
• Versão “semântica” da DBpedia
• Base de 3.5 milhões de conceitos
(BIZER, 2011)
• Triplas são extraídas da Wikipedia
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
42. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Dbpedia
….
<resource:Obama> <ontology:spouse> <resource:Michelle_Obama>.
<resource:Obama> <ontology:vicePresident> <resource:Joe_Biden>
....
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
43. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
DBpedia (Recorte)
• Zemanta Web Service
• RDFCAT
• Esquema OWL Dbpedia 3.6
• Sinonímia (redirect):
• Bovine_Spongiform_Encephelopathy redirect Mad Cow
• Bovine_Spongiform_Encephelopathy sameAs Mad Cow
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
44. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Dbpedia (Recorte)
Recurso OWL/RDF Total/Valor
Classes 323
Object Properties 629
Data Properties 706
Indivíduos 2665
Expressividade DL ALOF(D)
Relações de “is-a” 272
Object Properties Domain 505
Object Properties Range 488
Data Properties Domain 589
Data Properties Range 407
Sinonímia entre indivíduos 549
Functional Data Properties 18
[1] Description logic (lógica descritiva)
[2] A L= Attributive language; O = Object Restrictions (nominais) (ex: hasValue); F= Functional Properties; D = Data values (ex: data properties)
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
45. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Ambiente de Testes
Intel Xeon 5520 2,26GHz (com 4 núcleos reais e
4 virtuais - hyper-threading)
12 GB Memória e 1TB de disco rígido
Sistema operacional Linux Debian Lenny.
Powered By
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
46. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Massas de Dados
Artigos da TREC Artigos da TREC anotações Artigos da TREC anotações
convertidos em (TXT) sem do recorte Dbpedia e com do recorte Dbpedia
nenhuma anotação Inferência apenas com informações
semântica; explícitas
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
47. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Recuperação de Informação (métricas)
Em (BECHARA, 2010):
• Precisão é a interseção entre os documentos relevantes e os documentos
recuperados, divididos pelo número de documentos recuperados; e
• Cobertura é a interseção entre os documentos relevantes e os documentos
recuperados, divididos pelo número de documentos relevantes.
Cobertura e Precisão (BARROS, 2011)
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
48. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Recuperação da Informação (métricas)
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
49. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Primeiro Ambiente
Simulação de um ambiente Tradicional de busca
Consultas em Texto Plano (Indexação e Busca)
Lucene 3.0.2
Remoção de STOP WORDS
Stemming
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
50. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Precisão (TXT X REASONER)
001
001
001
001
001
001
000
000
000
000
000
160 161 162
163 164 165
166 167
168 169
170 171
172 174
176 177
178 179
181 182 184 185
txt (precision) reasoner (precision) 186 187
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
51. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Precisão
• TXT precisao melhor
• Sinonímia aumentou o numero de
documentos retornados declinando a
precisao na maioria dos casos
• Valores para o predicado “ontology:abstract”
foram responsáveis por maior diferença
entre documentos anotados e não
anotados
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
52. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Precisão (Sinonimia)
Trecho de documento RELEVANTE
<span property="ontology:abstract" content="PRNP
(PRioN Protein) is a gene that codes for a protein called
the prion protein (PrP) …" datatype="rdf:PlainLiteral"
xml:lang="en"> prion protein </span>
What is the role of PrnP im mad cow disease?
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
53. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Precisão (Sinonimia)
Trecho de documento NAO RELEVANTE
<span property="ontology:abstract" content="Cathepsin D
is a protein that in humans is encoded by the CTSD gene.
It has been used as a breast cancer tumor marker."
datatype="rdf:PlainLiteral" xml:lang="en"> Cathepsin D
</span>
How do Cathepsin D (CTSD) and apolipoprotein E (ApoE) interactions contribute to Alzheimer’s
disease?
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
54. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Cobertura (TXT X REASONER)
001
001
001
001
001
001
000
000
000
000
000
160 161 162
163 164
165 166
167 168
169 170
171 172
174 176
177 178 179 181 182 184
txt (recall) reasoner (recall) 185 186 187
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
55. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Medida F (TXT x REASONER)
001
001
001
001
000
000
000
000
000
160 161 162
163 164 165
166 167 168
169 170
171 172
174 176
177 178
179 181
182 184
txt (medida f) reasoner (medida f) 185 186 187
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
56. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Segundo Ambiente
Simulação de uma ferramenta de busca
semântica
Base com inferência X Base sem inferência
Consultas em SPARQL
Jena
JavaRDFa
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
57. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
SPARQL
Anotação das perguntas pelo AutôMeta para
recuperação dos termos da ontologia
Tripla Chave:
Sujeito anônimo (?asn)
Predicado (ap) e objeto (ao) únicos
SELECT ?g WHERE
GRAPH ?g{
?as1 foaf:page <wiki:Bovine_spongiform_encephalopathy> .
?as2 foaf:page <wiki:PRNP>
}
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
58. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Precisão (REASONER x NOREASONER)
001
001
001
001
001
000
000
000
000
000
160 161 162
163 164 165
166 167
168 169
170 171
172 174
176 177
178 179 181 182
no reasoner (precision) reasoner (precision) 184 185 186 187
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
59. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Precisão (REASONER x NOREASONER)
• Resultados baixos em sua maioria para ambas
as bases
• Maior sucesso na média final para
baseReasoner (0,22 x 0,09)
• Casos de Derrotas de Reasoner por:
– Maior número de documentos retornados
– Maior número de triplas retornados pelas
consultas SPARQLs
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
60. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Cobertura (REASONER X NOREASONER)
001
001
001
001
001
001
000
000
000
000
000
160 161 162
163 164
165 166
167 168
169 170
171 172
174 176
177 178
no reasoner (recall) reasoner (recall) 179 181 182 184 185 186 187
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
61. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Cobertura
• Melhores resultados da baseReasoner (0,89 x
0,29)
• Maior número de documentos retornados
graças a sinonímia e ao SPARQL
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
62. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Medida F (REASONER x NOREASONER)
001
001
001
001
000
000
000
000
000
160 161 162
163 164 165
166 167 168
169 170
171 172
174 176
177 178
179 181
182 184
185 186
no reasoner (medida f) reasoner (medida f) 187
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
63. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Medida F
Ambiente Tradicional Ambiente Semântico
0,22 0,21 0,08 0,29
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
64. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Conclusão
• Este trabalho teve como objetivo
desenvolver um sistema que permitisse o
enriquecimento de documentos através de
anotações semânticas explorando o
potencial implícito de uma ontologia.
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
65. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Contribuições
• Estudo comparativo de Ferramentas e Padrões de
anotação semântica;
• Proposta de uma arquitetura para anotação
semântica;
• Taxonomia para especificação de Meta Anotações;
• Recorte ontológico da base de dados Dbpedia;
• Metodologia para a tradução de perguntas para
SPARQL;
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
66. Contribuições
• Utilização de uma abordagem de anotação semântica
em formato aberto e visível pelos principais mecanismos
de busca semântica do mercado (ex.: Sindice e Google);
• Dois ambientes de recuperação (tradicional e
semântico);
• Artigo exposto no ONTOBRAS 2010 (FONTES, et
al., 2010c)
• Artigo apresentado no WTDBD 2010 (FONTES, et
al., 2010b)
• Artigo submetido para o SBBD 2011
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
67. Introdução
Fundamentação Teórica
Anotação Semântica
Arquitetura
Desenvolvimento da Ferramenta
Avaliação e Testes
Conclusão
Trabalhos Futuros
• Uso de técnicas avançadas de linguística computacional
• Anotações feitas pela ferramenta de modo a auxiliar na
seleção dos melhores termos, onde a ferramenta poderia
fazer “sugestões” ao especialista;
• Múltiplas ontologias
• Otimização no recurso de auto completar
• Formatos ricos de documento de entrada
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011
68. Referências Bibliográficas
• OREN, E. What are Semantic Annotations?. 2006. Disponível em: <http://
www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf>.
• BECHARA, A. Expansão semântica de consultas baseada em esquemas
terminológicos: uma experimentação no domínio biomédico. 2010. Disponível
em: <http://teses2.ufrj.br/15/teses/751890.pdf>. Dissertação de
Mestrado, UFRJ.
• GRUBER, T. A Translation Approach to Portable Ontology Specifications. 1992.
Disponível em: <http://www-ksl.stanford.edu/KSL_Abstracts/KSL-92-71.html>.
• BARROS, F. Avaliação de Desempenho de Sistemas de RI. 2011. Disponível em:
<http://www.cin.ufpe.br/~if796/aulas/cap3.ppt>
• MCGUINESS D. e F. HARMELEN. OWL Web Ontology Language Overview.
Disponível em: <http://www.w3.org/TR/owl-features/>.
• MOTIK, B., P. PATEL-SCHNEIDER e B. PARSIA. 2009. OWL 2 Web Ontology
Language Structural Specification and Functional-Style Syntax. Disponível em:
<http://www.w3.org/TR/2009/REC-owl2-syntax-20091027/>.
Celso Araujo Fontes (IME) Explorando inferência em um sistema de anotação semântica Maio/2011