O documento propõe o framework R2R para publicar e descobrir mapeamentos entre dados heterogêneos na web de forma distribuída. A linguagem R2R permite mapear vocabulários flexivelmente e compor mapeamentos parciais usando uma heurística de qualidade. Uma engine de mapeamento usa os mapeamentos R2R para transformar dados da web em um vocabulário-alvo mantido em um repositório.
4. Linked data - dados muito
heterogêneos
Traduzir dados de um conjunto
muito grande de fontes para um
vocabulário-alvo requer um
número enorme de
mapeamentos
5. Manter um conjunto local ou
centralizado de mapeamentos
para cobrir todas as fontes do
Linked Data é muito difícil
7. Abordagem Pay-as-you-go [3] e distribuída
para integração de dados
Propõe uma linguagem expressiva para
mapeamentos e um método de composição de
mapeamentos parciais baseado numa heurística de
qualidade para os mapeamentos
9. Granularidade de mapeamento de vocabulário:
permitir mapeamento e combinação de
mapeamentos de termos de forma flexível
Interligação: cada mapeamento tem uma URI para
ligá-los a suas definições Descoberta: Através dos
links é possível descobrir mapeamentos
Expressividade: permitir transformação estrutural e
de valores de propriedades
Incentivar criação de regras de mapeamento feitas
pelos próprios criadores dos vocabulários
10. REQUISITOS
para composição de
mapeadores
Composição a nível de termos: criar um
encadeamento de mapeadores a partir dos já
existentes
Método de garantia de qualidade: heurística para
inferir qualidade de um mapeamento e preferir
mapeamentos mais prováveis de terem bons
resultados
12. LINGUAGENS DE
MAPEAMENTO
Euzenat[19] e Haslhofer[22]: Alta expressividade
mas sem ligações com recursos Web, i.e. não
permitem descoberta de mapeamentos
16. Linguagem declarativa e baseada em RDF e
SPARQL
Os mapeamentos tem URIs derreferenciáveis,
permitindo fácil compartilhamento
17. Os predicados r2r:sourcePattern e r2r:targetPattern
definem o mapeamento, com sintaxe baseada na
cláusula WHERE de SPARQL
Restrições: ?SUBJ para sujeitos sendo mapeados e
não se pode usar variáveis na posição dos
predicados
r2r:transformation: transformação de dados (e.g.
concatenação de string, transformação de unidade)
r2r:hasMapping: explicita mapeamento na
declaração do conceito na ontologia
21. Engine Java (baseada no Jena)
O repositório de mapeamentos (mapping
repository) contém mapeamentos encontrados na
Web e mapeamentos criados usando a linguagem
R2R
A engine de mapeamento transforma dados da
Web (na temporal store) no vocabulário-alvo e
armazena no repositório-alvo (target repository)
Heurísticas de medição de qualidade descrita em
outro artigo [16]
24. Mapeamentos entre DBPedia e 11 fontes de dados
associadas
Transformações estruturais, de valor, de unidade
de medida, de datas e linguagem
25. A linguagem se mostrou expressiva o suficiente
para conseguir com êxito realizar esses
mapeamentos
A linguagem permite flexibilidade maior que os
constructos padrão de RDF/OWL como
owl:equivalentClass / ow:equivalentProperty ou
rdfs:subClassOf / rdfs:subPropertyOf
27. [3]
Franklin, M.J., Halevy, A.Y., Maier, D.: From databases to dataspaces: A new
abstraction for information management. SIGMOD Record 34(4), pp. 27–33
(2005)
[4]
Hedeler, C., et al.: Dimensions of Dataspaces. In: Proceedings of the 26th
British National Conference on Databases, pp. 55-66 (2009)
[5]
Madhavan, J., Shawn, J. R., Cohen, S., Dong, X., Ko, D., Yu, C., Halevy, A.:
Web-scale Data Integration: You can only afford to Pay As You Go.
Proceedings of the Conference on Innovative Data Systems Research (2007)
[16] Bizer, C., Schultz, A.: The R2R Data Translation Process. FUB Technical
Report.
[19] Euzenat, J., Scharffe, F., Zimmermann A.: Expressive alignment language
and implementation. Knowledge Web project report, KWEB/2004/
D2.2.10/1.0 (2007)
[22] Haslhofer, B.: A Web-based Mapping Technique for Establishing
Metadata Interoperability. PhD thesis, Universität Wien (2008)