Notas de la sesión de Nils Pharo “XML and information discovery - the semantic web approach”
Facultat Biblioteconomia i Documentació - Universitat de Barcelona 6 mayo 2011
Proyecto integrador. Las TIC en la sociedad S4.pptx
Tecnologías de la web semántica
1. Tecnologías de la web semántica: XML, RDF, OWL Notas de la sesión de NilsPharo “XML and informationdiscovery - thesemantic web approach” FacultatBiblioteconomia i Documentació - Universitat de Barcelona 6 mayo 2011 1
2. Índice La web semántica XML RDF Ontologías Las bibliotecas y la web semántica SKOS Linked data 2
3. La web semántica ¿Por qué necesitamos una web semántica? Cuando buscamos en Internet obtenemos demasiado ruido. “Barcelona FC” en Google da 160 mill de resultados! La mayor parte de estos resultados es irrelevante El problema de los silos de información: Muchos sistemas no se conectan entre sí para compartir información relacionada y el usuario ha de entrar en cada uno de ellos para ir recuperando fragmentos de información. Los usuarios finales han de recoger, comparar, interpretar y conectar la información de diferentes sistemas. 3
4. La web semántica Enunciada por Tim Berners-Lee en 1999: “Tengo un sueño para la Web, en el que las computadoras serán capaces de analizar todos los datos en la red – el contenido, los links y las transacciones entre las personas y las computadoras. Una ‘Web Semántica’, que debería hacer esto posible, tiene que emerger, pero cuándo lo haga, los mecanismos habituales de intercambio, burocracia y nuestras vidas cotidianas serán manejadas por maquinas capaces de hablar entre ellas. Lo que la gente de los ‘agentes inteligentes’ han vendido durante siglos finalmente se hará realidad”. La web semántica puede ser una solución parcial. Muy dependiente del dominio. 4
5. La web semántica Características: Agentes inteligentes Web para aplicaciones Extensión de la Web Una Web de datos 5
6. Tecnologías de la web semántica Desarrolladas por el W3C Estándares XML (Extensible MarkupLanguage) RDF (ResourceDescription Framework) Ontologías: RDF schema OWL (Ontology Web Language) 6
7. xml Es la pieza básica Representa los metadatos internos del documento Las etiquetas incorporan valor semántico <?xmlversion=" 1.0 " encoding=" UTF-8 " standalone= " yes "?><ficha><nombre> Nils </nombre><apellido> Pharo </apellido><empresa> Oslo UniversityCollege</empresa></ficha> 7
8. RDF Es un modelo de datos independiente del dominio. Describe recursos usando ‘tripletes’ Un triplete tiene la forma sujeto-propiedad-valor * NilsPharois a teacher at Oslo UC Los elementos del triplete se identifican preferentemente mediante una URI, por ejemplo: Una persona, NilsPharo, identificado por http://www.w3.org/People/EM/contact#me Una propiedad, mailbox, identificado por http://www.w3.org/2000/10/swap/pim/contact#mailbox Un valor, mailto:np@uc.edu 8
9. RDF Utiliza sintaxis basada en XML: RDF/XML Ejemplo: <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <rdf:Descriptionrdf:about="http://en.wikipedia.org/Tony_Benn"> <dc:title>Tony Benn</dc:title> <dc:publisher>Wikipedia</dc:publisher> </rdf:Description> </rdf:RDF> xmlns y una URL indica un vocabulario donde se encuentran los términos de lo que se describe 9
10. Ontologías Hacen posible la ‘ingeniería del conocimiento’ Componentes: Instancias (individuos, entidades, cosas) Clases Propiedades Relaciones Reglas y restricciones 10
11. Ontologías Las instancias son los ejemplares de una clase: *’NilsPharo’ es una instancia de la clase ‘persona’ Las instancias pueden formar parte de diferentes clases. Las clases pueden contener otras clases. En una estructura de relación jerárquica, las propiedades son hereditarias. Las reglas y restricciones tienen como objetivo evitar inferencias ilógicas, especificar cardinalidad y clarificar aspectos de clases específicas, p.e.: un mes no puede tener más de 31 días. Las ontologías pueden ser: De dominio, cuando describen un dominio específico: el cuerpo humano, las bibliotecas… Ontologías superiores (top ontologies), para describir conceptos compartidos por diferentes dominios. 11
12. Ontologías RDF Schema: Hace accesible la información semántica para las máquinas. Es un lenguaje de ontologías simple. Componentes: clases y propiedades específicas. OWL (Ontology Web Language): Es un lenguaje de ontologías completo. Hay tres versiones con diferente nivel de complejidad: completo, DL y Lite Se basa en DAML + OIL (DARPA AgentMarkupLanguage + OntologyInferenceLayer) http://www.xml.com/pub/a/2002/01/30/daml1.html 12
13. Las bibliotecas y la web semántica Los catálogos utilizan tres tipos de metadatos: Descriptivos Autoridad Materia Ontologías para datos bibliográficos: DublinCore BIBLO FRBR SKOS 13
14. SKOS SKOS (Simple KnowledgeOrganizationSystem): Ontología con RDF para representar materia. Vocabulario para representar vocabularios controlados en RDF. Proporciona sinónimos y posibles erratas de un término. Describe relaciones jerárquicas (término general – término específico, …es parte de…, …es una clase de…). El catálogo Libris, de la Biblioteca Nacional Sueca, es un ejemplo de aplicación de SKOS: http://libris.kb.se/?language=en 14
15. Linked data Aproximación a la web semántica pragmática, ‘bottom up’. Identifica los objetos mediante URIs y HTTP. Proporciona información útil mediante estándares RDF, SPARQL, y enlaces a otras URIs para descubrir más cosas relacionadas. Es una buena solución al problema de los ‘silos’ de información. Responde a la filosofía Open data, datos que deberían ser accesibles universalmente: mapas, fórmulas, genomas, gobierno, hechos, biblioteca pública… 15
16. Linking Open Data-project Consiste en convertir datos con licencias libres a RDF. Datos de las bibliotecas como linked open data: Libris (Bibl. Nac. Suecia) LCSH VIAF (Virtual International AuthorityFile) OCLC Dewey Decimal Classification OCLC Deutsche Nationalbibliothek: enlazar los datos de todas las bibliotecas del país y de las bibliotecas nacionales de Suiza y Austria. British Library DBpedia: proyecto para la extracción de datos de Wikipedia para proponer una versión Web semántica. Liderado por la Universidad de Leipzig, Universidad Libre de Berlín y la compañía OpenLink Software. 16