Tecnologías de la web semántica: XML, RDF, OWLNotas de la sesión de NilsPharo “XML and informationdiscovery - thesemantic web approach”FacultatBiblioteconomia i Documentació - Universitat de Barcelona 6 mayo 2011 1
ÍndiceLa web semánticaXMLRDFOntologíasLas bibliotecas y la web semánticaSKOSLinked data2
La web semántica¿Por qué necesitamos una web semántica?Cuando buscamos en Internet obtenemos demasiado ruido.“Barcelona FC” en Google da 160 mill de resultados!La mayor parte de estos resultados es irrelevanteEl problema de los silos de información:Muchos sistemas no se conectan entre sí para compartir información relacionada y el usuario ha de entrar en cada uno de ellos para ir recuperando fragmentos de información.Los usuarios finales han de recoger, comparar, interpretar y conectar la información de diferentes sistemas.3
La web semánticaEnunciada por Tim Berners-Lee en 1999:“Tengo un sueño para la Web, en el que las computadoras serán capaces de analizar todos los datos en la red – el contenido, los links y las transacciones entre las personas y las computadoras. Una ‘Web Semántica’, que debería hacer esto posible, tiene que emerger, pero cuándo lo haga, los mecanismos habituales de intercambio, burocracia y nuestras vidas cotidianas serán manejadas por maquinas capaces de hablar entre ellas. Lo que la gente de los ‘agentes inteligentes’ han vendido durante siglos finalmente se hará realidad”. La web semántica puede ser una solución parcial.Muy dependiente del dominio. 4
La web semánticaCaracterísticas:Agentes inteligentesWeb para aplicacionesExtensión de la WebUna Web de datos5
Tecnologías de la web semánticaDesarrolladas por el W3CEstándaresXML (Extensible MarkupLanguage)RDF (ResourceDescription Framework) Ontologías:RDF schemaOWL (Ontology Web Language)6
xmlEs la pieza básicaRepresenta los metadatos internos del documentoLas etiquetas incorporan valor semántico<?xmlversion=" 1.0 " encoding=" UTF-8 " standalone= " yes "?><ficha><nombre> Nils </nombre><apellido> Pharo </apellido><empresa> Oslo UniversityCollege</empresa></ficha>7
RDFEs un modelo de datos independiente del dominio.Describe recursos usando ‘tripletes’Un triplete tiene la forma sujeto-propiedad-valor* NilsPharois a teacher at Oslo UCLos elementos del triplete se identifican preferentemente mediante una URI, por ejemplo:Una persona, NilsPharo, identificado por http://www.w3.org/People/EM/contact#meUna propiedad, mailbox, identificado porhttp://www.w3.org/2000/10/swap/pim/contact#mailboxUn valor, mailto:np@uc.edu8
RDF Utiliza sintaxis basada en XML: RDF/XMLEjemplo:<rdf:RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <rdf:Descriptionrdf:about="http://en.wikipedia.org/Tony_Benn"> <dc:title>Tony Benn</dc:title> <dc:publisher>Wikipedia</dc:publisher> </rdf:Description></rdf:RDF>xmlns y una URL indica un vocabulario donde se encuentran los términos de lo que se describe9
OntologíasHacen posible la ‘ingeniería del conocimiento’Componentes:Instancias (individuos, entidades, cosas)ClasesPropiedadesRelacionesReglas y restricciones10
Ontologías Las instancias son los ejemplares de una clase: *’NilsPharo’ es una instancia de la clase ‘persona’Las instancias pueden formar parte de diferentes clases.Las clases pueden contener otras clases.En una estructura de relación jerárquica, las propiedades son hereditarias.Las reglas y restricciones tienen como objetivo evitar inferencias ilógicas, especificar cardinalidad y clarificar aspectos de clases específicas, p.e.: un mes no puede tener más de 31 días.Las ontologías pueden ser:De dominio, cuando describen un dominio específico: el cuerpo humano, las bibliotecas…Ontologías superiores (top ontologies), para describir conceptos compartidos por diferentes dominios.11
OntologíasRDF Schema:Hace accesible la información semántica para las máquinas.Es un lenguaje de ontologías simple.Componentes: clases y propiedades específicas.OWL (Ontology Web Language):Es un lenguaje de ontologías completo.Hay tres versiones con diferente nivel de complejidad: completo, DL y LiteSe basa en DAML + OIL (DARPA AgentMarkupLanguage + OntologyInferenceLayer) http://www.xml.com/pub/a/2002/01/30/daml1.html12
Las bibliotecas y la web semánticaLos catálogos utilizan tres tipos de metadatos:DescriptivosAutoridadMateriaOntologías para datos bibliográficos:DublinCoreBIBLOFRBRSKOS13
SKOSSKOS (Simple KnowledgeOrganizationSystem):Ontología con RDF para representar materia.Vocabulario para representar vocabularios controlados en RDF.Proporciona sinónimos y posibles erratas de un término.Describe relaciones jerárquicas (término general – término específico, …es parte de…, …es una clase de…).El catálogo Libris, de la Biblioteca Nacional Sueca, es un ejemplo de aplicación de SKOS: http://libris.kb.se/?language=en14
Linked dataAproximación a la web semántica pragmática, ‘bottom up’.Identifica los objetos mediante URIs y HTTP.Proporciona información útil mediante estándares RDF, SPARQL, y enlaces a otras URIs para descubrir más cosas relacionadas.Es una buena solución al problema de los ‘silos’ de información.Responde a la filosofía Open data, datos que deberían ser accesibles universalmente: mapas, fórmulas, genomas, gobierno, hechos, biblioteca pública…15
Linking Open Data-projectConsiste en convertir datos con licencias libres a RDF.Datos de las bibliotecas como linked open data:Libris (Bibl. Nac. Suecia)LCSHVIAF (Virtual International AuthorityFile) OCLCDewey Decimal Classification OCLCDeutsche Nationalbibliothek: enlazar los datos de todas las bibliotecas del país y de las bibliotecas nacionales de Suiza y Austria.British LibraryDBpedia: proyecto para la extracción de datos de Wikipedia para proponer una versión Web semántica. Liderado por la Universidad de Leipzig, Universidad Libre de Berlín y la compañía OpenLink Software. 16

Tecnologías de la web semántica

  • 1.
    Tecnologías de laweb semántica: XML, RDF, OWLNotas de la sesión de NilsPharo “XML and informationdiscovery - thesemantic web approach”FacultatBiblioteconomia i Documentació - Universitat de Barcelona 6 mayo 2011 1
  • 2.
    ÍndiceLa web semánticaXMLRDFOntologíasLasbibliotecas y la web semánticaSKOSLinked data2
  • 3.
    La web semántica¿Porqué necesitamos una web semántica?Cuando buscamos en Internet obtenemos demasiado ruido.“Barcelona FC” en Google da 160 mill de resultados!La mayor parte de estos resultados es irrelevanteEl problema de los silos de información:Muchos sistemas no se conectan entre sí para compartir información relacionada y el usuario ha de entrar en cada uno de ellos para ir recuperando fragmentos de información.Los usuarios finales han de recoger, comparar, interpretar y conectar la información de diferentes sistemas.3
  • 4.
    La web semánticaEnunciadapor Tim Berners-Lee en 1999:“Tengo un sueño para la Web, en el que las computadoras serán capaces de analizar todos los datos en la red – el contenido, los links y las transacciones entre las personas y las computadoras. Una ‘Web Semántica’, que debería hacer esto posible, tiene que emerger, pero cuándo lo haga, los mecanismos habituales de intercambio, burocracia y nuestras vidas cotidianas serán manejadas por maquinas capaces de hablar entre ellas. Lo que la gente de los ‘agentes inteligentes’ han vendido durante siglos finalmente se hará realidad”. La web semántica puede ser una solución parcial.Muy dependiente del dominio. 4
  • 5.
    La web semánticaCaracterísticas:AgentesinteligentesWeb para aplicacionesExtensión de la WebUna Web de datos5
  • 6.
    Tecnologías de laweb semánticaDesarrolladas por el W3CEstándaresXML (Extensible MarkupLanguage)RDF (ResourceDescription Framework) Ontologías:RDF schemaOWL (Ontology Web Language)6
  • 7.
    xmlEs la piezabásicaRepresenta los metadatos internos del documentoLas etiquetas incorporan valor semántico<?xmlversion=" 1.0 " encoding=" UTF-8 " standalone= " yes "?><ficha><nombre> Nils </nombre><apellido> Pharo </apellido><empresa> Oslo UniversityCollege</empresa></ficha>7
  • 8.
    RDFEs un modelode datos independiente del dominio.Describe recursos usando ‘tripletes’Un triplete tiene la forma sujeto-propiedad-valor* NilsPharois a teacher at Oslo UCLos elementos del triplete se identifican preferentemente mediante una URI, por ejemplo:Una persona, NilsPharo, identificado por http://www.w3.org/People/EM/contact#meUna propiedad, mailbox, identificado porhttp://www.w3.org/2000/10/swap/pim/contact#mailboxUn valor, mailto:np@uc.edu8
  • 9.
    RDF Utiliza sintaxisbasada en XML: RDF/XMLEjemplo:<rdf:RDFxmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <rdf:Descriptionrdf:about="http://en.wikipedia.org/Tony_Benn"> <dc:title>Tony Benn</dc:title> <dc:publisher>Wikipedia</dc:publisher> </rdf:Description></rdf:RDF>xmlns y una URL indica un vocabulario donde se encuentran los términos de lo que se describe9
  • 10.
    OntologíasHacen posible la‘ingeniería del conocimiento’Componentes:Instancias (individuos, entidades, cosas)ClasesPropiedadesRelacionesReglas y restricciones10
  • 11.
    Ontologías Las instancias sonlos ejemplares de una clase: *’NilsPharo’ es una instancia de la clase ‘persona’Las instancias pueden formar parte de diferentes clases.Las clases pueden contener otras clases.En una estructura de relación jerárquica, las propiedades son hereditarias.Las reglas y restricciones tienen como objetivo evitar inferencias ilógicas, especificar cardinalidad y clarificar aspectos de clases específicas, p.e.: un mes no puede tener más de 31 días.Las ontologías pueden ser:De dominio, cuando describen un dominio específico: el cuerpo humano, las bibliotecas…Ontologías superiores (top ontologies), para describir conceptos compartidos por diferentes dominios.11
  • 12.
    OntologíasRDF Schema:Hace accesiblela información semántica para las máquinas.Es un lenguaje de ontologías simple.Componentes: clases y propiedades específicas.OWL (Ontology Web Language):Es un lenguaje de ontologías completo.Hay tres versiones con diferente nivel de complejidad: completo, DL y LiteSe basa en DAML + OIL (DARPA AgentMarkupLanguage + OntologyInferenceLayer) http://www.xml.com/pub/a/2002/01/30/daml1.html12
  • 13.
    Las bibliotecas yla web semánticaLos catálogos utilizan tres tipos de metadatos:DescriptivosAutoridadMateriaOntologías para datos bibliográficos:DublinCoreBIBLOFRBRSKOS13
  • 14.
    SKOSSKOS (Simple KnowledgeOrganizationSystem):Ontologíacon RDF para representar materia.Vocabulario para representar vocabularios controlados en RDF.Proporciona sinónimos y posibles erratas de un término.Describe relaciones jerárquicas (término general – término específico, …es parte de…, …es una clase de…).El catálogo Libris, de la Biblioteca Nacional Sueca, es un ejemplo de aplicación de SKOS: http://libris.kb.se/?language=en14
  • 15.
    Linked dataAproximación ala web semántica pragmática, ‘bottom up’.Identifica los objetos mediante URIs y HTTP.Proporciona información útil mediante estándares RDF, SPARQL, y enlaces a otras URIs para descubrir más cosas relacionadas.Es una buena solución al problema de los ‘silos’ de información.Responde a la filosofía Open data, datos que deberían ser accesibles universalmente: mapas, fórmulas, genomas, gobierno, hechos, biblioteca pública…15
  • 16.
    Linking Open Data-projectConsisteen convertir datos con licencias libres a RDF.Datos de las bibliotecas como linked open data:Libris (Bibl. Nac. Suecia)LCSHVIAF (Virtual International AuthorityFile) OCLCDewey Decimal Classification OCLCDeutsche Nationalbibliothek: enlazar los datos de todas las bibliotecas del país y de las bibliotecas nacionales de Suiza y Austria.British LibraryDBpedia: proyecto para la extracción de datos de Wikipedia para proponer una versión Web semántica. Liderado por la Universidad de Leipzig, Universidad Libre de Berlín y la compañía OpenLink Software. 16