La Web Semántica: hacia un futuro web más inteligente

La Web Semántica¡Colaboremos todos juntos para un ‘futuro web’ más cómodo! Javier Porras Castaño 05/07/2010 Máster Oficial en Tecnologías de la Información y Sistemas Informáticos Sistemas Multiagente 1

¿Por qué elegir este tema?. Situación y Problemas de la Web Actual. Solución: La Web Semántica. Tecnologías que le darán soporte. ¿Qué se hace en la actualidad (linked data)? Proyecto para aplicarlo en mi trabajo. Agenda 2

Descubrí el término de Web Semántica, por primera vez en la asignatura. “Proporciona un entorno donde los agentes de software (aplicaciones) viajarán de página en página para satisfacer las necesidades de los usuarios (petición de información) de forma automática y sin intervención de éstos”. ¿Cómo se lleva a cabo? ¿Por qué he elegido este tema? 3

Hoy día, casi cualquier información se puede encontrar en Internet. Se ha mitificado, si no está en la red, no existe. Muy difícil medir el tamaño de la Web: entre 14 y 28 millones de libros: mucha información. Gracias a los buscadores, encontramos información. A un golpe de clic: información, compra de productos, servicios, formación, trabajo… Situación de la Web Actual 4

Esta abundancia de información ocasiona problemas. La información en la Web es heterogénea. Las páginas están escritas en HTML: sólo es semánticamente entendible por humanos. Al carecer de una semántica explícita, no se pueden automatizar procesos. Situación de la Web Actual 5

Los dos problemas más significativos de la Web actual son: 1) La dificultad para encontrar información 2) El intercambio de información entre distintos sistemas. Problemas de la Web actual 6

La Web actual carece de semántica. Por tanto, no existe una infraestructura software que haga que la información pueda ser entendida por máquinas. Ejemplo: búsqueda de los bancos existentes en España: introduce banco. Responde: entidades financieras, asientos, bancos de peces…; pone de manifiesto que no entiende lo que se le pide. El usuario sabe qué tipos de bancos busca, pero no tiene forma de indicarlo de forma explícita al buscador. 1) Dificultad encontrar información 7

Los buscadores buscan por palabras claves (por coincidencia): un problema con las palabras polisémicas o sinónimas. Consecuencia: debemos leer muchas páginas hasta encontrar lo que buscamos: pérdida de tiempo. Si hubiese semántica, los buscadores encontraría no sólo lo que le pedimos, sino todo lo relacionado (sinónimos). El problema está en el lenguaje HTML: sólo indica como se debe mostrar la información pero no ofrece mecanismos para indicar semántica. 1) Dificultad encontrar información 8

En conclusión, el usuario que busca información en la Web tiene dos problemas: 1)Escasa precisión de los resultados. 2)Alta sensibilidad al vocabulario empleado en la búsqueda. Solución: añadir metadatos: información que describe los contenidos que muestra la página. 1) Dificultad encontrar información 9

Ejemplo: queremos comprar una impresora a través de la Red; buscamos modelo y precio. Si cada tienda virtual, incluyese un metadato Precio por cada impresora, los navegadores tendrían más fácil su trabajo. Las páginas que tengan el modelo de impresora pero no el metadato Precio, no serían devuelta como resultado. Es imposible que todas las tiendas virtuales del mundo utilicen como metadato Precio (puede ser, Coste, Precio, Price, Prix….) Los metadatos son necesarios, pero no suficientes. 1) Dificultad encontrar información 10

Por tanto, para realizar búsquedas eficientes de información, se requiere: 1) Incluir metadatos 2) Que los metadatos sean comunes para todos los portales (ejemplo Precio). El navegador debe saber que los metadatos Precio, Coste, Valor, Price, Prix… hacen referencia al mismo metadato). 1) Dificultad encontrar información 11

En la Web actual no existen mecanismos para la interoperabilidad completa de distintos sistemas de información Desde hace algunos años el principal reto de las empresas es el intercambio de información con otras. Las Web actúa como un medio de transporte barato, pero no proporciona ningún protocolo de intercambio. 2) Intercambio de información 12

En la actualidad el entendimiento entre empresas, es mediante una persona humana que interpreta los documentos de la empresa origen, con un previo acuerdo. Que una empresa haga un pedido a otra vía Web, no tiene ninguna diferencia con hacerlo de forma telefónica o fax. Al final requiere de que una persona humana lo interprete y lo lleve a cabo. Lo ideal sería: que una empresa haga de forma automática pedidos a otra empresa. Ahorro de coste, evitar errores humanos en la interpretación. 2) Intercambio de información 13

La Web actual presenta un problema de comunicación e interoperabilidad entre los sistemas de información de distintas empresas. Solución: Crear estructuras de información comunes a un mismo dominio, compartidos por todas. Un concepto debe ser entendido o interpretados por todas de la misma manera. Llevarlo a cabo es muy difícil: poner a todas las empresas de acuerdo es complejo. 2) Intercambio de información 14

La Web Semántica Pretende añadir metadatos a la Web para que las máquinas comprendan el significado de las mismas (semántica). Solución 15

Para los humanos comprender un signo o una palabra no es nada extraordinario. De forma automática y sin esfuerzo. Por sí solas, las palabras son manchas negras en una pantalla o en un papel. Si toman sentido o significado es porque nuestro cerebro se lo otorga. La Web semántica no pretende que las máquinas comprendan como lo hacen los humanos, sino que sean capaces de inferir o deducir conocimiento a partir de una información. La Web Semántica 16

No se debe confundir “deducir o inferir” con inteligencia. Que las máquinas sean inteligentes es algo que todavía no se puede conseguir y la Web Semántica no lo pretende. Tan sólo pretende que sea capaz de aplicar reglas lógicas sobre un dominio de conocimiento para deducir o inferir conocimiento. La Web Semántica 17

Ejemplo: A una máquina se le programa la regla lógica: “Toda persona es un ser vivo” La máquina debería deducir que si Luis es una persona, también es un ser vivo. La máquina NO es inteligente, sólo aplica reglas lógicas para obtener conocimiento. No hay inteligencia: nunca sabrá que es una persona, y no podrá deducir nada que no se derive de las reglas lógicas. La Web Semántica 18

Habilidad de la máquina para resolver un problema bien definido, con operaciones bien definidas sobre datos bien definidos. En lugar de pedir a las máquinas que entiendan el lenguaje humano, prefiere pedir a la gente que hagan un esfuerzo. Representar la información en algún lenguaje formal para extraer inferencia lógica. La Web Semántica 19

Base de la Web Semántica 1) Permite desarrollar lenguajes formales a través de los cuales podemos representar el conocimiento. 2) Proporciona semántica bien definida: cada símbolo o expresión tienen significado único, sin ambigüedad ni contradicciones. 3) Proporciona reglas de inferencia, para extraer el conocimiento. Lógica Descriptiva 20

La Web Semántica pretende: La interpretación semántica automática de documentos: Consiste en la aplicación de reglas lógicas a unos datos representados en un lenguaje formal para extraer el conocimiento. Lógica Descriptiva 21

¿Por qué DL fue escogido como la mejor opción para modelar lógica? Existen muchas formas de representar el conocimiento: redes semánticas, frames… Se elige DL porque está dotada con una semántica formal. Permite definir semántica o metainformación sobre un dominio, de una manera formal. Lógica Descriptiva 22

Se adapta perfectamente al concepto de ontología. Herramienta base de la Web Semántica: define los términos y relaciones que representan un dominio o área de información. Clases, Relaciones e Instancias. Permite especificar formalmente las propiedades de los individuos del dominio y las relaciones entre conceptos: Bases de conocimiento. Lógica Descriptiva 23

1) Permitirá realizar búsquedas como: “Busco todos los mecánicos que tengan su taller a menos de 1 kilómetros de la calle Cayetano Ordoñez (mi calle) y que trabajen para la compañía se Seguros Mafre”. 2) Permitirá el uso de agentes personales encargados de extraer información de múltiples fuentes heterogéneas. Por ejemplo, un agente personal para que me informe de las fechas de los conciertos de Alejandro Sanz o lanzamiento de un nuevo disco. 3) Ante una búsqueda devolverá como resultado todos los conceptos relacionados (ejemplos sinónimos) La Web Semántica del futuro 24

La Web Semántica del futuro 25

Asegura la representación de un carácter y propone distintas maneras de codificarlo en binario. Asigna un único número a cada carácter. Contempla casi todos los idiomas. Permite la interoperabilidad entre sistemas: de cualquier dominio o contexto. Unicode: el alfabeto 27

Identificadores uniformes de recursos. Permiten identificar todos los recursos de la Web Semántica. URI es más amplio y genérico que URL. PROTOCOLO: RUTA PÁGINA EN SERVIDOR ?SOLICITUD#FRAGMENTO La principal diferencia es que las URI permiten identificar cualquier recurso dentro de la Web (formato). URI’s: las referencias 28

El marcado de documentos es una forma primitiva de incluir semántica (metadatos). Etiquetas como <autor> o <precio> ayudan a que los humanos podamos intuir su significado. Para extraer la semántica del documento, hay que leer la DTD o el esquema XML; hoy día únicamente por personas humanas. Para un programa o una máquina las etiquetas carecen de significado. XML: el primer paso 29

Para que las empresas intercambien información de forma automática previamente se han tenido que poner de acuerdo en utilizar los mismos DTD o esquemas XML. Por ejemplo, un sistema que acepte etiquetas <Precio>, no será capaz de interpretar y procesas etiquetas </PrecioUnidad>, aunque sean semánticamente equivalentes. Es necesario, pero no suficiente. XML: el primer paso 30

Marco de descripción de recursos. Lenguaje para representar metadatos propuesto por W3C. Especificar semántica sobre los datos, utilizando XML. Permite intercambiar datos a través de diferentes aplicaciones sin que pierdan significado, lo que facilita la reutilización (linked data). RDF: El pegamento semántico 31

Para definir la semántica, ¿por qué RDF y no XML? El modelo de un dominio puede representarse con varias DTD o varios esquemas XML, y una misma DTD o un esquema XML pueden corresponder a muchos modelos de sistemas de información RDF: El pegamento semántico 32

¿Por qué RDF y no XML? Javier compra la silla de referencia 120, en la compra identificada con el código 112 33

RDF es un modelo de metadatos para describir recursos. Permite: 1) Describir recursos 2) Intercambio de metadatos estructurados 3) Reutilizar metadatos estructurados El W3C proponer RDF para describir recursos Web RDF: El pegamento semántico 36

Para describir recursos se utiliza la tripleta: Recurso o sujeto, Propiedad o predicado y el Valor u objeto: RDF: El pegamento semántico 37

El modelo de datos RDF proporciona un marco abstracto y conceptual para definir y utilizar metadatos, pero resultaría inútil sin una sintaxis concreta para crear e intercambiar metadatos Se trata de XML, y se denomina RDF/XML RDF: El pegamento semántico 38

RDF: El pegamento semántico 39

El aula virtual del centro de profesorado (CEP) de Ronda (Málaga) ha sido creada por Javier Porras Castaño. RDF: El pegamento semántico 40

RDF: El pegamento semántico 41

RDF Schema RDF no se asocia a ningún dominio en particular: se puede emplear en cualquier campo. Cada persona u organización su propia terminología o vocabulario con RDFS. RDFS permite comprobar si un conjunto de tripletas (metadatos) es válido para ese esquema. 42

RDF Schema Ejemplo: carece de sentido que la propiedad “vendeAccionesEnBolsa” tenga como valor “color rojo”. RDFS especifica qué interpretación hay que dar a las sentencias de un modelo de datos RDF y dejan libre la representación sintáctica del modelo (en XML). Un esquema XML puede obligar a que las etiquetas <Producto> estén dentro de las de <Vendedor> pero carece de medios para indicar que hay una relación vende (con RDF sí). 43

Un documento XML carece de semántica mientras que un documento RDF/XML sí posee. En XML la semántica aparece cuando un software procesa una etiqueta que previamente se ha acordado o definido. Sin embargo la semántica en RDFS (RDF/XML) aparece en el propio documento. RDF Schema 44

RDF Schema En resumen, con RDFS podemos definir: 1) Clases 2) Jerarquía de clases 3) Propiedades 4) Jerarquía de propiedades 5) Restricciones sobre los dominios y los rangos 45

RDF Schema Gracias a RDF y RDFS, podemos codificar la semántica en un lenguaje formal que tiene como consecuencias, un conocimiento no ambigua y comprensible por máquinas. Con RDFS ya podemos decir que la Web comienza a tener semántica, por lo que se pueden automatizar tareas. 46

Aplicación RDF y RDFS La aplicación más conocida es RSS. RSS es un vocabulario RDF usado para describir información de manera que pueda ser reutilizada. Su objetivo es distribuir un conjunto de titulares de noticias, llamados canales. 47

RDFS tiene desventajas 1) No se puede representar algunas características de propiedades: transitividad, simetría, inversa o única. 2) No se puede reflejar que dos clases son disjuntas. 3) No permiten reflejar restricciones de cardinalidad. 4) No se pueden declarar restricciones de rango sólo para algunas clases. 49

Ontologías En RDFS no es lo bastante completo para describir los recursos de la Web con el detalle que precisan. Se requieren tecnologías de descripción del conocimiento más avanzados: ontologías. Una ontología define los términos a utilizar para describir y representar un área de conocimiento (W3C). Es una herramienta para compartir información y conocimiento, es decir, conseguir la interoperabilidad. 50

Web Semántica (Ontología) 52

Lenguaje representación de Ontologías El W3C ha desarrollado el lenguaje de definición de ontologías OWL. Es una extensión de RDF. Usa el modelo de tripletas de RDF Mayor poder expresivo. Elimina las deficiencias de RDF. 53

Lenguaje representación de Ontologías OWL se ha dotado de recursos para mejorar la capacidad expresiva de RDF/RDFS. OWL tiene tres sublenguajes, con un nivel de expresividad creciente y que son los siguientes: OWL Lite, OWL DL y OWL Full. 54

¿RDFS o OWL para una ontología? Hay que tener en cuenta y entender que cuánta más expresividad se desee tener en la ontología, más necesidad de cómputo es necesaria para inferir o deducir nueva información. Por tanto, RDFS permite representar ontologías sencillas y razonar de forma eficiente, mientras que OWL permite más expresividad a cambio de menor eficiencia. Por eso, si algo se puede hacer con RDFS no se usa OWL. 55

Herramientas para crear ontologías 1) Protégé http://protege.stanford.edu/ 2) Kaon http://kaon.semanticweb.org/ 3) ORIENT http://www.alphaworks.ibm.com/tech/semanticstk. 56

Aplicaciones de las Ontologías 1) Mejorar búsqueda de información en la Web. 2) Favorecer la interoperabilidad entre distintos sistemas de información. 3) Útiles para organizar sistemas de información. 4) Las ontologías serán recorridas por los agentes inteligentes. 5) Dota de semántica la Web y por tanto se pueden automatizar procesos realizados por máquinas. 57

Reflexiones sobre la Web Semántica 1) El paso de la Web actual a Semántica requiere todavía un tiempo considerable. 2) La creación de ontologías consensuadas dista mucho de ser una tarea rápida. 3) Algunos piensan que requiere un esfuerzo inútil. En mi opinión es muy complicado que todo el mundo añada semántica a sus web. 58

¿Qué se está haciendo realmente? En la actualidad, se están utilizando todos estos conceptos para dar origen a la: Web de Datos Enlazados (Linked Data) ,[object Object]

Consiste en explotar la Web como un espacio global de información en el que la navegación se realiza a través de datos estructurados enlazados, en vez de realizarse a través de documentos.59

Web de Datos Enlazados Pasar de una Web basada en documentos HTML, en la que el usuario es el destinatario de la información publicada, a una Web de Datos Enlazados que están expresados en RDF, en la que los agentes software pueden explotar estos datos de forma automática, utilizando el vocabulario consensuado que ofrece la ontología del dominio sobre el que actúan. El valor y la utilidad de los datos enlazados es mayor tanto en cuanto éstos estén más interconectados con otros datos en la Web de Datos. 60

¿Cómo generar Datos Enlazados? 1) Identificar qué información se publicará de forma abierta como datos enlazados. 2) Los datos seleccionados se abren y publican en un formato reutilizable por todos, migrando la información almacenada en bases de datos, ficheros, hojas de cálculo, etc. al lenguaje RDF. 3) Los datos transformados se enlazan con otros datos ya disponibles en la Web de Datos. Fundamental para incrementar la conectividad de los datos generados, permitiendo la recuperación y la agregación de información relacionada. 61

Uso de los Datos Enlazados La cantidad de datos enlazados publicados en la Web de Datos ha experimentado un enorme crecimiento en los últimos años. La lista de recursos ya disponibles en Linked Datacrece día a día. El mayor auge hasta ahora se ha producido en el contexto de la publicación de datos del sector público. Se está extendiendo a: medios medios de comunicación, infraestructuras y logística, el ámbito universitario y científico y el de los datos geográficos. 62 http://www.aelid.es/

Aplicación de lo aprendido He planteado al departamento de I+D+i de Unicaja, un proyecto para organizar el repositorio de documentación que tenemos en nuestro grupo de desarrollo de Cajeros, a través de la creación de una ontología. El volumen de información de este repositorio crece cada día más (nuevos fabricantes, nuevas funcionalidades…) y cada vez se hace más inmanejable y perdemos más tiempo en la búsqueda de documentación. 63

¿Cómo? 1) Crear la ontología con los conceptos, propiedades y relaciones específicas del dominio de documentación del que disponemos. 2) Implementar en Java un programa que mantenga una asociación (a modo de tabla) entre los documentos y su conjunto de anotaciones (conjunto de conceptos de la ontología). <nombre documento, conjunto palabras clave semánticas> Por ejemplo: en la ontología del equipo de fútbol creado (Equipo.owl), imaginemos que tengo un .doc sobre la biografía de Sergio Ramos. Consiste en anotar que ese documento va sobre la instancia creada de Sergio Ramos o incluso sobre el concepto “Lateral Derecho”, con lo cual al buscar por futbolista defensas o laterales derechos, debería deducir que ese documento es importante. 64

La Web Semántica: hacia un futuro web más inteligente

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (6)

Destacado

Destacado (6)

Similar a La Web Semántica: hacia un futuro web más inteligente

Similar a La Web Semántica: hacia un futuro web más inteligente (20)

Último

Último (16)

La Web Semántica: hacia un futuro web más inteligente