TIC APLICADA A LA
HISTORIA DEL ARTE
6 - Repositorios y Gestión de Activos
Digitales
6.2 Metadatos
Repositorios y Gestión Activos
Digitales
Contenidos  Metadatos
 Definiciones
 Organización del conocimiento
 La Web
 ...
Recursos
 Recurso: Cualquier cosa, concreta o
abstracta
 Concretos: libro, obra de arte, foto, página web, ...
 Abstrac...
Dato
 Dato: Un valor cualquiera, un símbolo
 No es verdadero ni falso
 Ejemplos: "1984", "verde"
 Nivel de abstracción...
Información
 Información: Valor asociado a una
interpretación
 Puede ser verdadero o falso según interpretación
 Interp...
Conocimiento
 Información adquirida por un agente
 Ejemplo: "Ana sabe que el árbol de su casa es
verde"
 Tradicionalmen...
Organización del conocimiento
 Catalogación
 Metadatos
 Clasificación facetada
 Vocabularios controlados
 Modelos ent...
Catalogación
 Proceso de indexar un recurso para que
pueda ser encontrado posteriormente
 Objetivo: Facilitar búsqueda y...
Sistemas de catalogación:
evolución
 Orígenes: archivos y bibliotecas
 Más de 4000 años de antigüedad
 3 etapas
 Catál...
Evolución de la Web
 Crecimiento casi exponencial
Fuente: Netcraft webserver survey
http://www.facebook.com/note.php?note_id=76191543919
http://beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on...
Catálogos en la Web
 Estamos en la era de los datos en la Web
 Catálogos en el s. XXI
 Si no está en la Web, no está
 ...
Catalogación y Metadatos
 Metadatos
 Etimológicamente: "Datos acerca de otros datos"
 Otra definición:
 "Información e...
Tipos de metadatos
 Descriptivos: describen un recurso
 Título, autor, lugar,...
 Estructurales: relaciones entre objet...
Proceso de metadatos
 Metadatos deben ser procesables
automáticamente
 Generación
 Almacenamiento, catalogación
 Trans...
Sintaxis para metadatos
 Solución de compromiso
 Procesado automático por ordenadores
 Manipulación por personas
001010...
Codificaciones
 MARC (MAchine Readable Cataloging)
 Utilizado para información bibliográfica
001010000100
100010010010
0...
Vocabularios controlados
 Tesauro
 Utilizado para clasificación
001010000100
100010010010
010000010001
Formato ideal For...
Lenguajes de marcado
 Mezclan texto en lenguaje natural con marcas
 Las marcas proporcionan metadatos
 Lenguajes genéri...
RDF
 Modelo de grafo.
 Base para Web Semántica
 Varias sintaxis procesables automáticamente
001010000100
100010010010
0...
Estándares para metadatos
 Clasificación facetada
 Vocabularios controlados
 Clasificación facetada, vocabularios contr...
Clasificación facetada
 Facetas: atributos de un recurso
 Ejemplo: color, resolución, estilo,...
 Permite búsqueda de r...
Vocabularios controlados
 Disposición organizada de palabras o frases
 Permiten indexar/buscar/recuperar recursos
 Norm...
Conjuntos de términos
 Definen un conjunto de términos y propiedades
que se pueden asignar a un recurso
 Ejemplo: Dublin...
Encabezamientos de materia
 Listas subject/heading
 Ejemplos:
 LEMBP: lista encabezamientos bibliotecas
públicas
 LCSH...
Enumeraciones
 Una enumeración es una lista de términos
 Preferiblemente únicos
 Suelen aparecer como listas desplegabl...
Anillos de sinónimos
 Una lista que incluye conjuntos de términos
que son equivalentes
 Utilizada para búsquedas y recup...
Taxonomías
 Clasificación ordenada de un dominio
 Cuerpo de conocimiento dividido en categorías
Tesauro
 Lista de términos y relaciones
 Jerárquicas: todo/parte, ámbito más
amplio/estrecho
 Equivalencias: sinonimia,...
SKOS
 SKOS = Simple Knowledge Organization
System
 Lenguaje para definir tesauros y vocabularios
controlados
 Sintaxis ...
Modelos entidad-relación
 Técnica para describir bases de datos
 Entidades: pueden identificarse de forma única
 Relaci...
FRBR
 FRBR - Functional Requirements for Bibliographical
Records
 Modelo entidad-relación
 Desarrollado por IFLA (Asoci...
Ontologías
 Definición formal del conocimiento de un
dominio
 Objetivo: representación de conocimiento
 Contiene
 Voca...
Folksonomías
 Etiquetado colaborativo
 Semántica emergente
 Sabiduría de las masas
Fuente: http://blog.ponoko.com/2008/...
La Web
 Mayor almacén de información jamás recopilado
por la humanidad
 Acceso casi instantáneo desde cualquier lugar
 No cent...
Pilares de la Web
 3 pilares
 Protocolo: HTTP
 Identificación: URIs
 Formatos de representación: HTML, JSON, XML,
...
...
Funcionamiento de la Web
Usuario Navegador
Cliente
Servidor
URI
Representación
WWW
HTTP
 Protocolo HTTP:
 Cliente (petic...
Protocolo HTTP
 HTTP (Hypertext transfer protocol):
 Arquitectura cliente/servidor (petición / respuesta)
 Conjunto de ...
URIs
URI = Identificación de recurso
Recurso = Unidad básica, Cualquier cosa
URI ≠ Recurso ≠ Representación
URI http://tie...
¿Qué se puede identificar con una
URI?
 Cualquier cosa concreta o abstracta
http://www.uniovi.es
<!DOCTYPE html>
<html>
<...
¿Qué se puede identificar con una
URI?
 Cualquier cosa concreta o abstracta
http://www.di.uniovi.es/~labra/images/asturia...
¿Qué se puede identificar con una
URI?
 Cualquier cosa concreta o abstracta
http://www.w3.org/People/Berners-Lee/card#i
i...
¿Qué se puede identificar con una
URI?
 Cualquier cosa concreta o abstracta
http://xmlns.com/foaf/0.1/Person
identifica
E...
¿Qué se puede identificar con una
URI?
 Cualquier cosa concreta o abstracta
http://purl.org/dc/terms/creator
identifica
E...
¿Qué se puede identificar con una
URI?
 Cualquier cosa concreta o abstracta
http://purl.org/dc/terms
identifica
Ejemplo: ...
Dereferenciación
 Dereferenciar URI = Acceder al contenido de URI
 Obtener una representación del recurso identificado p...
Estabilidad de las URIs
 URIs = base de cualquier aplicación Web
 Objetivo: Esquema de URIs estable
 Lema: Cool URIs do...
FORMATOS DE
REPRESENTACIÓN
Formatos de representación
 En la Web, el formato más habitual es HTML
 Existen muchos más: XML, JSON, RDF, PNG, …
 Un ...
HTML
 Tipo de representación más popular en la Web
 Objetivo: representar hipertexto
 Ejemplo:
<!DOCTYPE html>
<html>
<...
XML
 Lenguaje de marcado generalizado
 Objetivo: intercambio de información
 Procesamiento automático y comercio electr...
Tipos de representación
 Los tipos de representación se identifican con
MIME
 MIME (Multipurpose Internet Mail Extension...
Funcionamiento de la Web
 2 computadores conceptuales: Cliente y
Servidor
 La representación puede calcularse
dinámicame...
Cliente
 También se conoce como Agente de Usuario
 Normalmente es un navegador (browser)
 Múltiples tipos de agentes de...
Componentes de un navegador
 Interfaz
 Analizador
 Motor visualización
 Intérprete ECMAScript: procesa eventos
Usuario...
Motor de visualización
 A veces los navegadores comparten el
mismo motor de visualización (rendering
engine)
Navegadores ...
Componentes de un Servidor
 La arquitectura del servidor suele
descomponerse en varias capas
 Vista: Se encarga de prepa...
Razones para publicar datos
Datos abiertos
Razones para liberar datos
 Facilitan la investigación
 Tasa de descubrimiento se
acelera con mejores
accesos a los dato...
Razones para liberar datos
 Los sistemas abiertos facilitan las contribuciones
externas
Razones para liberar datos
 Trasparencia
 Fomentar participación
 Generar confianza
 Evaluar al gobierno
Como ciudadanos…
 …también podemos demandar datos
abiertos…
…demandar datos abiertos
 Cuando pertenecen a la humanidad
…demandar datos abiertos
 Hechos independientes y verificables ó de
conocimiento común
 Ejemplo: conocimiento científico
…demandar datos abiertos
 Cuando han sido creados
con dinero público
 Los hemos pagado con
nuestros impuestos
 ¡Son nue...
OK, ¡vivan los datos abiertos!
pero…
 El mayor reto = Integración
 En general, el problema no es informatizar algo
 El problema es integrar los sistemas
 I...
Modelo de Estrellas *
★ Publicar los datos en la Web
(en cualquier formato)
★★ Utilizar formato estructurado
(Excel en lug...
Formatos no
estructurados
 Formatos “caja negra”: Imágenes, vídeos,
música, etc.
 Formatos binarios: PDF, PS, etc.
 Req...
Ejemplo:
Servicio Público de Empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/
★
Formatos estructurados
 Los datos tienen una estructura
 Pueden procesarse automáticamente
 Ejemplo: Hojas de cálculo
...
Ejemplo: Servicio Público de
empleo
http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/9
★ ★
Formatos no
propietarios
 Formatos abiertos estructurados
 Ejemplos: CSV, HTML
 Pueden manipularse de forma
independien...
 CSV: Valores delimitados por comas
★ ★ ★Ejemplo: CSV
URIs para identificar
datos
 Utilizar URIs para identificar datos
 Negociación de contenido
★ ★ ★ ★
Ejemplo: RDF ★ ★ ★ ★
<http://www.sepe.es/datos/desempleo/Asturias/Allende/2013/10>
HTML?
@prefix sepe: <http://www.sepe.es...
Enlazar con otros datos
 Las representaciones enlazan con otros
datos
 Reutilización de datos
★ ★ ★ ★ ★
Ejemplo: RDF bien enlazado★ ★ ★ ★ ★
<http://www.sepe.es/datos/desempleo/Asturias/Allende/2013/10>
HTML?
@prefix sepe: <htt...
Principios de Linked Open
Data
 1. Utilizar URIs para denotar cosas
 2. Permitir que las URIs sean dereferenciables
 3....
Linking Open Data
(2007)
★ ★ ★ ★ ★
Linking Open Data
(2008)
★ ★ ★ ★ ★
Linking Open Data
(2009)
★ ★ ★ ★ ★
Linking Open Data
(2010)
★ ★ ★ ★ ★
Linking Open Data
(2011)
★ ★ ★ ★ ★
Web Semántica
Propuesta de la Web semántica (Tim Berners-Lee):
“disponer datos en la Web definidos y enlazados
de forma qu...
Web Semántica
Características de la Web...
No centralizada: problemas para garantizar integridad de la
información)
Inform...
Tarta de la Web
URIUnicode
XML + Namespaces + XML Schema
Demostración
RDF + RDF Schema
Ontologías
Lógica
Confianza
Versión...
Cambios en la tarta…
URIUnicode
XML
Intercambio de datos: RDF
Consultas:
SPARQL
Lógica unificadora
Confianza
RDF Schema
On...
RDF
 Resource Description Framework (1998)
 Descripción de recursos
 Recurso = se identifica con URI
 Se basa en tripl...
Tripletas RDF
http://purl.org/dc/elements/1.1/creator
Sujeto
Puede ser:
URI
Nodo anónimo (bNode)
Predicado
Identificado po...
Grafo RDF
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix uni: <http://uniovi.es/> .
@prefix dc: <htt...
RDF es composicional
uni:quimica
uni:ana
dc:creator
uni:luisdc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creat...
RDF es composicional
uni:quimica
uni:ana
dc:creator
uni:luisdc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creat...
RDF es composicional
uni:quimica
uni:ana
dc:creator
uni:luis
dc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:crea...
Formatos RDF
 Existen varios formatos:
 N3
 RDF/XML
 N-Triples
 Turtle
 etc.
SPARQL
 Simple Protocol and RDF Query Language
 Lenguaje de consultas para la web semántica
 Encaje de grafos
 Extrae ...
SPARQL
 Ejemplo:
 Buscar páginas cuyo autor sea un profesor
prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
pr...
Encaje de grafos
SELECT ?p ?c WHERE {
?p dc:creator ?c .
?c rdf:type uni:Profesor .
}
uni:quimica
uni:ana
dc:creator
uni:l...
RDF Schema
 Extiende RDF con un vocabulario de esquema
 Class, Property, Resource,…
 type, subClassOf, subPropertyOf,…
...
RDF Schema
rdf:type
uni:Profesor
rdfs:subClassOf
uni:Persona
Ejemplo
uni:juan
rdf:type
SPARQL + Inferencia
 Combinar SPARQL e inferencia
 Ejemplo:
 Páginas cuyo autor sea una persona
@prefix rdf: <http://ww...
uni:quimica
uni:ana
dc:creator
uni:luis
dc:creator
uni:Becario
rdf:type
uni:biologia
uni:juan
dc:creator
dc:creator
uni:Pr...
Ontologías
 RDF Schema permite hacer inferencias
sencillas
 Limitaciones de expresividad
 OWL (Web Ontology Language)
...
Mitos de la Web Semántica
 Navegador inteligente
 Una nueva Web
 El cerebro global
 La gran verdad: Una única ontologí...
El navegador inteligente
 Mito:
 El objetivo es conseguir sistemas que naveguen
por internet de forma inteligente
 Real...
Una nueva Web
 Mito:
 La Web Semántica ( Web 3.0) es una nueva
versión de la web que obligará a cambiar todo lo
que ya ...
El cerebro global
 Mito:
 El proyecto de la Web semántica generará un
cerebro global
 Realidad:
 La web semántica faci...
La gran verdad
 Mito:
 Se propone la creación de una única ontología
con todo el conocimiento de la humanidad
 Realidad...
Una etiqueta para cada cosa
 Mito:
 El objetivo es asignar una etiqueta similar a RFID
para cada cosa
 Realidad
 No es...
Nadie querrá compartir datos
 Mito:
 Los proveedores de información no tendrán
motivación para adoptar tecnologías nueva...
Demasiada apertura
 Mito:
 Si se sacan los datos de las bases de datos, se
pierden
 Realidad:
 Tecnologías para limita...
Moda pasajera
 Mito:
 Mito1: La Web semántica es algo nuevo
 Mito 2: La Web semántica es algo viejo
 Realidad:
 Plant...
No hay killer application
 Mito:
 No se ha desarrollado una killer application
 Realidad:
 ¿Es necesaria?
 ¿Podría se...
Retos de la Web Semántica
 Escalabilidad
 ¿Dónde están los agentes?
 Privacidad y seguridad
 Confianza
 Manejar ambig...
Metadatos
CDWA
VRA
CCO
Proyectos
Open Archives Initiative
Europeana
Aplicaciones en Historia del
Arte
CDWA
 Categories for the description of Works of Art
 Financiado por fundación Getty
 31 categorías, +380 subcategorías...
VRA
 VRA (Visual Resources Association)
 Creado en 2007
 Descripción de imágenes y objetos culturales
 Vocabulario XML...
CCO
 Cataloging Cultural Objects
 Vocabulario XML
 Contenido de datos
Open Archives
 Objetivo: Interoperabilidad de bienes
culturales
 Comienza en Cornell
 Basado en XML
Europeana
 Proyecto europeo
 Desripción semántica de catálogos de obras de
arte
 Utilización de RDF y Linked Data
Metadatos y Web Semántica
Próxima SlideShare
Cargando en…5
×

Metadatos y Web Semántica

638 visualizaciones

Publicado el

Tema sobre Metadatos y Web semántica
Asignatura: TIC en Historia del Arte
Universidad de Oviedo

Publicado en: Internet
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
638
En SlideShare
0
De insertados
0
Número de insertados
8
Acciones
Compartido
0
Descargas
10
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

Metadatos y Web Semántica

  1. 1. TIC APLICADA A LA HISTORIA DEL ARTE 6 - Repositorios y Gestión de Activos Digitales 6.2 Metadatos
  2. 2. Repositorios y Gestión Activos Digitales Contenidos  Metadatos  Definiciones  Organización del conocimiento  La Web  La Web Semántica  Aplicaciones para Historia del Arte
  3. 3. Recursos  Recurso: Cualquier cosa, concreta o abstracta  Concretos: libro, obra de arte, foto, página web, ...  Abstractos: una colección, un estilo, un conjunto, ... Recurso Un árbol Recurso Una foto Recurso Un álbum de fotos
  4. 4. Dato  Dato: Un valor cualquiera, un símbolo  No es verdadero ni falso  Ejemplos: "1984", "verde"  Nivel de abstracción más bajo  Puede pertenecer a un conjunto  Fecha, nº habitantes, colores verde
  5. 5. Información  Información: Valor asociado a una interpretación  Puede ser verdadero o falso según interpretación  Interpretación: asignación de significado en un contexto  "La Regenta fue publicada en 1984"  "El árbol de mi casa es de color verde"
  6. 6. Conocimiento  Información adquirida por un agente  Ejemplo: "Ana sabe que el árbol de su casa es verde"  Tradicionalmente el agente era una persona  Pero el agente también puede ser una máquina Recursos Agente Conocimiento
  7. 7. Organización del conocimiento  Catalogación  Metadatos  Clasificación facetada  Vocabularios controlados  Modelos entidad-relación  Ontologías  Folksonomías
  8. 8. Catalogación  Proceso de indexar un recurso para que pueda ser encontrado posteriormente  Objetivo: Facilitar búsqueda y recuperación del recurso  Catalogación = Gestionar metadatos de un recurso
  9. 9. Sistemas de catalogación: evolución  Orígenes: archivos y bibliotecas  Más de 4000 años de antigüedad  3 etapas  Catálogos como colecciones impresas  Estaban desfasados en el mismo momento de su impresión  Tarjetas  Charles A. Cutter (1876)  Uso masivo en s. XX  Catálogos en la Web  s. XXI
  10. 10. Evolución de la Web  Crecimiento casi exponencial Fuente: Netcraft webserver survey
  11. 11. http://www.facebook.com/note.php?note_id=76191543919 http://beerpla.net/2008/08/14/how-to-find-out-the-number-of-videos-on-youtube/ Datos y datos...  Facebook: 250.000 millones fotos (2012)  Youtube: 100 horas de video subidas cada minuto  Twitter: 218 millones de usuario activos  Flickr: 518 millones de fotos subidas en 2012  ... Fuente: http://www.coverpop.com/pop/flickr_interesting
  12. 12. Catálogos en la Web  Estamos en la era de los datos en la Web  Catálogos en el s. XXI  Si no está en la Web, no está  Catalogación vs Posicionamiento  Si está en la Web, pero no se encuentra, no está  Catálogos Web = publicación de metadatos  Algunos Problemas/retos:  Ingentes cantidades de datos  Confianza y Sistemas abiertos
  13. 13. Catalogación y Metadatos  Metadatos  Etimológicamente: "Datos acerca de otros datos"  Otra definición:  "Información estructurada que describe ó explica un recurso" Autor: Juan Torres Lugar: Jardín de su casa Álbum: Personal Fecha: 22/02/2013 Resolución: 5Mpx Metadatos Recurso
  14. 14. Tipos de metadatos  Descriptivos: describen un recurso  Título, autor, lugar,...  Estructurales: relaciones entre objetos  Colección, álbum, ...  Administrativos: ayudan a gestionar el recurso.  Fecha, nº de versión, derechos digitales, etc. Autor: Juan Torres Lugar: Jardín de su casa Álbum: Personal Fecha: 22/02/2013 Resolución: 5Mpx Metadatos Recurso
  15. 15. Proceso de metadatos  Metadatos deben ser procesables automáticamente  Generación  Almacenamiento, catalogación  Transmisión  Búsqueda Metadatos Autor: Juan Torres Lugar: Jardín de su casa Álbum: Personal Fecha: 22/02/2013 Resolución: 5Mpx Fotos de jardines en invierno 胡安花園照片
  16. 16. Sintaxis para metadatos  Solución de compromiso  Procesado automático por ordenadores  Manipulación por personas 001010000100 100010010010 010000010001 Formato ideal Formato ideal El texto en lenguaje natural es el formato ideal para tí...
  17. 17. Codificaciones  MARC (MAchine Readable Cataloging)  Utilizado para información bibliográfica 001010000100 100010010010 010000010001 Formato ideal Formato ideal El texto en lenguaje natural es el formato ideal para tí... MARC
  18. 18. Vocabularios controlados  Tesauro  Utilizado para clasificación 001010000100 100010010010 010000010001 Formato ideal Formato ideal El texto en lenguaje natural es el formato ideal para tí... Tesauro
  19. 19. Lenguajes de marcado  Mezclan texto en lenguaje natural con marcas  Las marcas proporcionan metadatos  Lenguajes genéricos: SGML, XML 001010000100 100010010010 010000010001 Formato ideal Formato ideal El texto en lenguaje natural es el formato ideal para tí... XML <work> <artist id="23">Leonardo da Vinci</artist> <title>La Gioconda</title> <commentarios>Pudo haber sido realizado por <artist id="24">Miguel Ángel</artist> </comentarios> </work>
  20. 20. RDF  Modelo de grafo.  Base para Web Semántica  Varias sintaxis procesables automáticamente 001010000100 100010010010 010000010001 Formato ideal Formato ideal El texto en lenguaje natural es el formato ideal para tí... RDF http://museo.org/obras/23 2 Leonardo da Vinci La Gioconda http://museo.org/autores/4 3 http://xmlns.com/foaf/0.1/namehttp://purl.org/dc/elements/1.1/author http://purl.org/dc/elements/1.1/title
  21. 21. Estándares para metadatos  Clasificación facetada  Vocabularios controlados  Clasificación facetada, vocabularios controlados, conjuntos de términos, enumeraciones, anillos de sinónimos, taxonomías, tesauros  Modelos entidad-relación  Ontologías  Folksonomías
  22. 22. Clasificación facetada  Facetas: atributos de un recurso  Ejemplo: color, resolución, estilo,...  Permite búsqueda de recursos a partir de valores de dichos atributos  Algunos sistemas  CC. Colon Classification  Clasificación deciman de Dewey  CDU, Clasificación decimal universal
  23. 23. Vocabularios controlados  Disposición organizada de palabras o frases  Permiten indexar/buscar/recuperar recursos  Normalmente, en un dominio acotado  Ejemplos:  Conjuntos de términos  Encabezados de materia: Listas subject/heading  Enumeraciones  Anillos de sinónimos  Taxonomía  Tesauro
  24. 24. Conjuntos de términos  Definen un conjunto de términos y propiedades que se pueden asignar a un recurso  Ejemplo: Dublin-core  15 elementos  Utilizado para catálogos online 1. Title 2. Creator 3. Subject 4. Description 5. Publisher 6. Contributor 7. Date 8. Type 9. Format 10.Identifier 11.Source 12.Language 13.Relation 14.Coverage 15.Rights
  25. 25. Encabezamientos de materia  Listas subject/heading  Ejemplos:  LEMBP: lista encabezamientos bibliotecas públicas  LCSH: Library of Congress Subject Heading Charles A. Cutter Fuente: Wikipedia Lista encabezamientos materias bibliotecas públicas Fuente: http://www.mcu.es/bibliotecas/docs/MC/LEMBP/LEMBP.pdf
  26. 26. Enumeraciones  Una enumeración es una lista de términos  Preferiblemente únicos  Suelen aparecer como listas desplegables  Es posible enlazar términos entre diferentes vocabularios Gato Perro Animal Persona Objeto
  27. 27. Anillos de sinónimos  Una lista que incluye conjuntos de términos que son equivalentes  Utilizada para búsquedas y recuperación  Enriquecimiento de términos de búsqueda  Pueden incluirse términos relacionados
  28. 28. Taxonomías  Clasificación ordenada de un dominio  Cuerpo de conocimiento dividido en categorías
  29. 29. Tesauro  Lista de términos y relaciones  Jerárquicas: todo/parte, ámbito más amplio/estrecho  Equivalencias: sinonimia, homonimia, antonimia, ...  Asociativas: términos relacionados  No tiene porqué incluir definiciones  En ese caso sería un diccionario  Múltiples tesauros especializados
  30. 30. SKOS  SKOS = Simple Knowledge Organization System  Lenguaje para definir tesauros y vocabularios controlados  Sintaxis RDF  Permite expresar términos, relaciones y jerarquías  Muchos vocabularios han migrado a SKOS  Eurovoc, LCSH, MeSH, ...
  31. 31. Modelos entidad-relación  Técnica para describir bases de datos  Entidades: pueden identificarse de forma única  Relaciones entre entidades  Atributos: propiedades de entidades o relaciones Artista Obra nombre estilo realiza fecha nombre
  32. 32. FRBR  FRBR - Functional Requirements for Bibliographical Records  Modelo entidad-relación  Desarrollado por IFLA (Asociación Intl. de bibliotecas)Work Expression Manifestation Item realization embodime nt examplar El Quijote Versión inglés Traductor John Ormsby 1885 1604 2011Publicación Simon&Brown 2013Ejemplar comprado 1 n 1 n 1 n
  33. 33. Ontologías  Definición formal del conocimiento de un dominio  Objetivo: representación de conocimiento  Contiene  Vocabulario de términos: clases, individuos  Relaciones entre términos: propiedades  Reglas y axiomas
  34. 34. Folksonomías  Etiquetado colaborativo  Semántica emergente  Sabiduría de las masas Fuente: http://blog.ponoko.com/2008/09/10/folksonomy/
  35. 35. La Web
  36. 36.  Mayor almacén de información jamás recopilado por la humanidad  Acceso casi instantáneo desde cualquier lugar  No centralizado  Cualquiera puede añadir cosas  Multimedia (Texto, Imágenes, Vídeo, etc.)  Identificación de recursos unificada (URIs)  Interactividad: Aplicaciones Web Características de la Web
  37. 37. Pilares de la Web  3 pilares  Protocolo: HTTP  Identificación: URIs  Formatos de representación: HTML, JSON, XML, ... Identificación URI Protocolo HTTP Formatos HTML, JSON,... WWW
  38. 38. Funcionamiento de la Web Usuario Navegador Cliente Servidor URI Representación WWW HTTP  Protocolo HTTP:  Cliente (petición) - Servidor (respuesta)  URIs para identificar recursos  Lenguajes de representación: HTML, XML, etc.
  39. 39. Protocolo HTTP  HTTP (Hypertext transfer protocol):  Arquitectura cliente/servidor (petición / respuesta)  Conjunto de acciones reducido:  GET, PUT, POST, DELETE, etc.  Mensajes de texto línea inicial cabecera del mensaje* cuerpo del mensaje ? Formato de mensajes
  40. 40. URIs URI = Identificación de recurso Recurso = Unidad básica, Cualquier cosa URI ≠ Recurso ≠ Representación URI http://tiempo.com/Asturias/Oviedo Metadatos: Content-type: text/html Datos: <html> <head><title>Tiempo</title></head> <body> <h1>Tiempo en Oviedo</h1> <p>Nubes y claros</p> </body> </html> Representación Recurso Tiempo en Oviedo
  41. 41. ¿Qué se puede identificar con una URI?  Cualquier cosa concreta o abstracta http://www.uniovi.es <!DOCTYPE html> <html> <head> <title>Universidad de Oviedo</title> </head> <body> <h1>Universidad de Oviedo</h1> <p>Fundada en el año 1608 en <a href="http://www.wikipedia.org/Oviedo"> Oviedo</a></p> . . . </body> </html> identifica Ejemplo: Una página Web Una página Web Recurso de información Formato HTML
  42. 42. ¿Qué se puede identificar con una URI?  Cualquier cosa concreta o abstracta http://www.di.uniovi.es/~labra/images/asturias.jpg identifica Ejemplo: Una fotografía (recurso multimedia) Una fotografía Recurso de información Formato JPG
  43. 43. ¿Qué se puede identificar con una URI?  Cualquier cosa concreta o abstracta http://www.w3.org/People/Berners-Lee/card#i identifica Ejemplo: Una persona Una persona (Tim Berners-Lee) Recurso de no información
  44. 44. ¿Qué se puede identificar con una URI?  Cualquier cosa concreta o abstracta http://xmlns.com/foaf/0.1/Person identifica Ejemplo: Conjunto de todas las personas Conjunto de Personas (concepto abstracto) Recurso de no información
  45. 45. ¿Qué se puede identificar con una URI?  Cualquier cosa concreta o abstracta http://purl.org/dc/terms/creator identifica Ejemplo: Propiedad de creación Propiedad de creación (concepto abstracto) Recurso de no información
  46. 46. ¿Qué se puede identificar con una URI?  Cualquier cosa concreta o abstracta http://purl.org/dc/terms identifica Ejemplo: Espacio de nombres Espacio de nombres (concepto) Recurso de no información description language publisher . . .
  47. 47. Dereferenciación  Dereferenciar URI = Acceder al contenido de URI  Obtener una representación del recurso identificado por la URI  Habitualmente se utiliza protocolo HTTP  Pueden existir diferentes representaciones  La representación puede incluir enlaces a otras URIs con información relacionada Principio: Follow your nose (“Sigue tu instinto”) A partir de una URI, se puede ir encontrando más información y más recursos relacionados fácilmente y de
  48. 48. Estabilidad de las URIs  URIs = base de cualquier aplicación Web  Objetivo: Esquema de URIs estable  Lema: Cool URIs don’t change  Modificar una URI puede romper aplicaciones existentes  Evitar URIs que dependen de detalles de implementación  Ejemplo: http://156.35.41.34:8080/pagina.php URI
  49. 49. FORMATOS DE REPRESENTACIÓN
  50. 50. Formatos de representación  En la Web, el formato más habitual es HTML  Existen muchos más: XML, JSON, RDF, PNG, …  Un recurso puede tener diferentes tipos de representación  Cada tipo de representación sirve para un propósito
  51. 51. HTML  Tipo de representación más popular en la Web  Objetivo: representar hipertexto  Ejemplo: <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>Ejemplo</title> </head> <body> <h1>Lista de enlaces</h1> <p>Mis enlaces preferidos</p> <ul> <li><a href="http://www.wikipedia.org">Wikipedia</a> <li><a href="http://www.w3c.org">Consorcio W3c</a> </ul> </body> </html>
  52. 52. XML  Lenguaje de marcado generalizado  Objetivo: intercambio de información  Procesamiento automático y comercio electrónico <?xml version="1.0"> <pedido> <producto codigo="R23"> <nombre>Rotulador RX2</nombre> <cantidad>20</cantidad> <comentarios>Comprobad que escriben</comentarios> </producto> <producto codigo="G56"> <nombre>Grapadora Lin</nombre> <cantidad>2</cantidad> <comentarios>Envuelta para regalo</comentarios> </producto> </pedido>
  53. 53. Tipos de representación  Los tipos de representación se identifican con MIME  MIME (Multipurpose Internet Mail Extensions)  Identificar el tipo de contenido (Cabecera Content- type)  Formato tipo/subtipo  Ejemplos:  text/html: Página Web en formato HTML  text/xml, application/xml : Documento XML  application/json: Documento JSON  application/pdf: Fichero PDF  image/jpeg: Imagen JPEG Lista oficial: http://www.iana.org/assignments/media-types
  54. 54. Funcionamiento de la Web  2 computadores conceptuales: Cliente y Servidor  La representación puede calcularse dinámicamente  Computación en Cliente  Computación en servidor Usuario Navegador Cliente Servidor URI Representación WWW HTTP
  55. 55. Cliente  También se conoce como Agente de Usuario  Normalmente es un navegador (browser)  Múltiples tipos de agentes de usuarios y navegadores  Navegadores: Internet Explorer, Chrome, Firefox, Lynx, …  Dispositivos móviles  Lectores de pantalla  eBooks  TVs  …
  56. 56. Componentes de un navegador  Interfaz  Analizador  Motor visualización  Intérprete ECMAScript: procesa eventos Usuario Navegador Cliente URI Representación WWW HTTP Analizador Árbol DOM Motor VisualizaciónInterfaz Usuario Intérprete ECMAscript URI
  57. 57. Motor de visualización  A veces los navegadores comparten el mismo motor de visualización (rendering engine) Navegadores Motor de visualización Internet Explorer Trident Firefox Gecko Opera Presto Chrome Webkit (Webcore) Safari (iPhone, iPad) Webkit
  58. 58. Componentes de un Servidor  La arquitectura del servidor suele descomponerse en varias capas  Vista: Se encarga de preparar la representación  Negocio: Gestión de objetos de negocio  Datos: Modelos de datos Capa Vista Capa Negocio URI Capa Datos Representación URI WWW HTTP
  59. 59. Razones para publicar datos Datos abiertos
  60. 60. Razones para liberar datos  Facilitan la investigación  Tasa de descubrimiento se acelera con mejores accesos a los datos  Por el bien común de la humanidad
  61. 61. Razones para liberar datos  Los sistemas abiertos facilitan las contribuciones externas
  62. 62. Razones para liberar datos  Trasparencia  Fomentar participación  Generar confianza  Evaluar al gobierno
  63. 63. Como ciudadanos…  …también podemos demandar datos abiertos…
  64. 64. …demandar datos abiertos  Cuando pertenecen a la humanidad
  65. 65. …demandar datos abiertos  Hechos independientes y verificables ó de conocimiento común  Ejemplo: conocimiento científico
  66. 66. …demandar datos abiertos  Cuando han sido creados con dinero público  Los hemos pagado con nuestros impuestos  ¡Son nuestros!
  67. 67. OK, ¡vivan los datos abiertos! pero…
  68. 68.  El mayor reto = Integración  En general, el problema no es informatizar algo  El problema es integrar los sistemas  Interoperabilidad No basta con publicar datos…
  69. 69. Modelo de Estrellas * ★ Publicar los datos en la Web (en cualquier formato) ★★ Utilizar formato estructurado (Excel en lugar de imágenes escaneadas) ★★★ Usar formatos no propietarios (CSV en lugar de Excel) ★★★★ Usar URIs para identificar datos (otros sistemas puedan enlazar nuestros datos) ★★★★★ Enlazar con otros datos externos (proporcionar contexto)* Enunciado por Tim Berners-Lee en Gov 2.0 Expo 2010 http://www.youtube.com/watch?v=ga1aSJXCFe0
  70. 70. Formatos no estructurados  Formatos “caja negra”: Imágenes, vídeos, música, etc.  Formatos binarios: PDF, PS, etc.  Requieren técnicas de tratamiento de la señal, reconocimiento de patrones, etc. ★
  71. 71. Ejemplo: Servicio Público de Empleo http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/ ★
  72. 72. Formatos estructurados  Los datos tienen una estructura  Pueden procesarse automáticamente  Ejemplo: Hojas de cálculo  Problema con formatos propietarios  Requieren herramientas que no son públicas ★ ★
  73. 73. Ejemplo: Servicio Público de empleo http://www.sepe.es/contenidos/cifras/datos_estadisticos/municipios/9 ★ ★
  74. 74. Formatos no propietarios  Formatos abiertos estructurados  Ejemplos: CSV, HTML  Pueden manipularse de forma independiente  No se requiere un software concreto  Problema: Contenido depende del contexto ★ ★ ★
  75. 75.  CSV: Valores delimitados por comas ★ ★ ★Ejemplo: CSV
  76. 76. URIs para identificar datos  Utilizar URIs para identificar datos  Negociación de contenido ★ ★ ★ ★
  77. 77. Ejemplo: RDF ★ ★ ★ ★ <http://www.sepe.es/datos/desempleo/Asturias/Allende/2013/10> HTML? @prefix sepe: <http://www.sepe.es/datos/> sepe:obs1 sepe:municipio "Allande" ; sepe:desempleados 18 . RDF?
  78. 78. Enlazar con otros datos  Las representaciones enlazan con otros datos  Reutilización de datos ★ ★ ★ ★ ★
  79. 79. Ejemplo: RDF bien enlazado★ ★ ★ ★ ★ <http://www.sepe.es/datos/desempleo/Asturias/Allende/2013/10> HTML? @prefix sepe: <http://www.sepe.es/datos/> sepe:obs1 sepe:municipio <http://dbpedia.org/resource/Allande>; sepe:desempleados 23 . RDF? dbo:allande dbo:areaTotal 342.24 ; rdf:type <http:/.../municipalitiesInAsturias> ; dbo:country <http:/.../Spain> ; dbo:populationTotal 2106 ; . . .
  80. 80. Principios de Linked Open Data  1. Utilizar URIs para denotar cosas  2. Permitir que las URIs sean dereferenciables  3. Proporcionar información útil  Para personas (HTML) y máquinas (RDF)  4. Incluir enlaces a otras cosas relacionadas ★ ★ ★ ★ ★ La mejor manera de explotar tus datos se le ocurrirá a otro Jo Walsh, Rufus Pollock, http://www.okfn.org/files/talks/xtech_2007/
  81. 81. Linking Open Data (2007) ★ ★ ★ ★ ★
  82. 82. Linking Open Data (2008) ★ ★ ★ ★ ★
  83. 83. Linking Open Data (2009) ★ ★ ★ ★ ★
  84. 84. Linking Open Data (2010) ★ ★ ★ ★ ★
  85. 85. Linking Open Data (2011) ★ ★ ★ ★ ★
  86. 86. Web Semántica Propuesta de la Web semántica (Tim Berners-Lee): “disponer datos en la Web definidos y enlazados de forma que puedan ser utilizados por las máquinas no solamente para visualizarlos sino también para: automatizar tareas, integrar y reutilizar datos entre aplicaciones”
  87. 87. Web Semántica Características de la Web... No centralizada: problemas para garantizar integridad de la información) Información Dinámica: puede cambiar la información e incluso el conocimiento sobre esa información Mucha información: El sistema no puede pretender acaparar toda la información Es abierta: Muchos sistemas anteriores usaban la Closed World Assumption En inglés: Principio AAA: Anyone can say Anything about Any topic Fuente: Semantic Web for the Working Ontologist, D. Allemang, J. Hendler
  88. 88. Tarta de la Web URIUnicode XML + Namespaces + XML Schema Demostración RDF + RDF Schema Ontologías Lógica Confianza Versión propuesta por Tim Berners Lee, año 2000 http://www.w3.org/2000/Talks/1206-xml2k-tbl/slide10-0.html
  89. 89. Cambios en la tarta… URIUnicode XML Intercambio de datos: RDF Consultas: SPARQL Lógica unificadora Confianza RDF Schema Ontologías OWL Reglas RIF Demostración Versión actual (desde 2007) http://www.w3.org/2007/Talks/0130-sb-W3CTechSemWeb/#(24)
  90. 90. RDF  Resource Description Framework (1998)  Descripción de recursos  Recurso = se identifica con URI  Se basa en tripletas Sujeto  Predicado  Objeto
  91. 91. Tripletas RDF http://purl.org/dc/elements/1.1/creator Sujeto Puede ser: URI Nodo anónimo (bNode) Predicado Identificado por URI Objeto Valor de una propiedad Puede ser: URI Literal Nodo anónimo @prefix dc: <http://purl.org/dc/elements/1.1/>. @prefix uni: <http://uniovi.es/> . uni:biologia dc:creator uni:juan . http://uniovi.es/biology http://uniovi.es/juan <http://uniovi.es/biologia> <http://purl.org/dc/elements/1.1/creator> <http://uniovi.es/juan> . Notación (turtle) simplificado
  92. 92. Grafo RDF @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix uni: <http://uniovi.es/> . @prefix dc: <http://purl.org/dc/elements/1.1/> . uni:biologia dc:creator uni:juan . uni:biologia dc:creator uni:ana . uni:juan rdf:type uni:Profesor . uni:ana rdf:type uni:Profesor . Puede representarse en Notación Turtle uni:biologia uni:juan dc:creator uni:anadc:creator uni:Profesor rdf:type rdf:type
  93. 93. RDF es composicional uni:quimica uni:ana dc:creator uni:luisdc:creator uni:Becario rdf:type uni:biologia uni:juan dc:creator dc:creator uni:Profesor rdf:type rdf:type uni:derecho dc:creator uni:Profesor uni:ana rdf:type uni:luis uni:Becario rdf:type Grafo 1 Grafo 2 Grafo 3
  94. 94. RDF es composicional uni:quimica uni:ana dc:creator uni:luisdc:creator uni:Becario rdf:type uni:biologia uni:juan dc:creator dc:creator uni:Profesor rdf:type rdf:type uni:derecho dc:creator uni:Profesor uni:ana rdf:type uni:luis uni:Becario rdf:type Grafo 1 Grafo 2 Grafo 3
  95. 95. RDF es composicional uni:quimica uni:ana dc:creator uni:luis dc:creator uni:Becario rdf:type uni:biologia uni:juan dc:creator dc:creator uni:Profesor rdf:type rdf:type uni:derecho dc:creator Grafo 1 + Grafo 2 + Grafo 3
  96. 96. Formatos RDF  Existen varios formatos:  N3  RDF/XML  N-Triples  Turtle  etc.
  97. 97. SPARQL  Simple Protocol and RDF Query Language  Lenguaje de consultas para la web semántica  Encaje de grafos  Extrae información de modelos RDF  Un protocolo  Define un mecanismo para invocar un servicio  También define un vocabulario para resultados
  98. 98. SPARQL  Ejemplo:  Buscar páginas cuyo autor sea un profesor prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> prefix uni: <http://uniovi.es/> prefix dc: <http://purl.org/dc/elements/1.1/> SELECT ?p ?c WHERE { ?p dc:creator ?c . ?c rdf:type uni:Profesor. }
  99. 99. Encaje de grafos SELECT ?p ?c WHERE { ?p dc:creator ?c . ?c rdf:type uni:Profesor . } uni:quimica uni:ana dc:creator uni:luis dc:creator uni:Becario rdf:type uni:biologia uni:juan dc:creator dc:creator uni:Profesor rdf:type rdf:type uni:derecho dc:creator ?p dc:creator ?c uni:Profesor rdf:type ?p ?c Resultados ?p ?c uni:biologia uni:juan uni:quimica uni:ana uni:biologia uni:ana ?p ?c ?p ?c
  100. 100. RDF Schema  Extiende RDF con un vocabulario de esquema  Class, Property, Resource,…  type, subClassOf, subPropertyOf,…  range, domain,…  RDF Schema permite inferencias
  101. 101. RDF Schema rdf:type uni:Profesor rdfs:subClassOf uni:Persona Ejemplo uni:juan rdf:type
  102. 102. SPARQL + Inferencia  Combinar SPARQL e inferencia  Ejemplo:  Páginas cuyo autor sea una persona @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix uni: <http://uniovi.es/> . @prefix dc: <http://purl.org/dc/elements/1.1/> . SELECT ?p ?c WHERE { ?p dc:creator ?c . ?p rdf:type uni:Persona. }
  103. 103. uni:quimica uni:ana dc:creator uni:luis dc:creator uni:Becario rdf:type uni:biologia uni:juan dc:creator dc:creator uni:Profesor rdf:type rdf:type uni:derecho dc:creator uni:Persona rdfs:subClassOf rdfs:subClassOf SPARQL con inferencia SELECT ?p ?c WHERE { ?p dc:creator ?c . ?c rdf:type uni:Persona . } ?p dc:creator ?c uni:Persona rdf:type ?p ?c Resultados ?p ?c uni:biologia uni:juan uni:quimica uni:ana uni:biologia uni:ana ?p ?c ?p ?c rdf:type rdf:type ?p ?c uni:derecho uni:luis
  104. 104. Ontologías  RDF Schema permite hacer inferencias sencillas  Limitaciones de expresividad  OWL (Web Ontology Language)  Añade más expresividad  Formalizar dominios concretos: ontologías Expresividad vs Complejidad
  105. 105. Mitos de la Web Semántica  Navegador inteligente  Una nueva Web  El cerebro global  La gran verdad: Una única ontología  Una etiqueta para cada cosa  Nadie querrá compartir datos  Demasiada apertura  Moda pasajera  No hay Killer application
  106. 106. El navegador inteligente  Mito:  El objetivo es conseguir sistemas que naveguen por internet de forma inteligente  Realidad:  Objetivo = desarrollar tecnologías que faciliten el procesamiento automático de la información de la Web y su integración  No es Inteligencia Artificial pero sí se utilizan técnicas de esa disciplina
  107. 107. Una nueva Web  Mito:  La Web Semántica ( Web 3.0) es una nueva versión de la web que obligará a cambiar todo lo que ya hay  Realidad:  Se propone transición gradual. Las tecnologías ofrecerán valor añadido.
  108. 108. El cerebro global  Mito:  El proyecto de la Web semántica generará un cerebro global  Realidad:  La web semántica facilitará un mejor uso de los datos de la web.  Sí es un camino hacia la inteligencia colectiva
  109. 109. La gran verdad  Mito:  Se propone la creación de una única ontología con todo el conocimiento de la humanidad  Realidad:  Múltiples ontologías para diferentes dominios  Facilitar la integración  Mejorar la descripción de dominios
  110. 110. Una etiqueta para cada cosa  Mito:  El objetivo es asignar una etiqueta similar a RFID para cada cosa  Realidad  No es factible que cada cosa conlleve sus propios metadatos  Pueden realizarse descripciones de recursos externas
  111. 111. Nadie querrá compartir datos  Mito:  Los proveedores de información no tendrán motivación para adoptar tecnologías nuevas  Realidad:  Lo harán cuando encuentren un retorno de inversión adecuado  Posicionamiento semántico
  112. 112. Demasiada apertura  Mito:  Si se sacan los datos de las bases de datos, se pierden  Realidad:  Tecnologías para limitar acceso y controlar privacidad  Declarar de dónde provienen los datos  Establecer propiedad legal de los datos
  113. 113. Moda pasajera  Mito:  Mito1: La Web semántica es algo nuevo  Mito 2: La Web semántica es algo viejo  Realidad:  Planteada ya en 1994, visión a largo plazo  Exceso de entusiasmo vs escepticismo  Casos de éxito: RSS, microformatos, XBRL,…  "A little semantics goes a long way"
  114. 114. No hay killer application  Mito:  No se ha desarrollado una killer application  Realidad:  ¿Es necesaria?  ¿Podría ser el proyecto Linked Open Data?
  115. 115. Retos de la Web Semántica  Escalabilidad  ¿Dónde están los agentes?  Privacidad y seguridad  Confianza  Manejar ambigüedad e imprecisión  Cantidad vs Calidad  ¿Servicios web semánticos?
  116. 116. Metadatos CDWA VRA CCO Proyectos Open Archives Initiative Europeana Aplicaciones en Historia del Arte
  117. 117. CDWA  Categories for the description of Works of Art  Financiado por fundación Getty  31 categorías, +380 subcategorías  Distingue  Work  Imagen (Representación)  CDWA Lite  Subconjunto de CDWA  Vocabulario XML
  118. 118. VRA  VRA (Visual Resources Association)  Creado en 2007  Descripción de imágenes y objetos culturales  Vocabulario XML  Estructura de los datos
  119. 119. CCO  Cataloging Cultural Objects  Vocabulario XML  Contenido de datos
  120. 120. Open Archives  Objetivo: Interoperabilidad de bienes culturales  Comienza en Cornell  Basado en XML
  121. 121. Europeana  Proyecto europeo  Desripción semántica de catálogos de obras de arte  Utilización de RDF y Linked Data

×