1. INICIATIVA BARCELONA OPEN DATA
EL VALOR D’OBRIR LES DADES
Datos enlazados
curso 1.6
Docente:
Álvaro Sicilia @alvarosiciliago
2. OBJECTIVO DE LA SESIÓN
● Al final de la sesión seréis capaces de:
● Definir que son los datos enlazados y la web semántica
● Identificar datos enlazados y saber navegar por ellos
● Describir recursos en la web (RDF)
● Identificar tecnologías para enlazar datos
Facultar a los participantes para enlazar datos abiertos y su uso
Datos enlazados
3. ÍNDICE
1. Introducción a los datos enlazados
2. De datos abiertos a datos enlazados
3. Uso de vocabularios y DCAT
4. Enlazar datos abiertos
5. Describir recursos en la web
6. Como transformar datos abiertos a RDF
7. Tecnologías utilizadas en la web semántica
8. Consultar datos enlazados
4. ¿Que son los datos
enlazados?
Preparad una definición de este
concepto
Actividad colectiva
Tiempo: 2 minutos
Actividad
5. * http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData
** http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica
Los Datos Enlazados es la forma que tiene la Web
Semántica de vincular los distintos datos que están
distribuidos en la Web, de forma que se referencian de la
misma forma que lo hacen los enlaces de las páginas web*
La Web Semántica es una Web extendida, dotada de mayor
significado en la que cualquier usuario en Internet podrá
encontrar respuestas a sus preguntas de forma más rápida y
sencilla gracias a una información mejor definida**
INTRODUCCIÓN A LOS DATOS ENLAZADOS
8. IMDB Wikipedia
¿Lugar de nacimiento
de Harrison Ford?
¿Número de habitantes
de Chicago?
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas sobre una fuente de datos?
Actores
Ciudade
s
9. IMDB Wikipedia
¿Qué actores que han nacido en poblaciones de
más de 2 millones de habitantes?
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas complejas sobre múltiples
fuentes de datos?
Actores
Ciudade
s
10. IMDB Wikipedia
Usar la Web como una única gran base de datos global →
Movernos de una Web de documentos a una Web de Datos
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas complejas sobre múltiples
fuentes de datos?
11. DE DATOS ABIERTOS A DATOS ENLAZADOS
1. Usar URIs como nombres de las cosas
2. Usar HTTP URIs, para que cualquiera los pueda consultar
3. Cuando alguien consulta una URI, proporcionar
información útil en lenguajes estándar (RDF, SPARQL)
4. Incluir enlaces a otras URIs
* http://www.w3.org/DesignIssues/LinkedData.html
Los Cuatro principios de la Web de datos
enlazados (Tim Berners Lee, 2006)*
12. ★ publicar los datos en la Web (en cualquier format) con una licencia abierta
★★ publicar los datos estructurados (ex: en Excel lugar de una imagen con datos)
★★★ publicar daots utilizando formatos no propietarios (ex:: CSV en lugar de Excel)
★★★★ utilitzar URIs para apuntar a cosas
★★★★
★
Enlazar datos con otros datos
DE DATOS ABIERTOS A DATOS ENLAZADOS
Las 5 estrellas de Tim Berners Lee
15. Navegar por portales
de datos abiertos y
enlazados → listar los
diferentes portales
Actividad individual
Tiempo: 15 minutos
Actividad
16. DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Cómo publicar datos enlazados?
1.
Empezar
por un
plan
5.
Mantenerlo
2.
Seleccionar
los datos
4.
Publicació
n
3.
Creación
de un
dataset
Proceso de los
datos abiertos
17. DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Cómo publicar datos enlazados?
Aplicar un formato
abierto
Capturar los
metadatos
Aplicar una licencia
abierta
Revisar el dataset
19. USO DE VOCABULARIOS Y DCAT
¿Qué es un vocabulario?
Los vocabularios definen los conceptos y
relaciones utilizados para describir y representar
un área de interés.
Definition taken from: http://www.w3.org/standards/semanticweb/ontology
20. USO DE VOCABULARIOS Y DCAT
¿Qué es un vocabulario?
Los vocabularios definen los conceptos y
relaciones utilizados para describir y representar
un área de interés.
Definition taken from: http://www.w3.org/standards/semanticweb/ontology
24. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
City Creation date
Establishment
date
Long Lat Alt State
State
City
25. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
City Creation date
Establishment
date
Long Lat Alt State
State
City
RAE:
1. f. Conjunto de edificios y calles, regidos por u
n ayuntamiento, cuya población densa y
numerosa se dedica por lo común a
actividades no agrícolas.
RAE:
5. m. País soberano, reconocido como tal en el
orden internacional, asentado en un territorio
determinado y dotado de órganos de gobierno
propios..
26. Uso de vocabularios y DCAT
¿Dónde está el vocabulario?
City Creation date
Establishment
date
Long Lat Alt State
City
State
belongs to state
27. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
City Creation date
Establishment
date
Long Lat Alt State
City
State
belongs to state
- Creation date
- Establishment date
28. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
City Creation date
Establishment
date
Long Lat Alt State
City
State
belongs to state
- Creation date
- Establishment date Point
located at
- longitud
- latitud
- altitude
29. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
City Creation date
Establishment
date
Long Lat Alt State
City
State
belongs to state
- Creation date
- Establishment date Point
located at
- longitud
- latitud
- altitude
• Un vocabulario puede representar muchos datasets
• Los vocabularios son utilizados para integrar o
armonizar datos de diferentes fuentes (CSV, bases
de datos, páginas web…)
30. USO DE VOCABULARIOS Y DCAT
Ventajas de utilizar vocabularios
Un vocabulario:
- Data contexto (para moverse de datos a información)
- Facilita reutilización de los datos
- Reduce ambigüedad
- Facilita la integración
- Facilita el mantenimiento
31. USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
DCAT es una especificación (vocabulario) para la
descripción de catálogos de datos en la red. La
especificación oficial ha sido elaborada por el W3C,
basada en algunos proyectos anteriores.
DCAT-AP (Application Profile) es una especificación
basada en DCAT para describir datasets del sector
público en Europa.
32. USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
https://www.w3.org/TR/vocab-dcat/
33. USO DE VOCABULARIOS Y DCAT
Vocabulary of Interlinked Datasets (VoiD)
http://richard.cyganiak.de/2011/gld/gld-dcat-and-void.pdf
34. ENLAZAR DATOS ABIERTOS
¿Cómo publicar datos enlazados?
Aplicar un formato
abierto
Capturar los
metadatos
Aplicar una licencia
abierta
Revisar el dataset
Identificar enlaces
con otros datasets
Enlazar las instancias de
los diferentes datasets
35. ENLAZAR DATOS ABIERTOS
Enlazando datos abiertos
Procedimiento
1. Identificar aquellos conceptos cuyos individuos puedan
ser enlazados dado su interés y potencial.
2. Identificar qué conjuntos de datos pueden contener
instancias de los conceptos inidentificados previamente.
3. Seleccionar las herramientas mas adecuadas para llevar
a cabo el enlazado (semi) automático.
4. Ejecutar estas herramientas sobre las fuentes de datos
para obtener los correspondientes enlaces.
36. ENLAZAR DATOS ABIERTOS
Enlazando datos abiertos
• Alineación por valores. Determinar cuando dos valores
de dos propiedades expresados de forma diferente son
equivalentes
• Alineación por instancias. Determinar si dos instancias
son equivalentes
• De acuerdo a las descripciones disponibles para
dichas instancias
• Basado en agregación de técnicas de alineación de
valores, transitividad de owl:sameAs, mapeos de
ontologías, etc.
• Alineación por dataset. Utilizando un conjunto de
potenciales mapeos de individuos entre dos datasets
Los conjuntos de datos son analizados como un todo
38. DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
Harrison Ford es un Actor
Harrison Ford mide 1,85
Harrison Ford nació en Chicago
40. DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_Ford
http://es.dbpedia.org/ontology/Actor
https://www.w3.org/1999/02/22-rdf-syntax-ns#typ
e
41. DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_Ford
http://es.dbpedia.org/resource/Chicago
http://es.dbpedia.org/ontology/birthPlac
e
42. DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_Ford
“1.85”
http://es.dbpedia.org/ontology/heig
ht
43. height
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
…/Harrison_Ford
“1.85”
…/Chicago
…Actor
type
birthPlace
44. height
height
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
…/Harrison_Ford
“1.85”
…/Chicago
…Actor
type
…/RobinWilliams
“1.7”
type
birthPlace
45. COMO TRANSFORMAR DATOS ABIERTOS A RDF
dataset
Rdf
dump Triple store
Consultas
Sparql
dataset SQL RDF
wrapper
Consultas
Sparql
• Rápido
• No
actualizado
• Materializado
• No es rápido
• Actualizado
• Bases de datos
relacionalesMapeos
R2RML
48. TECNOLOGÍAS UTILIZADAS EN LA WEB SEMÁNTICA
Triple stores:
- Virtuoso Universal Server virtuoso.openlinksw.com
- RDF4J www.rdf4j.org
Publicar datos
- Pubby wifo5-03.informatik.uni-mannheim.de/pubby
- Elda github.com/epimorphics/elda
Enlazar datos
- Silk silkframework.org
- Limes aksw.org/Projects/LIMES.html
W3C listado de recursos:
www.w3.org/wiki/TaskForces/CommunityProjects/Linkin
gOpenData/SemWebClients
49. CONSULTAR DATOS ENLAZADOS
Breve introducción a SPARQL
SELECT Distinct ?Concepto
WHERE {
?x a ?Concepto.
}
http://es.dbpedia.org/sparq
l
SELECT Distinct ?x
WHERE {
?x a <http://schema.org/Airport>.
}
51. OBJECTIVO DE LA SESIÓN
● Ara sois capaces de:
● Definir que son los datos enlazados y la web semántica
● Identificar datos enlazados y saber navegar por ellos
● Describir recursos en la web (RDF)
● Identificar tecnologías para enlazar datos
Facultar a los participantes para enlazar datos abiertos y su uso
Datos enlazados