METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
Curs 2.5 Datos Enlazados
1. INICIATIVA BARCELONA OPEN DATA
EL VALOR D’OBRIR LES DADES
Datos enlazados
curso 2.5
Docente:
Álvaro Sicilia @alvarosiciliago
2. OBJECTIVO DE LA SESIÓN
Facultar a los participantes para enlazar datos abiertos y su uso
Datos enlazados
● Al final de la sesión seréis capaces de:
● Definir que son los datos enlazados y la web semántica
● Identificar datos enlazados y saber navegar por ellos
● Describir recursos en la web (RDF)
● Generar datos RDF a partir de dato abiertos
● Utilizar técnicas para enlazar datos abiertos
● Consultar datos enlazados (SPARQL)
3. ÍNDICE
1. Introducción a los datos enlazados
2. De datos abiertos a datos enlazados
3. Uso de vocabularios y DCAT
4. Enlazar datos abiertos
5. Describir recursos en la web
6. Introducción a la creación de vocabularios
7. Como transformar datos abiertos a RDF
8. Consultar datos enlazados
9. Como enlazar datos abiertos entre sí
10. Tecnologías utilizadas en la web semántica
4. ¿Que son los datos
enlazados?
Preparad una definición de este
concepto
Actividad colectiva
Tiempo: 2 minutos
Actividad
5. * http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData
** http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica
Los Datos Enlazados es la forma que tiene la Web Semántica
de vincular los distintos datos que están distribuidos en la
Web, de forma que se referencian de la misma forma que lo
hacen los enlaces de las páginas web*
La Web Semántica es una Web extendida, dotada de mayor
significado en la que cualquier usuario en Internet podrá
encontrar respuestas a sus preguntas de forma más rápida y
sencilla gracias a una información mejor definida**
INTRODUCCIÓN A LOS DATOS ENLAZADOS
8. IMDB Wikipedia
¿Lugar de nacimiento
de Harrison Ford?
¿Número de habitantes
de Chicago?
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas sobre una fuente de datos?
Actores
Ciudades
9. IMDB Wikipedia
¿Qué actores que han nacido en poblaciones de
más de 2 millones de habitantes?
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas complejas sobre múltiples
fuentes de datos?
Actores
Ciudades
10. IMDB Wikipedia
Usar la Web como una única gran base de datos global →
Movernos de una Web de documentos a una Web de Datos
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas complejas sobre múltiples
fuentes de datos?
11. DE DATOS ABIERTOS A DATOS ENLAZADOS
1. Usar URIs como nombres de las cosas
2. Usar HTTP URIs, para que cualquiera los pueda consultar
3. Cuando alguien consulta una URI, proporcionar
información útil en lenguajes estándar (RDF, SPARQL)
4. Incluir enlaces a otras URIs
* http://www.w3.org/DesignIssues/LinkedData.html
Los Cuatro principios de la Web de datos
enlazados (Tim Berners Lee, 2006)*
12. ★ publicar los datos en la Web (en cualquier format) con una licencia abierta
★★ publicar los datos estructurados (ex: en Excel lugar de una imagen con datos)
★★★ publicar daots utilizando formatos no propietarios (ex:: CSV en lugar de Excel)
★★★★ utilitzar URIs para apuntar a cosas
★★★★
★
Enlazar datos con otros datos
DE DATOS ABIERTOS A DATOS ENLAZADOS
Las 5 estrellas de Tim Berners Lee
15. Navegar por portales
de datos abiertos y
enlazados → listar los
diferentes portales
Actividad individual
Tiempo: 15 minutos
Actividad
16. DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Cómo publicar datos enlazados?
1.
Empezar
por un
plan
5.
Mantenerlo
2.
Seleccionar
los datos
4.
Publicació
n
3.
Creación
de un
dataset
Proceso de los
datos abiertos
17. DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Cómo publicar datos enlazados?
Aplicar un formato
abierto
Capturar los
metadatos
Aplicar una licencia
abierta
Revisar el dataset
19. USO DE VOCABULARIOS Y DCAT
¿Qué es un vocabulario?
Los vocabularios definen los conceptos y
relaciones utilizados para describir y representar
un área de interés.
Definition taken from: http://www.w3.org/standards/semanticweb/ontology
20. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Adaptado de ODI Madrid
21. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
23. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
24. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
RAE:
1. f. Conjunto de edificios y calles, regidos por un ay
untamiento, cuya población densa y numerosa se
dedica por lo común a actividades no agrícolas.
RAE:
5. m. País soberano, reconocido como tal en el
orden internacional, asentado en un territorio
determinado y dotado de órganos de gobierno
propios..
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
25. Uso de vocabularios y DCAT
¿Dónde está el vocabulario?
City Creation date
Establishment
date
Long Lat Alt State
Pertenece a
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
26. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
- fecha creación
- fundación
City Creation date
Establishment
date
Long Lat Alt State
Pertenece a
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
27. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Punto
Localización
- longitud
- latitud
- altitud
- fecha creación
- fundación
City Creation date
Establishment
date
Long Lat Alt State
Pertenece a
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
28. USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
• Un vocabulario puede representar muchos datasets
• Los vocabularios son utilizados para integrar o
armonizar datos de diferentes fuentes (CSV, bases de
datos, páginas web…)
Punto
Localización
- longitud
- latitud
- altitud
- fecha creación
- fundación
City Creation date
Establishment
date
Long Lat Alt State
Pertenece a
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
29. USO DE VOCABULARIOS Y DCAT
Ventajas de utilizar vocabularios
Un vocabulario:
- Da contexto (para moverse de datos a información)
- Facilita reutilización de los datos
- Reduce ambigüedad
- Facilita la integración
- Facilita el mantenimiento
Adaptado de ODI Madrid
30. USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
DCAT es una especificación (vocabulario) para la
descripción de catálogos de datos en la red. La
especificación oficial ha sido elaborada por el W3C, basada
en algunos proyectos anteriores.
DCAT-AP (Application Profile) es una especificación
basada en DCAT para describir datasets del sector
público en Europa.
31. USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
https://www.w3.org/TR/vocab-dcat/
32. USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
Identificadores temáticos DCAT-AP Identificadores temáticos NTI-RISP
ciencia-tecnologia Ciencia-tecnologia
Agricultura, pesca, forestal y alimentación Medio-rural-pesca
Economía y finanzas Economía
Comercio
Hacienda
Educación, cultura y deporte Educación
Cultura-ocio
Deporte
Energía Energía
Medio ambiente Medio-ambiente
Gobierno y sector público Sector-publico
Salud Salud
Asuntos internacionales
Justicia, sistema legal y seguridad Legislacion-justicia
Seguridad
Regiones y ciudades Urbanismos-infraestructuras
Vivienda
Población y sociedad Demografía
Sociedad-bienestar
Empleo
Transporte Transporte
Industria
Turismo
Las temáticas de DCAT-AP han sido traducidas de su original en inglés. Esta equivalencia es realizada por Alberto
Abella y no hay una guía oficial refrendándola
33. USO DE VOCABULARIOS Y DCAT
Vocabulary of Interlinked Datasets (VoiD)
http://richard.cyganiak.de/2011/gld/gld-dcat-and-void.pdf
34. ENLAZAR DATOS ABIERTOS
¿Cómo publicar datos enlazados?
Aplicar un formato
abierto
Capturar los
metadatos
Aplicar una licencia
abierta
Revisar el dataset
Identificar enlaces
con otros datasets
Enlazar las instancias de
los diferentes datasets
35. ENLAZAR DATOS ABIERTOS
Enlazando datos abiertos
Procedimiento
1. Identificar aquellos conceptos cuyos individuos puedan
ser enlazados dado su interés y potencial.
2. Identificar qué conjuntos de datos pueden contener
instancias de los conceptos identificados previamente.
3. Seleccionar las herramientas mas adecuadas para llevar
a cabo el enlazado (semi) automático.
4. Ejecutar estas herramientas sobre las fuentes de datos
para obtener los correspondientes enlaces.
Adaptado de ODI Madrid
36. ENLAZAR DATOS ABIERTOS
Enlazando datos abiertos
• Alineación por valores. Determinar cuando dos valores de
dos propiedades expresados de forma diferente son
equivalentes
• Alineación por instancias. Determinar si dos instancias son
equivalentes
• De acuerdo a las descripciones disponibles para
dichas instancias
• Basado en agregación de técnicas de alineación de
valores, transitividad de owl:sameAs, mapeos de
ontologías, etc.
• Alineación por dataset. Utilizando un conjunto de
potenciales mapeos de individuos entre dos datasets
Adaptado de ODI Madrid
39. DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
Harrison Ford es un Actor
Harrison Ford mide 1,85
Harrison Ford nació en Chicago
41. DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_For
d
http://es.dbpedia.org/ontology/Actor
https://www.w3.org/1999/02/22-rdf-syntax-ns#type
42. DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_For
d
http://es.dbpedia.org/resource/Chicago
http://es.dbpedia.org/ontology/birthPlace
43. DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_For
d
“1.85”
http://es.dbpedia.org/ontology/height
44. height
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
…/Harrison_Ford
“1.85”
…/Chicago
…Actor
type
birthPlace
45. height
height
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
…/Harrison_Ford
“1.85”
…/Chicago
…Actor
type
…/RobinWilliams
“1.7”
type
birthPlace
46. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
RDF, RDFS, OWL, SKOS…
Punto
Localizada en
- longitud
- latitud
- altitud
- fecha creación
- fundación
City Creation date
Establishment
date
Long Lat Alt State
Pertenece a
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
RAE:
1. f. Conjunto de edificios y calles, re
gidos por un ayuntamiento, cuya po
blación densa y numerosa se
dedica por lo común a actividades
no agrícolas.
RAE:
5. m. País soberano, reconocido
como tal en el orden
internacional, asentado en un
territorio determinado y dotado
de órganos de gobierno
propios..
47. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
RDF, RDFS, OWL, SKOS…
http://www.ejemplo.com/recurso/ciudad
http://www.w3.org/1999/02/22-rdf-syntax-ns#type
http://www.w3.org/2000/01/rdf-schema#Class
48. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
RDF, RDFS…
…/ciudad
rdfs:Class
“Conjunto de edificios y
calles, regidos por un
ayuntamiento, cuya
población densa y
numerosa se dedica por
lo común a actividades no
agrícolas”
rdf:type
rdfs:comment
49. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
RDF, RDFS…
…/ciudad
rdfs:Class
…/fundación_
_____`_____
rdf:type
rdfs:Property
rdfs:range
rdfs:domain
“Establecimiento
y origen de algo.”
rdfs:comment
literal
“Conjunto de edificios y
calles, regidos por un
ayuntamiento, cuya
población densa y
numerosa se dedica por
lo común a actividades no
agrícolas”
rdf:type
rdfs:comment
50. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
RDF, RDFS…
…/estado
rdf:type
rdfs:Class
“País soberano, reconocido como
tal en el orden internacional,
asentado en un territorio
determinado y dotado de
órganos de gobierno propios.”
…/ciudad
rdfs:Class
“Conjunto de edificios y
calles, regidos por un
ayuntamiento, cuya
población densa y
numerosa se dedica por
lo común a actividades no
agrícolas”
rdfs:comment
rdf:type
rdfs:comment
51. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
RDF, RDFS…
…/estado
rdf:type
rdfs:Class
“País soberano, reconocido como
tal en el orden internacional,
asentado en un territorio
determinado y dotado de
órganos de gobierno propios.”
rdfs:comment
…/ciudad
rdf:type
rdfs:Class
…/pertenece_
_____`_____
rdf:type
rdfs:Property
rdfs:range
rdfs:domain rdfs:comment
“Dicho de una cosa:
Referirse o hacer
relación a otra, o ser
parte integrante de ella.”
“Conjunto de edificios y
calles, regidos por un
ayuntamiento, cuya
población densa y
numerosa se dedica por
lo común a actividades no
agrícolas”
rdfs:comment
52. ciudad rdf:type rdf:Class
ciudad rdfs:comment “Conjunto de edificios…”
estado rdf:type rdf:Class
estado rdfs:comment “País soberano,…”
fundación________ rdf:type rdf:Property
fundación rdfs:comment “Establecimiento y…”
fundación ________ rdfs:domain ciudad
fundación ________ rdfs:range literal
pertenece________ rdf:type rdf:Property
pertenece rdfs:comment “Dicho de una cosa…”
pertenece________ rdfs:domain ciudad
pertenece________ rdfs:range estado
INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
RDF, RDFS…
53. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
Creando vocabularios con PROTÉGÉ
54. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
Creando vocabularios con PROTÉGÉ
55. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
Creando vocabularios con PROTÉGÉ
56. INTRODUCCIÓN A LA CREACIÓN DE VOCABULARIOS
Creando vocabularios con PROTÉGÉ
58. COMO TRANSFORMAR DATOS ABIERTOS A RDF
dataset
Rdf
dump Triple store
Consultas
Sparql
dataset SQL RDF
wrapper
Consultas
Sparql
• Rápido
• No actualizado
• Materializado
• No es rápido
• Actualizado
• Bases de datos relacionales
Mapeos R2RML
73. CONSULTAR DATOS ENLAZADOS
Breve introducción a SPARQL
SELECT Distinct ?Concepto
WHERE {
?x a ?Concepto.
}
http://es.dbpedia.org/sparql
SELECT Distinct ?x
WHERE {
?x a <http://schema.org/Airport>.
}
80. COMO ENLAZAR DATOS ABIERTOS ENTRE SÍ
Generando enlaces con LOD Refine
★ publicar los datos en la Web (en cualquier format) con una licencia abierta
★★ publicar los datos estructurados (ex: en Excel lugar de una imagen con datos)
★★★ publicar daots utilizando formatos no propietarios (ex:: CSV en lugar de Excel)
★★★★ utilitzar URIs para apuntar a cosas
★★★★
★
Enlazar datos con otros datos
93. OBJECTIVO DE LA SESIÓN
Facultar a los participantes para enlazar datos abiertos y su uso
Datos enlazados
● Ara sois capaces de:
● Definir que son los datos enlazados y la web semántica
● Identificar datos enlazados y saber navegar por ellos
● Describir recursos en la web (RDF)
● Generar datos RDF a partir de dato abiertos
● Utilizar técnicas para enlazar datos abiertos
● Consultar datos enlazados (SPARQL)