INICIATIVA BARCELONA OPEN DATA
EL VALOR D’OBRIR LES DADES
Datos enlazados
curso 1.6
Docente:
Álvaro Sicilia @alvarosiciliago
OBJECTIVO DE LA SESIÓN
● Al final de la sesión seréis capaces de:
● Definir que son los datos enlazados y la web semántica
● Identificar datos enlazados y saber navegar por ellos
● Describir recursos en la web (RDF)
● Identificar tecnologías para enlazar datos
Facultar a los participantes para enlazar datos abiertos y su uso
Datos enlazados
ÍNDICE
1. Introducción a los datos enlazados
2. De datos abiertos a datos enlazados
3. Uso de vocabularios y DCAT
4. Enlazar datos abiertos
5. Describir recursos en la web
6. Como transformar datos abiertos a RDF
7. Tecnologías utilizadas en la web semántica
8. Consultar datos enlazados
¿Que son los datos
enlazados?
Preparad una definición de este
concepto
Actividad colectiva
Tiempo: 2 minutos
Actividad
* http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData
** http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica
Los Datos Enlazados es la forma que tiene la Web Semántica
de vincular los distintos datos que están distribuidos en la
Web, de forma que se referencian de la misma forma que lo
hacen los enlaces de las páginas web*
La Web Semántica es una Web extendida, dotada de mayor
significado en la que cualquier usuario en Internet podrá
encontrar respuestas a sus preguntas de forma más rápida y
sencilla gracias a una información mejor definida**
INTRODUCCIÓN A LOS DATOS ENLAZADOS
INTRODUCCIÓN A LOS DATOS ENLAZADOS
INTRODUCCIÓN A LOS DATOS ENLAZADOS
IMDB Wikipedia
¿Lugar de nacimiento
de Harrison Ford?
¿Número de habitantes
de Chicago?
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas sobre una fuente de datos?
IMDB Wikipedia
¿Qué actores que han nacido en poblaciones de más
de 2 millones de habitantes?
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas complejas sobre múltiples
fuentes de datos?
IMDB Wikipedia
Usar la Web como una única gran base de datos global 
Movernos de una Web de documentos a una Web de Datos
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Preguntas complejas sobre múltiples
fuentes de datos?
DE DATOS ABIERTOS A DATOS ENLAZADOS
1. Usar URIs como nombres de las cosas
2. Usar HTTP URIs, para que cualquiera los pueda consultar
3. Cuando alguien consulta una URI, proporcionar información
útil en lenguajes estándar (RDF, SPARQL)
4. Incluir enlaces a otras URIs
* http://www.w3.org/DesignIssues/LinkedData.html
Los Cuatro principios de la Web de datos
enlazados (Tim Berners Lee, 2006)*
★ publicar los datos en la Web (en cualquier format) con una licencia abierta
★★ publicar los datos estructurados (ex: en Excel lugar de una imagen con datos)
★★★ publicar daots utilizando formatos no propietarios (ex:: CSV en lugar de Excel)
★★★★ utilitzar URIs para apuntar a cosas
★★★★★ Enlazar datos con otros datos
DE DATOS ABIERTOS A DATOS ENLAZADOS
Las 5 estrellas de Tim Berners Lee
DE DATOS ABIERTOS A DATOS ENLAZADOS
Wikipedia
DE DATOS ABIERTOS A DATOS ENLAZADOS
Wikipedia
Navegar por portales
de datos abiertos y
enlazados  listar los
diferentes portales
Actividad individual
Tiempo: 15 minutos
Actividad
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Cómo publicar datos enlazados?
1.
Empezar
por un
plan
5.
Mantenerlo
2.
Seleccionar
los datos
4. Publicación
3.
Creación
de un
dataset
Proceso de
los datos
abiertos
DE DATOS ABIERTOS A DATOS ENLAZADOS
¿Cómo publicar datos enlazados?
Aplicar un formato
abierto
Capturar los
metadatos
Aplicar una licencia
abierta
Revisar el dataset
Actividad
¿Que es un
vocabulario?
Preparad una definición de este
concepto
Actividad colectiva
Tiempo: 2 minutos
USO DE VOCABULARIOS Y DCAT
¿Qué es un vocabulario?
Los vocabularios definen los conceptos y relaciones
utilizados para describir y representar un área de
interés.
Definition taken from: http://www.w3.org/standards/semanticweb/ontology
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
Actividad
¿Crear un vocabulario
para el dataset de
ejemplo?
Actividad en grupos
Tiempo: 5 minutos
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
RAE:
1. f. Conjunto de edificios y calles, regidos por un ayu
ntamiento, cuya población densa y numerosa se
dedica por lo común a actividades no agrícolas.
RAE:
5. m. País soberano, reconocido como tal en el
orden internacional, asentado en un territorio
determinado y dotado de órganos de gobierno
propios..
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
Uso de vocabularios y DCAT
¿Dónde está el vocabulario?
City Creation date
Establishment
date
Long Lat Alt State
Pertenece a
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
- fecha creación
- fundación
City Creation date
Establishment
date
Long Lat Alt State
Pertenece a
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
Punto
Localización
- longitud
- latitud
- altitud
- fecha creación
- fundación
City Creation date
Establishment
date
Long Lat Alt State
Pertenece a
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
¿Dónde está el vocabulario?
• Un vocabulario puede representar muchos datasets
• Los vocabularios son utilizados para integrar o
armonizar datos de diferentes fuentes (CSV, bases de
datos, páginas web…)
Punto
Localización
- longitud
- latitud
- altitud
- fecha creación
- fundación
City Creation date
Establishment
date
Long Lat Alt State
Pertenece a
Estado
Ciudad
Ciudad Fecha creación Fundación Long Lat Alt Estado
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
Ventajas de utilizar vocabularios
Un vocabulario:
- Da contexto (para moverse de datos a información)
- Facilita reutilización de los datos
- Reduce ambigüedad
- Facilita la integración
- Facilita el mantenimiento
Adaptado de ODI Madrid
USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
DCAT es una especificación (vocabulario) para la
descripción de catálogos de datos en la red. La
especificación oficial ha sido elaborada por el W3C, basada
en algunos proyectos anteriores.
DCAT-AP (Application Profile) es una especificación
basada en DCAT para describir datasets del sector público
en Europa.
USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
https://www.w3.org/TR/vocab-dcat/
USO DE VOCABULARIOS Y DCAT
Data Catalog Vocabulary (DCAT)
Identificadores temáticos DCAT-AP Identificadores temáticos NTI-RISP
ciencia-tecnologia Ciencia-tecnologia
Agricultura, pesca, forestal y alimentación Medio-rural-pesca
Economía y finanzas Economía
Comercio
Hacienda
Educación, cultura y deporte Educación
Cultura-ocio
Deporte
Energía Energía
Medio ambiente Medio-ambiente
Gobierno y sector público Sector-publico
Salud Salud
Asuntos internacionales
Justicia, sistema legal y seguridad Legislacion-justicia
Seguridad
Regiones y ciudades Urbanismos-infraestructuras
Vivienda
Población y sociedad Demografía
Sociedad-bienestar
Empleo
Transporte Transporte
Industria
Turismo
Las temáticas de DCAT-AP han sido traducidas de su original en inglés. Esta equivalencia es realizada por Alberto
Abella y no hay una guía oficial refrendándola
USO DE VOCABULARIOS Y DCAT
Vocabulary of Interlinked Datasets (VoiD)
http://richard.cyganiak.de/2011/gld/gld-dcat-and-void.pdf
ENLAZAR DATOS ABIERTOS
¿Cómo publicar datos enlazados?
Aplicar un formato
abierto
Capturar los
metadatos
Aplicar una licencia
abierta
Revisar el dataset
Identificar enlaces
con otros datasets
Enlazar las instancias de
los diferentes datasets
ENLAZAR DATOS ABIERTOS
Enlazando datos abiertos
Procedimiento
1. Identificar aquellos conceptos cuyos individuos puedan ser
enlazados dado su interés y potencial.
2. Identificar qué conjuntos de datos pueden contener
instancias de los conceptos identificados previamente.
3. Seleccionar las herramientas mas adecuadas para llevar a
cabo el enlazado (semi) automático.
4. Ejecutar estas herramientas sobre las fuentes de datos
para obtener los correspondientes enlaces.
Adaptado de ODI Madrid
ENLAZAR DATOS ABIERTOS
Enlazando datos abiertos
• Alineación por valores. Determinar cuando dos valores de
dos propiedades expresados de forma diferente son
equivalentes
• Alineación por instancias. Determinar si dos instancias son
equivalentes
• De acuerdo a las descripciones disponibles para dichas
instancias
• Basado en agregación de técnicas de alineación de
valores, transitividad de owl:sameAs, mapeos de
ontologías, etc.
• Alineación por dataset. Utilizando un conjunto de
potenciales mapeos de individuos entre dos datasets
Adaptado de ODI Madrid
Actividad
¿Enlazar los datasets
de ejemplo?
Actividad en grupos
Tiempo: 15 minutos
Actividad
¿Enlazar los datasets de ejemplo?
Ciudad
Fecha
creación
Fundación Long Lat Alt Estado
Nombre Latitud Longitud
Madrid -10,074 -67,052
Barcelona -10,943 -69,563
Valencia -11,016 -68,748
Bilbao -9,820 -67,952
Tarragona -10,570 -67,674
Toledo -7,631 -72,673
Sevilla -11,028 -68,745
Zaragoza -8,936 -70,542
Cáceres -8,911 -73,111
Name Capital Geometry
Portugal Lisbon …
Italy Rome …
Greece Athens …
Spain Madrid …
France Paris …
Germany Berlin …
Belgium Brussels …
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
Harrison Ford es un Actor
Harrison Ford mide 1,85
Harrison Ford nació en Chicago
Actividad
Escribir triples para el
dataset de ejemplo
Actividad en grupos
Tiempo: 15 minutos
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_Ford
http://es.dbpedia.org/ontology/Actor
https://www.w3.org/1999/02/22-rdf-syntax-ns#type
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_Ford
http://es.dbpedia.org/resource/Chicago
http://es.dbpedia.org/ontology/birthPlace
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
http://es.dbpedia.org/resource/Harrison_Ford
“1.85”
http://es.dbpedia.org/ontology/height
height
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
…/Harrison_Ford
“1.85”
…/Chicago
…Actor
type
birthPlace
height
height
DESCRIBIR RECURSOS EN LA WEB
Describir la semántica de la información de manera
procesable por máquinas
Resource Description Framework (RDF)
Tripletas: Sujeto – Predicado – Objecto
…/Harrison_Ford
“1.85”
…/Chicago
…Actor
type
…/RobinWilliams
“1.7”
type
birthPlace
COMO TRANSFORMAR DATOS ABIERTOS A RDF
dataset
Rdf
dump Triple store
Consultas
Sparql
dataset SQL RDF
wrapper
Consultas
Sparql
• Rápido
• No actualizado
• Materializado
• No es rápido
• Actualizado
• Bases de datos relacionales
Mapeos R2RML
COMO TRANSFORMAR DATOS ABIERTOS A RDF
http://www.semanco-tools.eu/map-on
COMO TRANSFORMAR DATOS ABIERTOS A RDF
http://www.semanco-tools.eu/map-on
COMO TRANSFORMAR DATOS ABIERTOS A RDF
http://wifo5-03.informatik.uni-mannheim.de/pubby/
COMO TRANSFORMAR DATOS ABIERTOS A RDF
http://silkframework.org/
TECNOLOGÍAS UTILIZADAS EN LA WEB SEMÁNTICA
Triple stores:
- Virtuoso Universal Server virtuoso.openlinksw.com
- RDF4J www.rdf4j.org
Publicar datos
- Pubby wifo5-03.informatik.uni-mannheim.de/pubby
- Elda github.com/epimorphics/elda
Enlazar datos
- Silk silkframework.org
- Limes aksw.org/Projects/LIMES.html
W3C listado de recursos:
www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOp
enData/SemWebClients
CONSULTAR DATOS ENLAZADOS
Breve introducción a SPARQL
SELECT Distinct ?Concepto
WHERE {
?x a ?Concepto.
}
http://es.dbpedia.org/sparql
SELECT Distinct ?x
WHERE {
?x a <http://schema.org/Airport>.
}
Actividad
Consulta datos
enlazados
Actividad individual
Tiempo: 10 minutos
EJEMPLO DE HERRAMIENTA QUE UTILIZA DATOS
ENLAZADOS
EJEMPLO DE HERRAMIENTA QUE UTILIZA DATOS
ENLAZADOS
EJEMPLO DE HERRAMIENTA QUE UTILIZA DATOS
ENLAZADOS
OBJECTIVO DE LA SESIÓN
● Ara sois capaces de:
● Definir que son los datos enlazados y la web semántica
● Identificar datos enlazados y saber navegar por ellos
● Describir recursos en la web (RDF)
● Identificar tecnologías para enlazar datos
Facultar a los participantes para enlazar datos abiertos y su uso
Datos enlazados
Tiempo para
preguntas
Autoevaluación
https://goo.gl/forms/zviBRVgbpniTFY9k2

Curs 1.6. Dades Enllaçades (14/02)

  • 1.
    INICIATIVA BARCELONA OPENDATA EL VALOR D’OBRIR LES DADES Datos enlazados curso 1.6 Docente: Álvaro Sicilia @alvarosiciliago
  • 2.
    OBJECTIVO DE LASESIÓN ● Al final de la sesión seréis capaces de: ● Definir que son los datos enlazados y la web semántica ● Identificar datos enlazados y saber navegar por ellos ● Describir recursos en la web (RDF) ● Identificar tecnologías para enlazar datos Facultar a los participantes para enlazar datos abiertos y su uso Datos enlazados
  • 3.
    ÍNDICE 1. Introducción alos datos enlazados 2. De datos abiertos a datos enlazados 3. Uso de vocabularios y DCAT 4. Enlazar datos abiertos 5. Describir recursos en la web 6. Como transformar datos abiertos a RDF 7. Tecnologías utilizadas en la web semántica 8. Consultar datos enlazados
  • 4.
    ¿Que son losdatos enlazados? Preparad una definición de este concepto Actividad colectiva Tiempo: 2 minutos Actividad
  • 5.
    * http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData ** http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica LosDatos Enlazados es la forma que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas web* La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida** INTRODUCCIÓN A LOS DATOS ENLAZADOS
  • 6.
    INTRODUCCIÓN A LOSDATOS ENLAZADOS
  • 7.
    INTRODUCCIÓN A LOSDATOS ENLAZADOS
  • 8.
    IMDB Wikipedia ¿Lugar denacimiento de Harrison Ford? ¿Número de habitantes de Chicago? DE DATOS ABIERTOS A DATOS ENLAZADOS ¿Preguntas sobre una fuente de datos?
  • 9.
    IMDB Wikipedia ¿Qué actoresque han nacido en poblaciones de más de 2 millones de habitantes? DE DATOS ABIERTOS A DATOS ENLAZADOS ¿Preguntas complejas sobre múltiples fuentes de datos?
  • 10.
    IMDB Wikipedia Usar laWeb como una única gran base de datos global  Movernos de una Web de documentos a una Web de Datos DE DATOS ABIERTOS A DATOS ENLAZADOS ¿Preguntas complejas sobre múltiples fuentes de datos?
  • 11.
    DE DATOS ABIERTOSA DATOS ENLAZADOS 1. Usar URIs como nombres de las cosas 2. Usar HTTP URIs, para que cualquiera los pueda consultar 3. Cuando alguien consulta una URI, proporcionar información útil en lenguajes estándar (RDF, SPARQL) 4. Incluir enlaces a otras URIs * http://www.w3.org/DesignIssues/LinkedData.html Los Cuatro principios de la Web de datos enlazados (Tim Berners Lee, 2006)*
  • 12.
    ★ publicar losdatos en la Web (en cualquier format) con una licencia abierta ★★ publicar los datos estructurados (ex: en Excel lugar de una imagen con datos) ★★★ publicar daots utilizando formatos no propietarios (ex:: CSV en lugar de Excel) ★★★★ utilitzar URIs para apuntar a cosas ★★★★★ Enlazar datos con otros datos DE DATOS ABIERTOS A DATOS ENLAZADOS Las 5 estrellas de Tim Berners Lee
  • 13.
    DE DATOS ABIERTOSA DATOS ENLAZADOS Wikipedia
  • 14.
    DE DATOS ABIERTOSA DATOS ENLAZADOS Wikipedia
  • 15.
    Navegar por portales dedatos abiertos y enlazados  listar los diferentes portales Actividad individual Tiempo: 15 minutos Actividad
  • 16.
    DE DATOS ABIERTOSA DATOS ENLAZADOS ¿Cómo publicar datos enlazados? 1. Empezar por un plan 5. Mantenerlo 2. Seleccionar los datos 4. Publicación 3. Creación de un dataset Proceso de los datos abiertos
  • 17.
    DE DATOS ABIERTOSA DATOS ENLAZADOS ¿Cómo publicar datos enlazados? Aplicar un formato abierto Capturar los metadatos Aplicar una licencia abierta Revisar el dataset
  • 18.
    Actividad ¿Que es un vocabulario? Preparaduna definición de este concepto Actividad colectiva Tiempo: 2 minutos
  • 19.
    USO DE VOCABULARIOSY DCAT ¿Qué es un vocabulario? Los vocabularios definen los conceptos y relaciones utilizados para describir y representar un área de interés. Definition taken from: http://www.w3.org/standards/semanticweb/ontology
  • 20.
    USO DE VOCABULARIOSY DCAT ¿Dónde está el vocabulario? Adaptado de ODI Madrid
  • 21.
    USO DE VOCABULARIOSY DCAT ¿Dónde está el vocabulario? Ciudad Fecha creación Fundación Long Lat Alt Estado Adaptado de ODI Madrid
  • 22.
    Actividad ¿Crear un vocabulario parael dataset de ejemplo? Actividad en grupos Tiempo: 5 minutos
  • 23.
    USO DE VOCABULARIOSY DCAT ¿Dónde está el vocabulario? Estado Ciudad Ciudad Fecha creación Fundación Long Lat Alt Estado Adaptado de ODI Madrid
  • 24.
    USO DE VOCABULARIOSY DCAT ¿Dónde está el vocabulario? RAE: 1. f. Conjunto de edificios y calles, regidos por un ayu ntamiento, cuya población densa y numerosa se dedica por lo común a actividades no agrícolas. RAE: 5. m. País soberano, reconocido como tal en el orden internacional, asentado en un territorio determinado y dotado de órganos de gobierno propios.. Estado Ciudad Ciudad Fecha creación Fundación Long Lat Alt Estado Adaptado de ODI Madrid
  • 25.
    Uso de vocabulariosy DCAT ¿Dónde está el vocabulario? City Creation date Establishment date Long Lat Alt State Pertenece a Estado Ciudad Ciudad Fecha creación Fundación Long Lat Alt Estado Adaptado de ODI Madrid
  • 26.
    USO DE VOCABULARIOSY DCAT ¿Dónde está el vocabulario? - fecha creación - fundación City Creation date Establishment date Long Lat Alt State Pertenece a Estado Ciudad Ciudad Fecha creación Fundación Long Lat Alt Estado Adaptado de ODI Madrid
  • 27.
    USO DE VOCABULARIOSY DCAT ¿Dónde está el vocabulario? Punto Localización - longitud - latitud - altitud - fecha creación - fundación City Creation date Establishment date Long Lat Alt State Pertenece a Estado Ciudad Ciudad Fecha creación Fundación Long Lat Alt Estado Adaptado de ODI Madrid
  • 28.
    USO DE VOCABULARIOSY DCAT ¿Dónde está el vocabulario? • Un vocabulario puede representar muchos datasets • Los vocabularios son utilizados para integrar o armonizar datos de diferentes fuentes (CSV, bases de datos, páginas web…) Punto Localización - longitud - latitud - altitud - fecha creación - fundación City Creation date Establishment date Long Lat Alt State Pertenece a Estado Ciudad Ciudad Fecha creación Fundación Long Lat Alt Estado Adaptado de ODI Madrid
  • 29.
    USO DE VOCABULARIOSY DCAT Ventajas de utilizar vocabularios Un vocabulario: - Da contexto (para moverse de datos a información) - Facilita reutilización de los datos - Reduce ambigüedad - Facilita la integración - Facilita el mantenimiento Adaptado de ODI Madrid
  • 30.
    USO DE VOCABULARIOSY DCAT Data Catalog Vocabulary (DCAT) DCAT es una especificación (vocabulario) para la descripción de catálogos de datos en la red. La especificación oficial ha sido elaborada por el W3C, basada en algunos proyectos anteriores. DCAT-AP (Application Profile) es una especificación basada en DCAT para describir datasets del sector público en Europa.
  • 31.
    USO DE VOCABULARIOSY DCAT Data Catalog Vocabulary (DCAT) https://www.w3.org/TR/vocab-dcat/
  • 32.
    USO DE VOCABULARIOSY DCAT Data Catalog Vocabulary (DCAT) Identificadores temáticos DCAT-AP Identificadores temáticos NTI-RISP ciencia-tecnologia Ciencia-tecnologia Agricultura, pesca, forestal y alimentación Medio-rural-pesca Economía y finanzas Economía Comercio Hacienda Educación, cultura y deporte Educación Cultura-ocio Deporte Energía Energía Medio ambiente Medio-ambiente Gobierno y sector público Sector-publico Salud Salud Asuntos internacionales Justicia, sistema legal y seguridad Legislacion-justicia Seguridad Regiones y ciudades Urbanismos-infraestructuras Vivienda Población y sociedad Demografía Sociedad-bienestar Empleo Transporte Transporte Industria Turismo Las temáticas de DCAT-AP han sido traducidas de su original en inglés. Esta equivalencia es realizada por Alberto Abella y no hay una guía oficial refrendándola
  • 33.
    USO DE VOCABULARIOSY DCAT Vocabulary of Interlinked Datasets (VoiD) http://richard.cyganiak.de/2011/gld/gld-dcat-and-void.pdf
  • 34.
    ENLAZAR DATOS ABIERTOS ¿Cómopublicar datos enlazados? Aplicar un formato abierto Capturar los metadatos Aplicar una licencia abierta Revisar el dataset Identificar enlaces con otros datasets Enlazar las instancias de los diferentes datasets
  • 35.
    ENLAZAR DATOS ABIERTOS Enlazandodatos abiertos Procedimiento 1. Identificar aquellos conceptos cuyos individuos puedan ser enlazados dado su interés y potencial. 2. Identificar qué conjuntos de datos pueden contener instancias de los conceptos identificados previamente. 3. Seleccionar las herramientas mas adecuadas para llevar a cabo el enlazado (semi) automático. 4. Ejecutar estas herramientas sobre las fuentes de datos para obtener los correspondientes enlaces. Adaptado de ODI Madrid
  • 36.
    ENLAZAR DATOS ABIERTOS Enlazandodatos abiertos • Alineación por valores. Determinar cuando dos valores de dos propiedades expresados de forma diferente son equivalentes • Alineación por instancias. Determinar si dos instancias son equivalentes • De acuerdo a las descripciones disponibles para dichas instancias • Basado en agregación de técnicas de alineación de valores, transitividad de owl:sameAs, mapeos de ontologías, etc. • Alineación por dataset. Utilizando un conjunto de potenciales mapeos de individuos entre dos datasets Adaptado de ODI Madrid
  • 37.
    Actividad ¿Enlazar los datasets deejemplo? Actividad en grupos Tiempo: 15 minutos
  • 38.
    Actividad ¿Enlazar los datasetsde ejemplo? Ciudad Fecha creación Fundación Long Lat Alt Estado Nombre Latitud Longitud Madrid -10,074 -67,052 Barcelona -10,943 -69,563 Valencia -11,016 -68,748 Bilbao -9,820 -67,952 Tarragona -10,570 -67,674 Toledo -7,631 -72,673 Sevilla -11,028 -68,745 Zaragoza -8,936 -70,542 Cáceres -8,911 -73,111 Name Capital Geometry Portugal Lisbon … Italy Rome … Greece Athens … Spain Madrid … France Paris … Germany Berlin … Belgium Brussels …
  • 39.
    DESCRIBIR RECURSOS ENLA WEB Describir la semántica de la información de manera procesable por máquinas Resource Description Framework (RDF) Tripletas: Sujeto – Predicado – Objecto Harrison Ford es un Actor Harrison Ford mide 1,85 Harrison Ford nació en Chicago
  • 40.
    Actividad Escribir triples parael dataset de ejemplo Actividad en grupos Tiempo: 15 minutos
  • 41.
    DESCRIBIR RECURSOS ENLA WEB Describir la semántica de la información de manera procesable por máquinas Resource Description Framework (RDF) Tripletas: Sujeto – Predicado – Objecto http://es.dbpedia.org/resource/Harrison_Ford http://es.dbpedia.org/ontology/Actor https://www.w3.org/1999/02/22-rdf-syntax-ns#type
  • 42.
    DESCRIBIR RECURSOS ENLA WEB Describir la semántica de la información de manera procesable por máquinas Resource Description Framework (RDF) Tripletas: Sujeto – Predicado – Objecto http://es.dbpedia.org/resource/Harrison_Ford http://es.dbpedia.org/resource/Chicago http://es.dbpedia.org/ontology/birthPlace
  • 43.
    DESCRIBIR RECURSOS ENLA WEB Describir la semántica de la información de manera procesable por máquinas Resource Description Framework (RDF) Tripletas: Sujeto – Predicado – Objecto http://es.dbpedia.org/resource/Harrison_Ford “1.85” http://es.dbpedia.org/ontology/height
  • 44.
    height DESCRIBIR RECURSOS ENLA WEB Describir la semántica de la información de manera procesable por máquinas Resource Description Framework (RDF) Tripletas: Sujeto – Predicado – Objecto …/Harrison_Ford “1.85” …/Chicago …Actor type birthPlace
  • 45.
    height height DESCRIBIR RECURSOS ENLA WEB Describir la semántica de la información de manera procesable por máquinas Resource Description Framework (RDF) Tripletas: Sujeto – Predicado – Objecto …/Harrison_Ford “1.85” …/Chicago …Actor type …/RobinWilliams “1.7” type birthPlace
  • 46.
    COMO TRANSFORMAR DATOSABIERTOS A RDF dataset Rdf dump Triple store Consultas Sparql dataset SQL RDF wrapper Consultas Sparql • Rápido • No actualizado • Materializado • No es rápido • Actualizado • Bases de datos relacionales Mapeos R2RML
  • 47.
    COMO TRANSFORMAR DATOSABIERTOS A RDF http://www.semanco-tools.eu/map-on
  • 48.
    COMO TRANSFORMAR DATOSABIERTOS A RDF http://www.semanco-tools.eu/map-on
  • 49.
    COMO TRANSFORMAR DATOSABIERTOS A RDF http://wifo5-03.informatik.uni-mannheim.de/pubby/
  • 50.
    COMO TRANSFORMAR DATOSABIERTOS A RDF http://silkframework.org/
  • 51.
    TECNOLOGÍAS UTILIZADAS ENLA WEB SEMÁNTICA Triple stores: - Virtuoso Universal Server virtuoso.openlinksw.com - RDF4J www.rdf4j.org Publicar datos - Pubby wifo5-03.informatik.uni-mannheim.de/pubby - Elda github.com/epimorphics/elda Enlazar datos - Silk silkframework.org - Limes aksw.org/Projects/LIMES.html W3C listado de recursos: www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOp enData/SemWebClients
  • 52.
    CONSULTAR DATOS ENLAZADOS Breveintroducción a SPARQL SELECT Distinct ?Concepto WHERE { ?x a ?Concepto. } http://es.dbpedia.org/sparql SELECT Distinct ?x WHERE { ?x a <http://schema.org/Airport>. }
  • 53.
  • 54.
    EJEMPLO DE HERRAMIENTAQUE UTILIZA DATOS ENLAZADOS
  • 55.
    EJEMPLO DE HERRAMIENTAQUE UTILIZA DATOS ENLAZADOS
  • 56.
    EJEMPLO DE HERRAMIENTAQUE UTILIZA DATOS ENLAZADOS
  • 57.
    OBJECTIVO DE LASESIÓN ● Ara sois capaces de: ● Definir que son los datos enlazados y la web semántica ● Identificar datos enlazados y saber navegar por ellos ● Describir recursos en la web (RDF) ● Identificar tecnologías para enlazar datos Facultar a los participantes para enlazar datos abiertos y su uso Datos enlazados
  • 58.
  • 59.

Notas del editor

  • #5 Ejercicio- Individual. Profesor Pide que Cada alumno describa que entiende que son los datos enlazados Dar 2 minuto. Discutir las descripciones de los alumnos de forma colectiva.
  • #6 Dotar de mayor significado a la web  que los datos tengan significado Datos esten vinculados entre sí para poder hacer consultas complejas Pe: vuelos a ciudades que tengan el aeropuerto como máximo a 20km La información de distancia entre ciudades y aeropuertos igual no está guardada en ningun sitio, pero si cada uno está geolocalizado entonces el buscador semántico puede calcular la distancia entre ellos. - La web tradicional es para humanos, la web de datos es para humanos y máquinas
  • #7 Explicar ejemplo práctico de lo que es la web semántica Knowledge graph de google son datos enlazados Ford es una compania de construcción de coches.
  • #8 En cambio Harrison ford es un Actor. Y su knowledge graph integra datos de diferentes fuentes: Wikipedia, imdb, noticias…
  • #11 El objetivo de la web semantica o del enlazado de datos es crear una única gran base de datos global. Movernos de una web de documentos a una web de datos. De esta manera al estar enlazados las diferentes fuentes de datos uno puede ir saltando de una a otra buscando información. Tambien se facilita el analysis de los datos y la inferencia de información: En la Wikipedia existe el concepto de Chicagoans para denominar los habitants de Chicago. Por tanto, se podría deducir que Harrison Ford es Chicagoans. Esta información no existe ahora en IMDB con lo que en este scenario alquien podría utilizarla para realizar búsquedas
  • #12 En el 2006, Tim Berners Lee propuso cuatro principios básicos para la publicación de datos en la web, y los llamos datos enlazados (Linked data) 1. Utilizar URIs como nombres de las cosas. De hecho, una URI puede referenciar a un objeto que no esté disponible en la web, y sobre el que no tiene por qué haber ninguna información. Las URLs (Uniform Resource Locators) son tipos especiales de URIs que sí dicen cómo localizar un recurso, además de identificarlo. 2. Asegurarse que las URIs siguien el protocolo HTTP. De esta manera esos datos se podrán encontrar fácilmente por los navegadores web y aplicacions. 3. Asegurarse de que cuando alguien consulta una URI se proporciona información útil en un lenguaje estándar como rdf o sparql. 4. Incluir enlazes de esas URIs a otras URIs. De esta manera se permite navegar entre los datos. Así se superará que la información este en silos o en bases de datos cerradas.
  • #16 Portales de datos enlazados: http://datos.bne.es/ http://es.dbpedia.org/ http://opendata.caceres.es/
  • #18 A la hora de publicar datos, se realizan estas tareas: Aplicar un format abierto Caputrar los metadatos o vocabulario Aplicar una licencia abierta Revisar el dataset.
  • #19 Ejercicio- Individual. Profesor Pide que Cada alumno describa que entiende que es un vocabulario Dar 2 minuto. Discutir las descripciones de los alumnos de forma colectiva.
  • #20 Que entendeis con esta definición? Está clara? Se puede explicar de otra manera?
  • #21 Hay algun vocabulario en estos datos? No hay ningun vocabulario. Si quisieramos reutilizar estos datos tendríamos que descubrir que significan cada uno de los datos
  • #22 Hay ahora algun vocabulario en los datos? “Is there NOW a vocabulary in the data?” Well, we have identified some meanings, some terms, but the vocabulary is not complete. What would be needed?
  • #24 Un vocabulario define los conceptos y sus relaciones From Maria: Ask them to list at least 2 advantages of providing the vocabulary together with the data. Identify for whom is it an advantage. Publisher? User? Both?
  • #25 From Maria: Ask them to list at least 2 advantages of providing the vocabulary together with the data. Identify for whom is it an advantage. Publisher? User? Both?
  • #32 DCAT sirve para describer los catalogos de datos.: titulo, descricipon, lengauge, palabras clave, persona de contacto.
  • #33 Dcat define una serie de categorias para clasificar los catalogos de datos. Los portales de datos que son compatibles con DCAT deben tener sus datos classificados acorde a esta clasificación. El gobierno español tiene la normative NTI-RISP: Norma Técnica de Reutilización de recursos de información - Esta tiene otra clasificación que es compatible con DCAT. Aquí podeis ver las equivalencias.
  • #37 Alineacion por valores: se utiliza el valor de las propiedades para determiner si son lo mismo o no. por ejemplo Alineación por instancias si dos instasncias tienen las mismas propiedades es que seran la misma se utilizan los enlaces del tipo owl:sameAs para enlazar instancias Alineación por dataset dados unos pocos enlaces entre las instancias de dos datasets se utilizan para deducir el resto: