Este documento presenta siete lecciones aprendidas sobre la publicación de datos enlazados. La primera lección es que la institución debe estar plenamente convencida de publicar datos enlazados para proporcionar recursos y sostenibilidad a largo plazo. La segunda lección es que los datos deben estar curados y ser de alta calidad antes de generar enlaces. La tercera lección es que los aspectos metodológicos como la modelización, generación y publicación de datos son importantes e involucran múltiples tecnologías.
Lecciones aprendidas en la publicación de datos enlazados. Asunción Gómez-Pérez
1. Lecciones aprendidas en la
publicación de datos
enlazados
Asunción Gómez-Pérez
Facultad de Informática, Universidad Politécnica de Madrid
Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid
http://www.oeg-upm.net
asun@fi.upm.es
Agradecimientos:
O. Corcho, D. Vila
Jornada de Web semántica en archivos, bibliotecas y museos.
Madrid, 10 de abril de 2014
2. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Los datos enlazados son para las máquinas, también para los humanos
3. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Casuística
Dominios FuentesProveedores Idiomas
4. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
¿Qué busca el usuario de datos enlazados?
• ¿Quién generó el conjunto de datos?
• ¿Cuándo se creó el conjunto de datos?
• ¿Cómo se creó el conjunto de datos?
• ¿Es ésta la última versión?
• ¿Está la información sobre licencias de uso claramente identificada?
• ¿En qué formatos se me ofrecen los datos abiertos?
• ¿Son los datos monoligües o multilingües?
5. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Lección 1. La institución debe estar convencida
Convencimiento institucional
• Aportar recursos humanos
• Antes de empezar:
• Datos recopilados
• Datos de calidad en origen
• No es una solución a coste cero
• Presupuesto asignado interno
• Presupuesto externo,si solita la ayuda de terceros
• Plan de formación interno en tecnologías semánticas
• Otra tecnología a mantener
• Persistencia y sostenibilidad
• Los datos evolucionan
5
6. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Lección 2: Usar datos curados
6
No se debe generar datos
enlazados a partir de
cualquier dato
7. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Lección 3: Los aspectos metodológicos son importantes
Especificación
Modelado del
vocabulario
(ontología)
Generación
en RDF
Publicación
Explotacion
Enlazado con
otros datos
7
Limpieza
de los
datos
Muchas
tecnologías
involucradas
8. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Lección 4: Utilizar ontologías
http://www.server1.org/resource/Cervantes
http://www.server2.es/resource/Cervantes
http://datos.bne.es/resource/XX1718747
http://d-nb.info/gnd/11851993X
http://geo.linkeddata.es/page/resource/Municipio/Cervantes
Same as
Same as
Same as
Same as
URI
URI
URI
URI
URI
914 296 093
276,4 km²
Phone
Size
1547
#People
1547
Date of Birth
Author
D. Quijote
Cervantes
(persona)
9. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Cervantes y un poco de semántica
http://www.server1.org/resource/Cervantes
http://www.server2.es/resource/Cervantes
http://datos.bne.es/resource/XX1718747
http://d-nb.info/gnd/11851993X
http://geo.linkeddata.es/page/resource/Municipio/Cervantes
Same as
Person
rdf:type
rdf:type
Retaurant
rdf:type
Street
rdf:type
Municipality
rdf:type
URI
URI
URI
URI
URI
1547
Date of Birth
Author
D. Quijote
Cervantes
(Person)
Asunción Gómez-Pérez W3C @ Spain – 2013 Madrid, 18th December
10. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Lección 5: Introducir metadatos adicionales siguiendo estándares
• Propiedad Intelectual
• Licencias de uso
• Procedencia (Provenance) del dato
• Proceso seguido para:
• obtener el dato en su formato original
• generar el dato en RDF
• Idioma
10
11. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Lección 6: Ser selectivos con los enlaces
• No hay que enlazar con todo
• Enlaces con recursos
• De calidad
• Relevantes
• que abren la puerta a otros recursos
• Enlaces persistentes
11
12. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Efectos colaterales importantes
12
El proceso de generar RDF incrementa la
calidad de los datos en el formato origen
• Detección automática de anomalías
• Reducción de costes
13. Lecciones aprendidas en la publicación de datos enlazados A. Gómez-Pérez Madrid 10 de abril de 2014
Conclusiones
1. Convencimiento institucional
2. Generar con datos de calidad
3. Los aspectos metodológicos son importantes
4. Las ontologías proporcionan contexto al dato
5. Introducir metadatos de procedencia, licencias e
idiomas
6. Ser selectivos con los enlaces
7. Efectos colaterales importantes
• Mejora de los datos de la institución
• Reducción de costes
8. Plan de formación en Tecnologías Semánticas y
Datos enlazados
• (cursos disponibles en http://www.oeg-upm.net/)
14. Lecciones aprendidas en la
publicación de datos
enlazados
Asunción Gómez-Pérez
Facultad de Informática, Universidad Politécnica de Madrid
Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid
http://www.oeg-upm.net
asun@fi.upm.es
Agradecimientos:
O. Corcho, D. Vila
Jornada de Web semántica en archivos, bibliotecas y museos.
Madrid, 10 de abril de 2014