Datos enlazados para
instituciones
culturales
Daniel Vila Suero
dvila@fi.upm.es
Ontology Engineering Group, Universidad Po...
Principios
básicos
2
Datos enlazados para LAM
•  LAM (Library, Archives and Museums)
•  Datos enlazados para bibliotecas, archivos y
museos.
• ...
Recordatorio: Los 4 Principios
(1) Utilizar URIs para identificar las cosas (en la Web)
(2) Utilizar HTTP URIs para que se...
Principios 1 y 2
(1, 2) Utilizar HTTP URIs para identificar y permitir
recuperar nuestros objetos (en la Web)
Cada objeto,...
Buenas prácticas HTTP URIs
•  Cool URI's don't change:
-  Las URIs deben ser estables, no deben cambiar en el
tiempo pues ...
(Paréntesis)
•  Formato compacto para las URIs  CURIEs (Compact
URIs)
•  Mejoran la legibilidad (en general y para esta
p...
(Paréntesis)
•  Formato compacto para las URIs  CURIEs (Compact
URIs)
•  Mejoran la legibilidad (en general y para esta
p...
(Paréntesis)
9
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
Todo son HTTP URIs incluídos los conceptos d...
(Paréntesis)
10
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Todo son HTTP URIs incluíd...
Principio 3
(2) Describir las cosas (los recursos, objetos,
entidades) usando estándares de la Web semántica
(RDF, RDFS, S...
Principio 3
12
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Tripleta describiendo a Gar...
Principio 3
13
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorDe
Tripleta describiendo a Gar...
Principio 3
14
bncPersona:Gabriel_García_Márquez
"6#de#Marzo#de#1927"
frbr:fechaDeNacimiento
Tripleta describiendo a Garcí...
Principio 3
15
frbr:fechaDeNacimiento
Reutilizar vocabularios estándar: FRBR, RDA, ISBD..
frbr:esCreadorDe
isbd:HtuloPropi...
Buenas prácticas Vocabularios
•  Reutilizar vocabularios ampliamente utilizados,
estables y soportados por una comunidad
-...
Linked Open Vocabularies: Library
17
Resultado de aplicar principios 1, 2 y 3
18
bncPersona:Gabriel_García_Márquez
bncObra:Cien_años_de_soledad
frbr:esCreadorD...
Linked Open Vocabularies
19
Búsqueda y ranking de términos (Person, Work, etc.)
= = = Person
Principio 4
(4) Incluir enlaces a otras HTTP URIs para facilitar el
descubrimiento de más recursos
Tiene 2 vertientes que ...
Vertiente 1
21
bncPersona:Gabriel_García_Márquez
"Colombia" no permite recuperar
más información acerca del lugar de
nacim...
Vertiente 1 Enlaces
22
bncPersona:Gabriel_García_Márquez
Frbr:lugarDeNacimiento
"Colombia"
Evitar utilizar cadenas de cara...
Vertiente 2 Enlaces: sameAs
23
bncPersona:Gabriel_García_Márquez
owl:sameAs
Enlaces al mismo recurso en otros
conjuntos de...
Buenas prácticas Enlazado
•  Enlazar con conjuntos de datos relevantes dentro
de una comunidad determinado
-  ¿Cómo?
•  Re...
datos.bne.es
25
Especificación
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
•  Registros en formato...
Modelado: FRBR
Obras
Expresiones
Manifestaciones
Obra 1
Obra 2
Obra 3
Expresión 1
Expresión 2
Manifestación1 Manifestación...
Ontología basada en vocabularios de IFLA
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotaci...
Marimba utiliza la ontología para generar RDF
BNE
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
...
Proceso de transformación
30
•  How to facilitate the mapping process to library
experts?
1.  Use a familiar and intuitive...
Marimba: Proceso de mapping
100 $a
Cervantes
Saavedra,
Miguel de
100 $a frbr:Person
String(100 $a $t) frbr:isCreatorOf100 ...
Proceso de mapping
32
Open mappings at: http://bne.linkeddata.es/mapping-marc21
Marimba: Proceso de transformación a RDF y mappings
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Identificación de Entidades:
Dada una etiqueta de ...
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Anotación de Entidades:
Dada una etiqueta de campo...
IDENTIFICACIÓN ANOTACIÓN RELACIÓN
MAPPING A MAPPING B MAPPING C
Mapping Relación entre Entidades:
Dados dos tipos de entid...
Marimba enlaza con otros recursos:
VIAF, DNB, SUDOC, LIBRIS, DBpedia
BNE
http://datos.bne.es/resource/XX1718747
Same As
Sa...
Especficación
Modelado
Generación
RDF
Publicación
Generación
de enlaces
Explotación
Marimba enlaza con otros recursos:
VIA...
Publicación
• Publicación de los datos
• Publicar los metadatos sobre el dataset con VOID y
DCAT
• Para facilitar el descu...
Explotación
•  2 perspectivas diferentes
-  Sistemas y aplicaciones:
1.  SPARQL endpoint,
2.  Linked Data API
-  Interface...
Explotación: Ejemplo
41
Don Quijote de la Mancha
French manifestations
(213)
Novelas Ejemplares
Spanish manifestations
(30...
Permitiendo el acceso a aplicaciones
42
Linked Data API: http://datos.bne.es/frontend/persons
Acceso y navegación flexible
43
Consuming Out of the box:
• Search by every field
• Access cluster of resources
• Filterin...
Diferentes vistas sobre el mismo recurso
44
Consuming
HTML
XML
45
Interfaces de usuario
Datos enlazados abre la puerta a:
• Re-ranking resultados OPAC results
• Mejor clustering, busque...
Artículos sobre proceso en datos.bne.es
•  Datos.bne.es: A library linked dataset. Semantic
Web Journal 2013 to appear:
h#...
Muchas gracias!
Preguntas?
Para cualquier cuestión o propuesta de
colaboración
Email: dvila@fi.upm.es
Twitter: @dvilasuero...
Próxima SlideShare
Cargando en…5
×

Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

754 visualizaciones

Publicado el

Seminario impartido el 12 de Julio de 2013 para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
754
En SlideShare
0
De insertados
0
Número de insertados
7
Acciones
Compartido
0
Descargas
13
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

Datos enlazados para instituciones culturales - Seminario para la Biblioteca Nacional y el Ministerio de Cultura de Colombia

  1. 1. Datos enlazados para instituciones culturales Daniel Vila Suero dvila@fi.upm.es Ontology Engineering Group, Universidad Politécnica de Madrid Acknowledgements: OEG Members, BNE team (Elena Escolano, Marina Jimenez Piano, Ana Manchado, Mar Hernández Agustí, Ricardo Santos and others) Seminario para la Biblioteca Nacional de Colombia Viernes 12 de Julio de 2013 This work is funded by the Spanish Project TIN2010-17550 for the BabeLData project, and by BNE
  2. 2. Principios básicos 2
  3. 3. Datos enlazados para LAM •  LAM (Library, Archives and Museums) •  Datos enlazados para bibliotecas, archivos y museos. •  ¿Qué? Publicar los datos de estas instituciones siguiendo los principios de Linked Data. •  ¿Cuáles son esos principios y cómo se transladan al dominio de patrimonio cultural e histórico? 3
  4. 4. Recordatorio: Los 4 Principios (1) Utilizar URIs para identificar las cosas (en la Web) (2) Utilizar HTTP URIs para que se puedan recuperar sus descripciones (en la Web) (3) Describir las cosas (los recursos, objetos, entidades) usando estándares de la Web semántica (RDF, RDFS, SPARQL) (4) Incluir enlaces a otras HTTP URIs para facilitar el descubrimiento de más recursos 4
  5. 5. Principios 1 y 2 (1, 2) Utilizar HTTP URIs para identificar y permitir recuperar nuestros objetos (en la Web) Cada objeto, recurso, activo relevante tiene su propio identificador en la Web: HTTP URI. Por ejemplo: - Personas: Gabriel García Márquez ! h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez= - Obras: Cien años de soledad = h"p://datos.bibliotecanacional.gov.co/obras/Cien_años_de_soledad= 5
  6. 6. Buenas prácticas HTTP URIs •  Cool URI's don't change: -  Las URIs deben ser estables, no deben cambiar en el tiempo pues son el punto de acceso a nuestros recursos. El dominio y los servidores deben estar manejados por nuestra institución -  URIs bien estructuradas y predecibles: •  /personas/ID: todas las URIs que siguen este patrón son Personas -  Omitir detalles de la tecnología utilizada, fechas, etc.: •  MAL: http://datos.bibliotecanacional.gov.co/index.php? persona=Garcia_Marquez -  Las HTTP URIs son principalmente para ser manejadas por las máquinas, si existe un ID único en los datos de origen se debería utilizar. Por ejemplo el 001 de MARC 21 6
  7. 7. (Paréntesis) •  Formato compacto para las URIs  CURIEs (Compact URIs) •  Mejoran la legibilidad (en general y para esta presentación en particular): URI completa: h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez= Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/! ID: Gabriel_García_Márquez = = = 7
  8. 8. (Paréntesis) •  Formato compacto para las URIs  CURIEs (Compact URIs) •  Mejoran la legibilidad (en general y para esta presentación en particular): URI completa: h"p://datos.bibliotecanacional.gov.co/personas/Gabriel_García_Márquez= Prefijo: =bncPersona===h#p://datos.bibliotecanacional.gov.co/personas/! ID: Gabriel_García_Márquez = = = 8 bncPersona:Gabriel_García_Márquez
  9. 9. (Paréntesis) 9 bncPersona:Gabriel_García_Márquez bncObra:Cien_años_de_soledad Todo son HTTP URIs incluídos los conceptos del vocabulario utilizado (esquema, ontología)
  10. 10. (Paréntesis) 10 bncPersona:Gabriel_García_Márquez bncObra:Cien_años_de_soledad frbr:esCreadorDe Todo son HTTP URIs incluídos los conceptos del vocabulario utilizado (esquema, ontología)
  11. 11. Principio 3 (2) Describir las cosas (los recursos, objetos, entidades) usando estándares de la Web semántica (RDF, RDFS, SPARQL) Describimos: - Mediante tripletas RDF los atributos de nuestros recursos. - Utilizando clases y propiedades de vocabularios o ontologías (FRBR, ISBD, etc) 11
  12. 12. Principio 3 12 bncPersona:Gabriel_García_Márquez bncObra:Cien_años_de_soledad frbr:esCreadorDe Tripleta describiendo a García Márquez
  13. 13. Principio 3 13 bncPersona:Gabriel_García_Márquez bncObra:Cien_años_de_soledad frbr:esCreadorDe Tripleta describiendo a García Márquez Sujeto Predicado Objeto
  14. 14. Principio 3 14 bncPersona:Gabriel_García_Márquez "6#de#Marzo#de#1927" frbr:fechaDeNacimiento Tripleta describiendo a García Márquez Sujeto Predicado Objeto
  15. 15. Principio 3 15 frbr:fechaDeNacimiento Reutilizar vocabularios estándar: FRBR, RDA, ISBD.. frbr:esCreadorDe isbd:HtuloPropiamenteDicho foaf:Person Básicamente: - Clases: Definen el tipo de recurso (Persona, obra,etc) - Propiedades: Definen carácterísticas del recurso (fechas, título, nombre, etc.)
  16. 16. Buenas prácticas Vocabularios •  Reutilizar vocabularios ampliamente utilizados, estables y soportados por una comunidad -  ¿Cómo? •  Recomendación 1: Análisis de otros conjuntos de datos del mismo dominio (Bibliotecas, Museos, etc.) •  Recomendación 2: Buscar conceptos en repositorios de vocabularios. El más recomendable es LOV (Linked Open Vocabularies) de la Open Knowledge Foundation h"p://lov.okfn.org/= 16
  17. 17. Linked Open Vocabularies: Library 17
  18. 18. Resultado de aplicar principios 1, 2 y 3 18 bncPersona:Gabriel_García_Márquez bncObra:Cien_años_de_soledad frbr:esCreadorDe Grafo de URIs describiendo a Gabriel García-Márquez "6#de#Marzo#de#1927" frbr:fechaDeNacimiento Frbr:lugarDeNacimiento "Colombia"
  19. 19. Linked Open Vocabularies 19 Búsqueda y ranking de términos (Person, Work, etc.) = = = Person
  20. 20. Principio 4 (4) Incluir enlaces a otras HTTP URIs para facilitar el descubrimiento de más recursos Tiene 2 vertientes que permiten aumentar/enriquecer las descripciones: 1- Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs: Usar la URI de Colombia en DBpedia frente a utilizar la cadena "Colombia" 2 - Incluir enlaces a la mismo recurso descrito en otro conjunto de datos: Enlaces a García Márquez en VIAF, BNE, etc 20
  21. 21. Vertiente 1 21 bncPersona:Gabriel_García_Márquez "Colombia" no permite recuperar más información acerca del lugar de nacimiento, solo el nombre Frbr:lugarDeNacimiento "Colombia" Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs:
  22. 22. Vertiente 1 Enlaces 22 bncPersona:Gabriel_García_Márquez Frbr:lugarDeNacimiento "Colombia" Evitar utilizar cadenas de caracteres en el objeto de la tripleta y utilizar URIs: X dbpedia:Colombia V Dbpedia:imagenBandera Ampliamos la red de conocimiento
  23. 23. Vertiente 2 Enlaces: sameAs 23 bncPersona:Gabriel_García_Márquez owl:sameAs Enlaces al mismo recurso en otros conjuntos de datos enlazados bne:Gabriel_García_Márquez Ampliamos la red de conocimiento sobre García Márquez en la BNC (Obras catalogadas en la BNE, descripciones en VIAF, etc.) owl:sameAs viaf:Gabriel_García_Márquez
  24. 24. Buenas prácticas Enlazado •  Enlazar con conjuntos de datos relevantes dentro de una comunidad determinado -  ¿Cómo? •  Recomendación 1: Recursos como VIAF, BNE o DBpedia contienen numersos enlaces a otros recursos similares. Centrarse inicialmente en estos para maximizar el resultado •  Recomendación 2: Buscar otros conjuntos de datos dentro del area. En repositorios como: h"p://datahub.io= 24
  25. 25. datos.bne.es 25
  26. 26. Especificación Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación •  Registros en formato MARC 21 •  3.9 millones registros bibliográficos •  4.2 millones registros autoridad •  Versión: Noviembre 2011
  27. 27. Modelado: FRBR Obras Expresiones Manifestaciones Obra 1 Obra 2 Obra 3 Expresión 1 Expresión 2 Manifestación1 Manifestación2 Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  28. 28. Ontología basada en vocabularios de IFLA Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  29. 29. Marimba utiliza la ontología para generar RDF BNE Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  30. 30. Proceso de transformación 30 •  How to facilitate the mapping process to library experts? 1.  Use a familiar and intuitive interface: Spreadsheets 2.  Work only on what's in the database: Pre-process records to build the spreadsheets •  3 step-process 3 different spreadsheets 1.  Classification: is it a Person? a Work? a Manifestation? 2.  Annotation: name, birth date, title, language of expression 3.  Relation: find relationships between entities (Person is creator of a certain work)
  31. 31. Marimba: Proceso de mapping 100 $a Cervantes Saavedra, Miguel de 100 $a frbr:Person String(100 $a $t) frbr:isCreatorOf100 $a Cervantes Saavedra, Miguel de $t Don Quijote de la Mancha String(100 $a) 100 $a $t frbr:titleOfWork100 $t MARC 21 DATA MARC 21 STRUCTURE RDFS/OWL 100 $a frbr:nameOfPerson PRE-PROCESSING STEP has subfield has subfield has heading has heading has content has content contained in frbr:Work Heading Class Object property Datatype/Annotation property maps to maps to maps to maps to maps to Librarians manually define the mappings Variation (100$a + $t) 31
  32. 32. Proceso de mapping 32 Open mappings at: http://bne.linkeddata.es/mapping-marc21
  33. 33. Marimba: Proceso de transformación a RDF y mappings IDENTIFICACIÓN ANOTACIÓN RELACIÓN MAPPING A MAPPING B MAPPING C
  34. 34. IDENTIFICACIÓN ANOTACIÓN RELACIÓN MAPPING A MAPPING B MAPPING C Mapping Identificación de Entidades: Dada una etiqueta de campos y una combinación de subcampos, se determina a qué entidad FRBR se relaciona. Por ejemplo: 100 $a $d  Persona (FRBR Grupo 2) 100 $a $t  Obra (FRBR Grupo 1) Marimba: Proceso de transformación a RDF y mappings
  35. 35. IDENTIFICACIÓN ANOTACIÓN RELACIÓN MAPPING A MAPPING B MAPPING C Mapping Anotación de Entidades: Dada una etiqueta de campos y de subcampo, se determina qué propiedad o atributo de la entidad se anota: Por ejemplo: 100 $d  Fecha asociada a persona 100 $t  Titulo de la obra
  36. 36. IDENTIFICACIÓN ANOTACIÓN RELACIÓN MAPPING A MAPPING B MAPPING C Mapping Relación entre Entidades: Dados dos tipos de entidades E1 y E2 (e.g. Persona y Obra), y dado un identificador de subcampo que representa la variación de subcampos entre E1 y E2 en su punto de acceso principal y sabiendo que el valor del punto de acceso de E1 está contenido en E2, se determina que tipo de relación existe entre E1 y E2. Por ejemplo: Persona-Obra $t  Persona es creadora de Obra Obra-Obra $n  Obra es parte de Obra Marimba: Proceso de transformación a RDF y mappings
  37. 37. Marimba enlaza con otros recursos: VIAF, DNB, SUDOC, LIBRIS, DBpedia BNE http://datos.bne.es/resource/XX1718747 Same As Same As Same As Same As Same As LIBRIS http://libris.kb.se/resource/auth/45369 SUDOC http://www.idref.fr/026774771/id DNB http://d-nb.info/gnd/11851993X DBpedia http://dbpedia.org/resource/Miguel_de_Cervantes VIAF http://viaf.org/viaf/17220427 Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  38. 38. Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación Marimba enlaza con otros recursos: VIAF, DNB, SUDOC, LIBRIS, DBpedia
  39. 39. Publicación • Publicación de los datos • Publicar los metadatos sobre el dataset con VOID y DCAT • Para facilitar el descubrimiento del dataset • Registrar el conjunto de datos en DataHub • Generar el sitemap usando sitemap4rdf • Cargar el sitemap en Google y Sindice Especficación Modelado Generación RDF Publicación Generación de enlaces Explotación
  40. 40. Explotación •  2 perspectivas diferentes -  Sistemas y aplicaciones: 1.  SPARQL endpoint, 2.  Linked Data API -  Interfaces de usuario •  Usando tecnologías abiertas Web facilitamos la reutilización por terceros y permitimos uso de herramientas de: -  Data analytics, interfaces/APIs enriquecidas, etc. 40
  41. 41. Explotación: Ejemplo 41 Don Quijote de la Mancha French manifestations (213) Novelas Ejemplares Spanish manifestations (303) Don Quijote de la Mancha Spanish manifestations (840) Don Quijote de la Mancha English manifestations (247) Don Quijote de la Mancha frbr:Work Miguel de Cervantes Don Quijote de la Mancha German manifestations (49) Entremeses Spanish manifestations (86) frbr:Work frbr:isEmbodiedIn frbr:Expression frbr:Expression frbr:IsManifestedBy frbr:Manifestation frbr:Person frbr:isCreatorOf frbr:Work ( ) Number of resources Using Open-source tools: Gephi for example http://bne.linkeddata.es/graphvis
  42. 42. Permitiendo el acceso a aplicaciones 42 Linked Data API: http://datos.bne.es/frontend/persons
  43. 43. Acceso y navegación flexible 43 Consuming Out of the box: • Search by every field • Access cluster of resources • Filtering • Paging • Serve multiple formats: XML, Turtle, JSON
  44. 44. Diferentes vistas sobre el mismo recurso 44 Consuming HTML XML
  45. 45. 45 Interfaces de usuario Datos enlazados abre la puerta a: • Re-ranking resultados OPAC results • Mejor clustering, busquedas facetadas • Motores de recomendación • Enriquecimiento de datos y experiencia de usuario
  46. 46. Artículos sobre proceso en datos.bne.es •  Datos.bne.es: A library linked dataset. Semantic Web Journal 2013 to appear: h#p://www.seman@cAwebAjournal.net/content/datosbneesAlibraryAlinkedAdataAdataset •  Daniel Vila-Suero and Elena Escolano “Linked Data at the Spanish National Library and the application of IFLA RDFS models”. ScatNews, IFLA Cataloguing news, 2011. 46
  47. 47. Muchas gracias! Preguntas? Para cualquier cuestión o propuesta de colaboración Email: dvila@fi.upm.es Twitter: @dvilasuero 47

×