Wikidata es un banco de datos colaborativo que almacena información estructurada sobre entidades y eventos del mundo real en forma de grafo. Los datos de Wikidata son legibles tanto para humanos como para máquinas y pueden ser consultados y modificados por cualquier persona. Wikidata contiene más de 80 millones de entradas y crece rápidamente gracias a la contribución de miles de editores de todo el mundo.
1. Wikidata: qué es y
cómo subirse al carro
Daniel Fernández Álvarez
fernandezalvdaniel@uniovi.es
2. ¿Qué es Wikidata?
• Un enorme grafo dirigido de datos de temática general.
• Un proyecto hermano de Wikipedia mantenido por una comunidad
internacional de usuarios.
• Una base de datos legible tanto para humanos como para máquinas.
• Una fuente de información pública con grandes oportunidades para
quien sepa sacar provecho de ella.
5. Tamaño
• Nº de entidades:
• Nº de ediciones:
• Vistas de páginas:
• Nº de idiomas:
• Nº de usuarios activos:
76 millones
1.100 millones
158.000 millones
438
24.000
6. Crecimiento desde 2012
2012 (fundación) Enero 2020
40 M
80 M
20 M
60 M
Nº de items
NÚMERO DE STATEMENTS POR ITEM
7. ¿Cómo representar el grafo?
• Modelo basado en Resource Description Language (RDF).
• La unidad mínima de conocimiento es la tripleta. Una tripleta
relaciona un sujeto con un objeto mediante un predicado:
Besullo
pais
España
SUJETO predicado OBJETO
8. ¿Cómo representar el grafo?
• Cada elemento y cada propiedad en RDF son representadas como una
URI (Universal Resource Identifier).
• Elementos sin entidad (números, fechas, cadenas de texto) son
llamados literales, no tienen una URI asociada.
• Se pueden utilizar nodos anónimos. Son elementos especiales cuya
identidad no importa pero pueden ayudar a agrupar otros elementos
o a crear topologías más complejas que la tripleta.
9. ¿Cómo representar el grafo?
• RDF es una abstracción. Un mismo contenido puede ser expresado en
diferentes sintaxis concretas de RDF
http://ex.org/Besullo
http://ex.org/pais
http://ex.org/España
Turtle
@prefix ns0: <http://ex.org/> .
<http://ex.org/Besullo> ns0:pais ns0:España .
JSON-LD
[{
"@id": "http://ex.org/Besullo",
"http://ex.org/pais":
[{ "@id": "http://ex.org/España"}]
},
{
"@id": "http://ex.org/España"
}]
<?xml version="1.0" encoding="utf-8" ?>
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-
rdf-syntax-ns#" xmlns:ns0="http://ex.org/">
<rdf:Description
rdf:about="http://ex.org/Besullo"> <ns0:pais
rdf:resource="http://ex.org/España"/>
</rdf:Description> </rdf:RDF>
RDF/XML
10. Wikipedia vs Wikidata
Forma de
representar la
información
Entendible por
humanos
Entendible por
máquinas
Páginas
de texto
Grafo de
información
X
13. Acceso avanzado a la información
Lenguaje de consultas SPARQL
¿Qué museos en el mundo almacenan al menos un cuadro de
algún pintor asturiano? ¿Cuáles son sus coordenadas?
14. Acceso avanzado a la información
SPARQL endpoint de Wikidata
https://query.wikidata.org/
• Diferentes herramientas de
visualización
• Sugerencias de términos
• Consultas de ejemplo y manuales
• Traducción de consultas a distintos
lenguajes de programación
15. Museos con cuadros de pintores asturianos
Museo de Historia del Arte de Viena
Museo Pau Casals
Rijksmuseum
Museo de Bellas Artes de Bilbao
Biblioteca Museo Víctor Balaguer
Museo Nacional Thyssen-
Bornemisza
Museo Nacional Centro de Arte
Reina Sofía
Museo de Bellas Artes de Houston
National Gallery de Londres
Museo del Prado
...
Ejecutar consulta
17. Integración: consultas federadas
Las tecnologías de web semántica nos permiten lanzar consultas que
involucren más de una fuente de información
Comparación de títulos de cuadros de
El Greco en distintas fuentes
Ejecutar la consulta
18. Representando información en Wikidata
Todas las entidades y todas las propiedades tienen una URI (identificador)
Entidades
http://www.wikidata.org/entity/ + Qxxxx
Propiedades
http://www.wikidata.org/prop/direct/ + Pxxx
Alejandro Casona Q289215
Besullo Q600783
Humano Q5
es un P31
lugar de nacimiento P19
país P17
20. ¿Cómo llega la información a Wikidata?
2 vías
Edición manual Bots
A través de un formulario web
Creación de nuevas entidades
Edición de entidades existentes
Creación de nuevas propiedades
Grandes modificaciones de información
Necesario solicitar permiso
21. Añadir una nueva entidad
Necesario estar logueado
1º: Asegurarse de que la entidad no existe ya
Uso del buscador de Wikidata
(y/o otros buscadores)
2º: Click en “Crear un elemento nuevo”
3º: Añadir información básica en algún(os) idioma(s)
Nombre, descripción, alias(es)
22. Modificar entidad existente con una sentencia
nueva
Necesario estar logueado
1º: Selección de propiedad adecuada
Sugerencias de autocompletar
Comprobación de otras entidades similares
2º: Selección de valor
Bien otra entidad de Wikidata, bien un literal
3º: Añadir calificadores y referencias
23. Sobre las referencias
Fuentes autoritativas
No hace falta referencia para hechos obvios/sin disputa
No usar Wikipedia como referencia
Dos propiedades principales
P854 – Afirmado en la dirección web
P248 – Afirmado en
Para información en páginas web
No es necesario crear una nueva entidad
Para casi todo lo demás: libros, revistas,
artículos científicos…
Necesario que exista en Wikidata la
entidad referenciada
26. Modelo de datos de calificadores:
Reificación
Barack Obama Presidente de USA
cargo
ocupado
Sujeto Objeto
27. Modelo de datos de calificadores:
Reificación
Barack Obama Presidente de USA
cargo
ocupado
Sujeto Objeto
Sujeto
Fecha
de inicio “20 ene 2009”
Sucede a
George W. Bush…
…
28. Modelo de datos de calificadores:
Reificación
cargo
Ocupado
(indirecto A)
Barack Obama Presidente de USA
Fecha
de inicio
“20 ene 2009”
Sucede a
George W. Bush
…
…
Nodo
anónimo
cargo
Ocupado
(indirecto B)
29. Modelo de datos de calificadores:
Reificación
cargo
Ocupado
(indirecto A)
Barack Obama Presidente de USA
Fecha
de inicio
“20 ene 2009”
Sucede a
George W. Bush
…
…
Nodo
anónimo
cargo
Ocupado
(indirecto B)
:Obama :cargo_ind_A _:1 .
_:1 :fecha_inicio “20 ene 2009” ;
:sucede_a :George_Bush ;
:cargo_ind_B :Presidente_US .
Representación turtle
33. Inventaire
• Librería colaborativa
• El core es una base de
usuarios y libros propia…
• … pero toda la
información relativa a los
libros se trae de Wikidata
34. Otras aplicaciones
• Muchas propuestas y posibilidades:
• Juegos
• Fotografía
• Entornos GLAM (Galerías, Librerías, Archivos, Museos).
• Turismo
• …
• Herramientas para la comunidad de Wikimedia:
Wikimedia Toolforge
• Proximamente en la EII: Hackaton de Wikidata
36. Retos
• Diferentes consultas SPARQL:
1. Mujeres que estudian antropología.
2. Humanos que estudian antropología cuyo género es mujer.
• Si los datos se representan usando diferentes esquemas, cada
consulta ignorará parte de los datos.
• Posible solución: Shape Expression (ShEx).
Homogeneidad estructural de datos
VS
37. ShEx
• ShEx es un lenguaje para validar y describir datos en RDF.
38. ShEx en Wikidata
• Descripción:
• Guía para editores.
• Guía para elaborar consultas SPARQL.
• Validación:
• Comprobación de uniformidad de algún tipo de entidad.
• Construcción automática de shapes a partir de datos existentes
43. Conclusiones
• Wikidata:
• Base de datos pública.
• Propósito general.
• Gran cantidad de información, y creciendo.
• Fácil integración con otras fuentes de Linked Data.
• Oportunidades:
• Participación altruista (edición de contenido).
• Desarrollo de aplicaciones.
• Investigación / Colaboración a través de:
• Grupo WESO.
• Comunidad local de Wikimedia.
44. Wikidata: qué es y
cómo subirse al carro
Daniel Fernández Álvarez
fernandezalvdaniel@uniovi.es