4. Introducción
Si quiero saber algo (y estoy solito)...
wikipedia
algún blog
algún foro
¿Calidad de la información? ¿es
confiable?
¿Licencia de la información? ¿es
reutilizable?
7. Introducción
Web
Buscadores actuales funcionan bien,
pero orientados al keyword
Análisis de palabras y textos
Análisis de los enlaces
¿y la semántica?
Ejemplo: “diputados o senadores cuyos
hermanos hayan sido jueces”
9. Introducción
Un problema es la heterogeneidad de la
información incluso en las diferentes
capas
• Codificación (ASCII, UNICODE, etc.)
• Lenguaje natural utilizado
• Disposición de la información en la página
web
10. Introducción
Soluciones
• ad hoc: usar métodos de IA para
analizar la información no
estructurada existente en la Web
• a priori: estructurar la información en
la Web para facilitar el análisis
automático Web Semántica
13. Introducción
Datos abiertos (open data)
es un idea que impulsa la publicación
de datos de forma libre y asequible a
cualquier persona, para que sean
usados y republicados sin
restricciones de ningún tipo
14. Introducción
Datos enlazados (linked data):
es usar la web para conectar datos
que no estaban relacionados
previamente. Usa algunas de las
mejores prácticas de la Web
Semántica
17. Introducción
Modelo datos enlazados
Use URIs para expresar “cosas”
Use HTTP URIs para que estas “cosas”
puedan ser referenciadas por personas y
programas
Proporcione información útil acerca de la
“cosa” (cuando se acceda a la URI)
usando estándares como RDF o SPARQL
Incluya enlaces a otras “cosas” (usando sus
URIs)
18. Introducción
★ coloque sus cosas en la web en cualquier formato
bajo una licencia abierta
★★ coloque sus cosas como datos estructurados, por
ejemplo, Excel en vez de una imagen escaneada
★★★ utilice formatos no propietarios, por ejemplo, CSV
en vez de Excel
★★★★ use URIs para expresar cosas, de tal manera que
las personas puedan referirse a sus cosas
★★★★★ enlace sus datos a otros datos para proveer
contexto
Esquema de las 5 estrellas
20. Ejemplos
Mal ejemplo:
http://opendata.congreso.cl/ (julio 2014)
No hay licencia explícita
No hay manuales
Usa diversas variedades de tecnologías
(algunas ya arcaicas)
No hay posibilidad de contacto
Estamos en Chile… ¿porqué “opendata”?
21.
22. Algunos detalles
Pero la web originalmente fue
concebida para documentos…
¿cómo llegar a una web de
datos?
23. Algunos detalles
Algunos caminos:
Agregar metadatos a los documentos, y que
estos metadatos estén en el modelo de
datos enlazados, o
Crear sitios especiales con datos
descriptivos acorde al modelo de datos
enlazados, o
Crear documentos con marcas semánticas y
que estas marcas estén acorde al modelo
de datos enlazados, u
Otra manera
24. Algunos detalles
Lo que se quiere es que el
significado de la información
pueda ser procesada
algorítmicamente
Ejemplo:
El <Río>Mapocho</Río> es el principal curso
de agua de <Ciudad>Santiago</Ciudad>.
26. Algunos detalles
Lógica: proporciona la estructura formal
para formular reglas, permitiendo que
los algoritmos puedan obtener
inferencias
Ontología: define los objetos, que
existen en un dominio particular
Computabilidad: es una propiedad de
una base de conocimientos, que
permite que sea efectiva/real
27. Algunos detalles
Ontologías: son representaciones,
de un conjunto de conceptos y
las relaciones entre ellos en un
dominio determinado,
lingüísticamente precisas y
estructuradas formalmente
31. PabloPablo
Garçon à la pipeGarçon à la pipe
PicassoPicasso utiliza
talla
pinta
nombre
apellido
Óleo sobre lienzoÓleo sobre lienzonombre
TizianoTiziano
VecelliVecelli
nombre
apellido
pinta
Fuga in EgittoFuga in Egitto
nombre
Miguel ÁngelMiguel Ángel
BuonarrotiBuonarroti
nombre
apellido
Museo del HermitageMuseo del Hermitage
Joven en cuclillasJoven en cuclillas
nombre
expuesta_en
expuesta_en
nombre
Pintor:I1
nombre
Cuadro:I2
Pintor:I4
Escultor:I7
Técnica:I3
Cuadro:I5
Museo:I6
Escultura:I8
utiliza
32. Algunos detalles
Lenguajes para ontologías:
RDF-Schema (extiende RDF con un
vocabulario de esquema y permite
inferencias)
OWL (añade mayor expresividad)
DAML+OIL
Topic Maps
F-Logic
WSML
KIF
…
33. Algunos detalles
RDF
Resource Description Framework (1998)
Descripción de recursos
Recurso = identificado por una URI
Se basa en tripletas
Sujeto Predicado Objeto
34. Algunos detalles
Tripletas RDF
Sujeto
•URI
•Nodo anónimo
Sujeto
•URI
•Nodo anónimo
Predicado
•URI
Predicado
•URI
Objeto
•URI
•Literal
•Nodo anónimo
Objeto
•URI
•Literal
•Nodo anónimo
Un colegioUn colegio Tiene como
nombre/etiqueta
Tiene como
nombre/etiqueta
Un literalUn literal
36. Algunos detalles
Tripletas RDF
Un colegioUn colegio Tiene como
nombre/etiqueta
Tiene como
nombre/etiqueta
Un literalUn literal
http://education.d
ata.gov.uk/id/sch
ool/401874
http://education.d
ata.gov.uk/id/sch
ool/401874
Tiene como
nombre/etiqueta
Tiene como
nombre/etiqueta
“Cardiff High
School”
“Cardiff High
School”
37. Algunos detalles
Tripletas RDF
Un colegioUn colegio Tiene como
nombre/etiqueta
Tiene como
nombre/etiqueta
Un literalUn literal
http://education.d
ata.gov.uk/id/sch
ool/401874
http://education.d
ata.gov.uk/id/sch
ool/401874
Tiene como
nombre/etiqueta
Tiene como
nombre/etiqueta
“Cardiff High
School”
“Cardiff High
School”
http://education.d
ata.gov.uk/id/sch
ool/401874
http://education.d
ata.gov.uk/id/sch
ool/401874
http://www.w3.org
/2000/01/rdf-
schema#label
http://www.w3.org
/2000/01/rdf-
schema#label
“Cardiff High
School”
“Cardiff High
School”
38.
39. Aplicación
LeyChile, liberado en 2008
Idea: añadirle Datos abiertos enlazados
(linked open data)
- http://dl.acm.org/citation.cfm?id=2063529
- h
ttp://conference.ifla.org/conference/past/ifla78/21
40. Aplicación
Paso 1:
Use URIs para expresar “cosas”
¿Cómo definir estas URIs?
Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000
¿Decretos?
Se requiere: número, fecha y organismo
Decreto 341 del 11 de noviembre de 2008 del Ministerio de
Educación
http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/3
41. Aplicación
Pero las normas tienen modificaciones,
por lo que la norma podría verse como
una fuente bibliográfica y así sería
posible de aplicar FRBR para obtener
el recurso, o una versión actualizada o
una manifestación específica en algún
formato especial
55. Bibliotecas
Library data cannot be used in a Linked Data environment
without having Uniform Resource Identifiers (URIs) both for
specific resources and for library-standard concepts. The
official owners of resource data and standards should
assign URIs as soon as possible, since application
developers and other users of such data will not delay their
activities, but are more likely to assign URIs themselves,
outside of the owning institution. When owners are not able
to assign URIs in good time, they should seek partners for
this work or delegate the assignment and maintenance of
URIs to others in order to avoid the proliferation of URIs for
the same thing and to encourage the re-use of URIs already
assigned.
Agencies responsible for the creation of catalog records and
other metadata, such as national bibliographies, are the
logical organizations to take a leading role in creating URIs
for their described resources.
60. ¿Futuro?
Documentos
• OCR
• aplicación de algoritmos Named-entity
Recognition
• Enlaces a ontologías
• Ejemplo: proyecto Historia de la Ley y
Labor Parlamentaria