Hernandez_Hernandez_Practica web de la sesion 12.pptx
Conferencia Datos Abiertos Regionales, Montevideo, 2013
1. Gestión digital de la información
del papel a la web semántica
Christian Sifaqui
26.7.2013
2. Conceptos
Open Data: es un idea que impulsa la publicación de
datos de forma libre y asequible a cualquier
persona para usar y republicar sin restricciones de
ningún tipo
Linked Data: es usar la web para conectar datos
relacionados que no estaban enlazados
previamente. Usa algunas de las mejores prácticas
de la Web Semántica
3. Dudas
¿Dónde está la web del gobierno anterior?
¿Dónde está la web del ministro anterior?
Papel
Ha durado miles de años… y durará miles de años más
4. Una historia: procesamiento de diarios
Unidad de Recortes de Prensa:
analizaba las noticias
recortaba físicamente (con tijeras)
almacenaba estos recortes en sobres clasificados por materia, previa
asignación de una tarjeta de identificación
actualmente son más de 5 millones de recortes de prensa
5. Una historia: procesamiento de diarios
Actualmente
Digitalizando recortes (estándares, resolución, …)
Metadata (Dublin core, propias …)
OCR (calidad, ICR, …)
Estos documentos se ingresan como noticias históricas en un sistema
de noticias
6. Una historia: procesamiento de diarios
Unidad de Indización de la prensa:
revisaba los diarios
redactaba fichas con un resumen y con una referencia al diario
cerrada en 1990 (pasó al olvido)
existen 15 ficheros con estas fichas
9. Una historia: procesamiento de diarios
Encontró artículo
(mismo medio, fecha y contenido)
Encontró para el mismo día contenidos
similares pero de diferentes medios
Encontró en la semana artículos de
contenidos similares
10. Una historia: procesamiento de diarios
Después de 22 años se pudo integrar información on-the-
fly, ya que se dispuso digitalmente
Pero…
sólo para Senador Anselmo Sule
107 fichas
digitalización 107 fichas 10 minutos
OCR 5 minutos sin corrección
dos personas usaron 2:45 hrs. c/u para revisar OCRs
Tenemos 400.000 fichas app.
Sólo un prototipo
15. Legislación
Hacer disponible y facilitar el acceso a la comunidad de las
fuentes jurídicas de uso en el Congreso Nacional, junto con
educar y fomentar las redes sociales en torno a temas
jurídicos
17. Legislación
En los años 50
compilación mediante fichas con referencias entre las
normas y clasificadas por materia
18. Legislación
En los 80
el sistema de fichas fue reemplazado por un sistema
automático basado en STAIRS
A mediados de los 90
el sistema anterior se reemplaza por una arquitctura cliente-
servidor basada en BASIS PLUS, reconstruyendo en línea en
texto completo de las normas
28. LeyChile
XML
Texto: versiones, hypervículos, referencias, notas
Estructura: Organización jerárquica de las partes de una
norma
Metadata: información adicional del documento, como
identificación de la norma, materias, términos libres, etc.
31. LeyChile: nuestra oferta a máquinas
WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)
Links, widgets, web services (http://llevatelo.bcn.cl)
32. LeyChile: ¿es posibe incorporarle linked-open
data (LOD)?
Extensión natural
Mejorar la interoperabilidad (más formatos)
Crear ontologías del dominio
Ofrecer una solución a consultas complejas usando un
endpoint SPARQL
Primer paso: exponer metadata de las normas
33. Principios LOD: URIs
Diseño cuidadoso
(leyes, decretos, reglamentos, resoluciones, decretos ley…)
FRBR
Work ley 20000
Expression
Versión actualizada
para el año 2012
Manisfestation archivo XML
1
N
1
1
N
N
Item
Archivo físico XML en
un servidor específico
36. Principios LOD: enlaces
Relaciones a otros datasets: países (Tratados internacionales)
DBPedia, Geonames
Reuso de vocabularios/ontologías
SKOS, DC, FOAF, DBPedia, ORG
37. Consulta compleja
Encontrar todas las ordenanzas municipales publicadas entre
1995 y 2000, pero que hayan sido modificadas después del
2005
PREFIX dc: <http://purl.org/dc/elements/1.1/>
PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#>
SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio
?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacion
WHERE {
?norm n:createdBy ?creator .
?creator n:hasName ?creatorName .
?norm dc:title ?normTitle .
?norm n:publishDate ?pubDate .
?norm n:isModifiedBy ?otherNorm .
?otherNorm n:publishDate ?pubDateOther .
FILTER (regex(?creatorName,"MUNICIPALIDAD","i"))
FILTER (?pubDate > xsd:date("1995") &&
?pubDate < xsd:date("2000") &&
?pubDateOther > xsd:date("2005"))
}
ORDER BY (?pubDate)
38. http://datos.bcn.cl
Primera etapa finalizada en mayo del 2011
Más de 300.000 normas exportadas
≈27 triplas por norma
≈8 millones de triplas
200 a 400 triplas se agregan cada día
39. David Robinson and Harlan Yu in “El desafío hacia el gobierno
abierto en la hora de la igualdad”, Gastón Concha y
Alejandra Naser (eds.), Santiago, CEPAL, 2012
“Open data does not create its own demand. The government
should compromise the developers”
43. Historia política
Rescatar y poner en servicio a la comunidad la memoria
política chilena, resguardando los discursos, actos y rol de
los parlamentarios y el Congreso, como al mismo tiempo, el
contexto en que se desenvuelve la política chilena y con ello
contribuir a que los ciudadanos reconozcan su identidad y
sentido político en una perspectiva histórica
47. Historia política
Reseñas biográficas
no tenemos todos los años de nacimiento, ni
fallecimiento, ni los lugares
por ejemplo, Salvador de la Cavareda Trucios diputado suplente por
Valparaíso 1824 a 1825 (hermano de Salvador y José Joaquín)
Pero sabemos lo que nos falta:
PREFIX bcnbio: <http://datos.bcn.cl/ontologies/bcn-biographies#>
select * where {
?a a foaf:Person .
OPTIONAL {?a bcnbio:hasBorn ?ano } .
FILTER (!bound(?ano)) .
}
48. Historia política
Reseñas biográficas
Carlos Larraín Claro (diputado 1912- 1915)
Carlos Larraín Claro, suegro de Jorge Astaburuaga Lyon
(diputado 1924-1927)
¿Es la misma persona?
53. Trabajo actual y futuro
Más datasets: biografías, transparencia, datos
geográficos, historia de la ley, documentos legislativos…
Exponer partes de una norma y su metadata
54. Conclusiones
Open data, open linked data, web semántica es más que una
tecnología… es una manera de administrar información
Visualización no es un producto final, es un proceso de
realimentación para “purificar” los datos y mejorar la
visualización
Crea valor para nosotros mismos 1
Muchos detalles técnicos y desafíos permanecen sin resolver 1
1.- David Robinson and
Harlan Yu in “El desafío
hacia el gobierno abierto
en la hora de la
igualdad”, Gastón
Concha y Alejandra
Naser
(eds.), Santiago, CEPAL,