Archivos, transparencia y web
semántica
27 de noviembre de 2013
Christian Sifaqui
Archivo
Consejo Internacional de Archivos (ICA):
• Conjunto de documentos
• Institución responsable
• Edificio o parte del edificio donde se
conservan (depósito)
Archivo
CPLT:
• Muy buenas guías en
http://www.educatransparencia.cl/docs
• Sistema con firma electrónica
Archivística
• Identificación: fase del tratamiento archivístico que
consiste en la investigación y sistematización de las
categorías administrativas y archivísticas en que se
sustenta la estructura de un fondo
• Clasificación: operación archivística que consiste en
el establecimiento de las categorías y grupos que
reflejan la estructura jerárquica del fondo
• Ordenamiento: operación archivística realizada
dentro del proceso de organización, que consiste en
establecer secuencias naturales cronológicas y/o
alfabéticas, dentro de las categorías y grupos
definidos en la clasificación
Archivística
• Instalación: conjunto de medios físicos dispuestos
para la adecuada conservación de los documentos
• Descripción: fase del tratamiento archivístico
destinada a la elaboración de los instrumentos de
consulta para facilitar el conocimiento y consulta de
los fondos documentales y colecciones de los
archivos
• Digitalización: conjunto de procedimientos de copia o
microcopia realizados mediante cualquier tecnología
y en distintos soportes
Digitalización
• Ingreso de documentos organizados
archivísticamente
• Preparación de los documentos para
digitalización
• Ingreso de metadatos
• Escaneo
• Retorno de documentos a su unidad
• Instalación en los depósitos
Digitalización
• Metadatos

• negocio electrónico
• conservación
• descripción de los recursos de
información
• localización de recursos de información
• gestión de derechos de propiedad
intelectual

• Formato máster, formato distribución
• Roles, comunidades, colecciones
Repositorios digitales
• “Bolsa inteligente”
• Adecuados al contenido (XML, videos,
etc.)
Bolsa “inteligente”
Debe:
• manejar objetos digitales, organizados en
colecciones y éstas a su vez agrupadas en
comunidades
• ofrecer uso de metadatos estándar Dublin
Core, y permitir extenderlo
• soportar amplio espectro de formatos de
archivos: texto, videos, sonido, imágenes
• versionamiento
Bolsa “inteligente”
Usar esta bolsa inteligente como backend y como
frontend sitios web que sólo ofrezcan los documentos
acorde a cierta metadata
Sitio web - Frontend
Repositorio - Backend

s
bjeto
os o
l
ame
trég ientes
En ec
r
más

Objet
os

más r
ecien

t es
Bolsa “inteligente”
ata
etad ada
on m ar
tos c n Comp
obje
ó
ame egislaci
rég t=L
Ent bjec
dc.su

Objet
os
Bolsa “inteligente”
historiapolitica.bcn.cl
www.bcn.cl/leyfacil

archivohales.bcn.cl
parlamentario.bcn.cl

Frontend

transparencia.bcn.cl

Backend
Documentos

Objetos digitales

Recursos legales
Repositorios digitales
• “Bolsa inteligente”
• Adecuados al contenido (XML, videos,
etc.)
Adecuado al contenido
• Interesa determinar cambios en
un documento o entre
documentos
• Referenciar o reutilizar partes de
o todo un documento
• Interoperabilidad
• Otras consideraciones
Adecuado al contenido
Videos
Música
XML
Adecuado al contenido
t0

t1

Ley 22000
Ley 22000

Ley 22000
Ley 22000

Artículo 1. abc.
Artículo 1. abc.

Artículo 1. xyzbc.
Artículo 1. xyzbc.

Artículo 2. def.
Artículo 2. def.

Artículo 2. def.
Artículo 2. def.

Artículo 3. ghi.
Artículo 3. ghi.

Artículo 3. ghi.
Artículo 3. ghi.
Adecuado al contenido
Interesa capturar la “vida” del documento
Adecuado al contenido
Interesa la “estructura” del documento
Adecuado al contenido
LeyChile: XML
Texto: versiones, hiperenlaces, referencias,
notas
Estructura: organización jerárquica de las
partes de una norma legal
Metadatos: información adicional acerca de
los documentos, como identificación de la
norma, materia, términos libres, etc.
Adecuado al contenido
LeyChile interopera con Contraloría

Parámetros:
Número ley

AJAX
AJAX

Prepara lista de
resultados

Envía
parámetros

Capa de
Negocios

Sistema Ley Chile

Consume
Dictámenes
asociados a una
ley

Capa de Integración

Capa de Presentación

Requerimiento de
dictámenes para
cualquier ley
Adecuado al contenido
¿LeyChile podría interoperar con CPLT?
Adecuado al contenido
Akoma Ntoso http://
www.akomantoso.org/
Es un conjunto de representaciones
electrónicas tecnológicamente neutral
(en formato XML) de documentos
parlamentarios, legislativos y
judiciales
Archivos
Dos accesos
Archivos
Ver Decreto Supremo 13 2009 Reglamento, ART-42
Archivos
Ver Decreto Supremo 13 2009 Reglamento, ART-42

¿?
Archivos

Ver Decreto Supremo 13 2009 Reglamento, ART-42
Sencillo: enlace a
http://www.leychile.cl/Navegar?idNorma=1001095&idParte
Archivos

Ver Decreto Supremo 13 2009 Reglamento, ART-42
Menos sencillo: procesar XML
http://www.leychile.cl/Consulta/obtxml?opt=7&idNorma=10
y buscar idParte="8527294"
Archivos
Enlaces dentro del texto
Archivos
Enlaces dentro del texto
Archivos
Instrucciones

1

9
Archivos
Documentos grandes
Documento PDF
complejo consistente
en imágenes
facsimilares + texto
OCR + mapeo de cada
palabra a su posición
en cada página
PDF imágenes con
texto  72 páginas en
PDF, tamaño 24 MB.

XML

Mismo archivo en XML
 0.5 MB
Archivos
Mundo “papel”
Mundo digitalizados o creados digitalmente
Digitalización
Repositorios
Bolsa inteligente
Acorde al contenido
Firma electrónica
Transparencia activa
Título III Ley 20.285 es una oferta
para seres humanos…
Transparencia activa
Título III Ley 20.285 es una oferta
para seres humanos…
Ser humano: búsqueda y
exploración
Transparencia activa
Pero la auditoría a TA debe ser
muy trabajosa, porque TA fue
hecha para seres humanos
Transparencia activa
Modelar una oferta para máquinas
Transparencia activa
Oferta para máquinas
Transparencia activa
Oferta para máquinas (RDFa)
Transparencia activa
Oferta para máquinas

WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)
Transparencia activa
Oferta para máquinas

WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)

Enlaces, widgets, servicios web (http://llevatelo.bcn.cl)
Web semántica
Open Data: es un idea que impulsa la
publicación de datos de forma libre y
asequible a cualquier persona para usar
y republicar sin restricciones de ningún
tipo
Linked Data: es usar la web para
conectar datos relacionados que no
estaban enlazados previamente. Usa
algunas de las mejores prácticas de la
Web Semántica
Web semántica
Web
• Repleta de información
• Orientada al ser humano:
• para comprender el contenido de una
página
• para relacionar contenidos dentro de una
página (textos, imágenes, videos, etc.)
Web semántica
Web

• Dificultad en localización de la información (adaptar a
una región específica, por ejemplo, traducir)
• Buscadores actuales funcionan bien, pero orientados
al keyword
• Por ejemplo: “constitución”
¿la de Chile?
¿ciudad del sur?
Web semántica
Soluciones
• ad hoc: usar métodos de IA para analizar la
información no estructurada existente en la
Web
• a priori: estructurar la información en la Web
para facilitar el análisis automático  Web
Semántica
Web semántica
Estándares
Web semántica
Estándares
Web semántica
Endpoint SPARQL
Web semántica
Encontrar todas las normas emitidas por una municipalidad
entre los años 1995 y 2000, pero que fueron modificadas
después del año 2005
PREFIX dc: <http://purl.org/dc/elements/1.1/>
PREFIX dc: <http://purl.org/dc/elements/1.1/>
PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#>
PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#>
SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?
SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?
Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?
Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?
Fecha_modificacion
Fecha_modificacion
WHERE {
WHERE {
?norm
n:createdBy
?creator .
?norm
n:createdBy
?creator .
?creator
n:hasName
?creatorName .
?creator
n:hasName
?creatorName .
?norm
dc:title
?normTitle .
?norm
dc:title
?normTitle .
?norm
n:publishDate ?pubDate .
?norm
n:publishDate ?pubDate .
?norm
n:isModifiedBy ?otherNorm .
?norm
n:isModifiedBy ?otherNorm .
?otherNorm n:publishDate ?pubDateOther .
?otherNorm n:publishDate ?pubDateOther .
FILTER (regex(?creatorName,"MUNICIPALIDAD","i"))
FILTER (regex(?creatorName,"MUNICIPALIDAD","i"))
FILTER (?pubDate
> xsd:date("1995") &&
FILTER (?pubDate
> xsd:date("1995") &&
?pubDate
< xsd:date("2000") &&
?pubDate
< xsd:date("2000") &&
?pubDateOther > xsd:date("2005"))
?pubDateOther > xsd:date("2005"))
}
}
ORDER BY (?pubDate)
ORDER BY (?pubDate)
Web semántica
Visualizaciones
Web semántica
Visualizaciones
Finalmente
Dos mundos
• Mundo de documentos  para el ser
humano
• Mundo de datos  para las máquinas
De documentos a datos
Documentos
• OCR
• aplicación de algoritmos Named-entity
Recognition
• Enlaces a ontologías
• Ejemplo: proyecto Historia de la Ley y
Labor Parlamentaria

Charla a Consejo para la Transparencia, 27 de noviembre de 2013

  • 1.
    Archivos, transparencia yweb semántica 27 de noviembre de 2013 Christian Sifaqui
  • 2.
    Archivo Consejo Internacional deArchivos (ICA): • Conjunto de documentos • Institución responsable • Edificio o parte del edificio donde se conservan (depósito)
  • 3.
    Archivo CPLT: • Muy buenasguías en http://www.educatransparencia.cl/docs • Sistema con firma electrónica
  • 4.
    Archivística • Identificación: fasedel tratamiento archivístico que consiste en la investigación y sistematización de las categorías administrativas y archivísticas en que se sustenta la estructura de un fondo • Clasificación: operación archivística que consiste en el establecimiento de las categorías y grupos que reflejan la estructura jerárquica del fondo • Ordenamiento: operación archivística realizada dentro del proceso de organización, que consiste en establecer secuencias naturales cronológicas y/o alfabéticas, dentro de las categorías y grupos definidos en la clasificación
  • 5.
    Archivística • Instalación: conjuntode medios físicos dispuestos para la adecuada conservación de los documentos • Descripción: fase del tratamiento archivístico destinada a la elaboración de los instrumentos de consulta para facilitar el conocimiento y consulta de los fondos documentales y colecciones de los archivos • Digitalización: conjunto de procedimientos de copia o microcopia realizados mediante cualquier tecnología y en distintos soportes
  • 6.
    Digitalización • Ingreso dedocumentos organizados archivísticamente • Preparación de los documentos para digitalización • Ingreso de metadatos • Escaneo • Retorno de documentos a su unidad • Instalación en los depósitos
  • 7.
    Digitalización • Metadatos • negocioelectrónico • conservación • descripción de los recursos de información • localización de recursos de información • gestión de derechos de propiedad intelectual • Formato máster, formato distribución • Roles, comunidades, colecciones
  • 8.
    Repositorios digitales • “Bolsainteligente” • Adecuados al contenido (XML, videos, etc.)
  • 9.
    Bolsa “inteligente” Debe: • manejarobjetos digitales, organizados en colecciones y éstas a su vez agrupadas en comunidades • ofrecer uso de metadatos estándar Dublin Core, y permitir extenderlo • soportar amplio espectro de formatos de archivos: texto, videos, sonido, imágenes • versionamiento
  • 10.
    Bolsa “inteligente” Usar estabolsa inteligente como backend y como frontend sitios web que sólo ofrezcan los documentos acorde a cierta metadata Sitio web - Frontend Repositorio - Backend s bjeto os o l ame trég ientes En ec r más Objet os más r ecien t es
  • 11.
    Bolsa “inteligente” ata etad ada onm ar tos c n Comp obje ó ame egislaci rég t=L Ent bjec dc.su Objet os
  • 12.
  • 13.
    Repositorios digitales • “Bolsainteligente” • Adecuados al contenido (XML, videos, etc.)
  • 14.
    Adecuado al contenido •Interesa determinar cambios en un documento o entre documentos • Referenciar o reutilizar partes de o todo un documento • Interoperabilidad • Otras consideraciones
  • 15.
  • 16.
    Adecuado al contenido t0 t1 Ley22000 Ley 22000 Ley 22000 Ley 22000 Artículo 1. abc. Artículo 1. abc. Artículo 1. xyzbc. Artículo 1. xyzbc. Artículo 2. def. Artículo 2. def. Artículo 2. def. Artículo 2. def. Artículo 3. ghi. Artículo 3. ghi. Artículo 3. ghi. Artículo 3. ghi.
  • 17.
    Adecuado al contenido Interesacapturar la “vida” del documento
  • 18.
    Adecuado al contenido Interesala “estructura” del documento
  • 19.
    Adecuado al contenido LeyChile:XML Texto: versiones, hiperenlaces, referencias, notas Estructura: organización jerárquica de las partes de una norma legal Metadatos: información adicional acerca de los documentos, como identificación de la norma, materia, términos libres, etc.
  • 20.
    Adecuado al contenido LeyChileinteropera con Contraloría Parámetros: Número ley AJAX AJAX Prepara lista de resultados Envía parámetros Capa de Negocios Sistema Ley Chile Consume Dictámenes asociados a una ley Capa de Integración Capa de Presentación Requerimiento de dictámenes para cualquier ley
  • 21.
    Adecuado al contenido ¿LeyChilepodría interoperar con CPLT?
  • 22.
    Adecuado al contenido AkomaNtoso http:// www.akomantoso.org/ Es un conjunto de representaciones electrónicas tecnológicamente neutral (en formato XML) de documentos parlamentarios, legislativos y judiciales
  • 23.
  • 24.
    Archivos Ver Decreto Supremo13 2009 Reglamento, ART-42
  • 25.
    Archivos Ver Decreto Supremo13 2009 Reglamento, ART-42 ¿?
  • 26.
    Archivos Ver Decreto Supremo13 2009 Reglamento, ART-42 Sencillo: enlace a http://www.leychile.cl/Navegar?idNorma=1001095&idParte
  • 27.
    Archivos Ver Decreto Supremo13 2009 Reglamento, ART-42 Menos sencillo: procesar XML http://www.leychile.cl/Consulta/obtxml?opt=7&idNorma=10 y buscar idParte="8527294"
  • 28.
  • 29.
  • 30.
  • 31.
    Archivos Documentos grandes Documento PDF complejoconsistente en imágenes facsimilares + texto OCR + mapeo de cada palabra a su posición en cada página PDF imágenes con texto  72 páginas en PDF, tamaño 24 MB. XML Mismo archivo en XML  0.5 MB
  • 32.
    Archivos Mundo “papel” Mundo digitalizadoso creados digitalmente Digitalización Repositorios Bolsa inteligente Acorde al contenido Firma electrónica
  • 34.
    Transparencia activa Título IIILey 20.285 es una oferta para seres humanos…
  • 35.
    Transparencia activa Título IIILey 20.285 es una oferta para seres humanos… Ser humano: búsqueda y exploración
  • 36.
    Transparencia activa Pero laauditoría a TA debe ser muy trabajosa, porque TA fue hecha para seres humanos
  • 37.
    Transparencia activa Modelar unaoferta para máquinas
  • 38.
  • 39.
  • 40.
    Transparencia activa Oferta paramáquinas WSDL (http://www.leychile.cl/ws/LeyChile.wsdl)
  • 41.
    Transparencia activa Oferta paramáquinas WSDL (http://www.leychile.cl/ws/LeyChile.wsdl) Enlaces, widgets, servicios web (http://llevatelo.bcn.cl)
  • 43.
    Web semántica Open Data:es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona para usar y republicar sin restricciones de ningún tipo Linked Data: es usar la web para conectar datos relacionados que no estaban enlazados previamente. Usa algunas de las mejores prácticas de la Web Semántica
  • 44.
    Web semántica Web • Repletade información • Orientada al ser humano: • para comprender el contenido de una página • para relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)
  • 45.
    Web semántica Web • Dificultaden localización de la información (adaptar a una región específica, por ejemplo, traducir) • Buscadores actuales funcionan bien, pero orientados al keyword • Por ejemplo: “constitución” ¿la de Chile? ¿ciudad del sur?
  • 46.
    Web semántica Soluciones • adhoc: usar métodos de IA para analizar la información no estructurada existente en la Web • a priori: estructurar la información en la Web para facilitar el análisis automático  Web Semántica
  • 47.
  • 48.
  • 49.
  • 50.
    Web semántica Encontrar todaslas normas emitidas por una municipalidad entre los años 1995 y 2000, pero que fueron modificadas después del año 2005 PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ? Fecha_modificacion Fecha_modificacion WHERE { WHERE { ?norm n:createdBy ?creator . ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005")) ?pubDateOther > xsd:date("2005")) } } ORDER BY (?pubDate) ORDER BY (?pubDate)
  • 51.
  • 52.
  • 53.
    Finalmente Dos mundos • Mundode documentos  para el ser humano • Mundo de datos  para las máquinas
  • 54.
    De documentos adatos Documentos • OCR • aplicación de algoritmos Named-entity Recognition • Enlaces a ontologías • Ejemplo: proyecto Historia de la Ley y Labor Parlamentaria