Segunda ley de la termodinámica TERMODINAMICA.pptx
Modelo de enriquecimiento semántico de recursos de información
1. Modelo de enriquecimiento semántico de recursos de
información
Francisco Cifuentes Silva
fcifuentes <at> bcn.cl
14 de marzo de 2017
2. Motivación
En el contexto de la meta 16.10 de la Agenda 2030 de las Naciones Unidas:
“Asegurar el acceso público a la información y proteger las libertades
fundamentales, de conformidad con las legislaciones nacionales y los
acuerdos internacionales”
La extracción de conocimientos desde documentos no
estructurados permite ampliar el acceso público a la información.
fcifuentes <at> bcn.cl 2017-03-14 2/29
3. Qué es Enriquecimiento Semántico de Recursos de
Información - ESRI
Ampliar el ámbito de utilización de un RI (recurso de información) desde leíble por humanos
hasta legible por máquinas con la idea de identificar en detalle todo aquello que sea de
interés para su posterior extracción y consulta
Ejemplos
Para humano
Para máquina
fcifuentes <at> bcn.cl 2017-03-14 3/29
4. Por qué un modelo de ESRI
Para proveer un marco de referencia
Permite identificar a priori
fcifuentes <at> bcn.cl 2017-03-14 4/29
5. Un modelo de referencia habilita diversos mecanismos de provisión tecnológica:
Por qué un modelo de ESRI
fcifuentes <at> bcn.cl 2017-03-14 5/29
6. Permite recoger las mejores prácticas de diversos modelos existentes, como por ejemplo:
Por qué un modelo de ESRI
Schema.org OAI
AkomaNtoso
Modelo ESRI
Estándar documentos legales
Vocabulario
metadatos Web
Estándar para gestión
de repositorios
fcifuentes <at> bcn.cl 2017-03-14 6/29
7. Ventajas del enriquecimiento semántico
Marcaje
estructural
Nivel de
enriquecimiento
del recurso de
información
Texto plano
Marcaje
semántico
inteligente
Metadatos
básicos
Manual Semi-automático Automático
Naturaleza del proceso
Contenido no
estructurado
Leíble por humano
Contenido
estructurado
Leíble por humano y
reusable por máquina a
nivel de presentación
Contenido semántico
Leíble por humano,
reusable e interpretable
por máquina
Fuente: Clarke et al [1]
Contenido de
uso específico
Contenido
reutilizable
Contenido multi-
propósito
fcifuentes <at> bcn.cl 2017-03-14 7/29
8. ¿Qué se puede identificar en un recurso de
información?
URIs para entidades
Estructura del documento
Palabras clave
Sentimiento del
contenido
Documentos
relacionados
Lugares geográficos
en el contenido
Entidades
presentes
Recurso de información
fcifuentes <at> bcn.cl 2017-03-14 8/29
9. Por qué es necesario el uso de TI
Observación empírica en procesamiento de marcaje de documentos usando XML en BCN
fcifuentes <at> bcn.cl 2017-03-14 9/29
10. Conversores
Arquitectura TI de referencia para ESRI
SSL
XML
Modelos de datos / vocabularios
OCR
Speech to text
Análisis semántico
Analizador
Sentimiento
Asignación de
URI
Reconocedor de
entidades
Georeferencia-
ción semántica
Marcador
estructural
Extractor
palabras clave
Relacionador
elementos
Editor de
recursos
Linked Open Data
Big Data
fcifuentes <at> bcn.cl 2017-03-14 10/29
11. ¿Qué se puede identificar en un recurso de
información?
fcifuentes <at> bcn.cl 2017-03-14 11/29
12. Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
fcifuentes <at> bcn.cl 2017-03-14 12/29
13. Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Metadatos del documento
fcifuentes <at> bcn.cl 2017-03-14 13/29
14. Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Ficha FRBR
fcifuentes <at> bcn.cl 2017-03-14 14/29
15. Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Información
generada
fcifuentes <at> bcn.cl 2017-03-14 15/29
16. Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Estructura básica
de contenido
fcifuentes <at> bcn.cl 2017-03-14 16/29
17. Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Contenido marcado
fcifuentes <at> bcn.cl 2017-03-14 17/29
18. Esquema XML de referencia para marcaje enriquecido
Borrador 1.0
Metadatos de la
Sección
fcifuentes <at> bcn.cl 2017-03-14 18/29
19. Consideraciones a la hora de implementar
Se requiere la implementación previa de una base de datos mínima de
entidades (ejemplo, una bd de autoridades).
Las herramientas automáticas generalmente no son 100% precisas, facilitan la
labor humana pero no la reemplazan totalmente.
Visión a mediano-largo plazo en la organización: se requiere espacio y tiempo
para ver resultados
fcifuentes <at> bcn.cl 2017-03-14 19/29
20. Extraer la información
Extraer esta información
permitirá obtener datos granulares
Un modelo basado contenido
semántico permitirá obtener
Linked Open Data
Un recurso de información
enriquecido es solo un medio
fcifuentes <at> bcn.cl 2017-03-14 20/29
21. Ejemplos de productos utilizando ESRI
Informes basados en estadística descriptiva: de qué político hablan más los
medios, qué lugar se menciona más, hablan cosas positivas o negativas, etc.
Visualizaciones de datos: despliegue de información sobre el mapa, en líneas
de tiempo, grafos de relaciones u otros.
Desarrollo de productos o servicios a la medida
fcifuentes <at> bcn.cl 2017-03-14 21/29
22. Ejemplos de productos utilizando ESRI
Documento enriquecido
Marcaje estructural, de
entidades y URIs para
cada diario de sesión
fcifuentes <at> bcn.cl 2017-03-14 22/29
23. Ejemplos de productos utilizando ESRI
http://datos.bcn.cl/global-legislative-hackathon-2016/Hackaton/www/html/master.html
Menciones a
una región en
sesiones del
Congreso
Nacional
Utiliza diarios de
sesiones del
sistema Labor
Parlamentaria
fcifuentes <at> bcn.cl 2017-03-14 23/29
24. Ejemplos de productos utilizando ESRI
Sistema Historia de la Ley
Base de datos a partir de
intervenciones de
parlamentarios en diarios de
sesiones
http://www.bcn.cl/historiadelaley
fcifuentes <at> bcn.cl 2017-03-14 24/29
25. Ejemplos de productos utilizando ESRI
Es posible obtener un
dossier con intervenciones
de solo un parlamentario
asociado a la tramitación de
la ley
fcifuentes <at> bcn.cl 2017-03-14 25/29
26. Ejemplos de productos utilizando ESRI
fcifuentes <at> bcn.cl 2017-03-14 26/29
Dirección de Bibliotecas y Centro Documental del Poder Judicial
Plataforma de minería de
texto y extracción de
información desde
sentencias dictadas por
la Excma. Corte Suprema
27. Ejemplos de productos utilizando ESRI
http://tcqdev.edina.ac.uk/search/commodity/
Análisis de
consecuencias
históricas del
comercio
Se utilizaron
documentos de
comercio del siglo 19
para realizar análisis y
explicar el por qué
actual de la economía
Fuente: Hinrichs et al [2]
fcifuentes <at> bcn.cl 2017-03-14 27/29
28. Referencias
[1] How Smart Is Your Content? Using Semantic Enrichment to Improve Your User Experience
and Your Bottom Line - Michael Clarke and Pam Harley - Science Editor 2014, Vol 37, No 2,
pag 41
[2] Trading Consequences: A Case Study of Combining Text Mining and Visualization to
Facilitate Document Exploration - Uta Hinrichs Beatrice Alex Jim Clifford Andrew Watson
Aaron Quigley Ewan Klein Colin M. Coates - Digital Scholarship Humanities.
2015;30(suppl_1):i50-i75. doi:10.1093/llc/fqv046
fcifuentes <at> bcn.cl 2017-03-14 28/29