Tecnologías Semánticas para análisis político y legislativo

Tecnologías Semánticas para el análisis
político y legislativo
13 de noviembre de 2018
Francisco Cifuentes Silva
fcifuentes@bcn.cl
13 de noviembre de 2018 1Francisco Cifuentes Silva - BCN

Sobre el conferencista
o Jefe de Proyectos de Investigación en la Biblioteca del Congreso Nacional de Chile
o Ingeniero informático, Universidad de la Frontera (2001 – 2007)
o Máster en Ingeniería Web, Universidad de Oviedo (2009 – 2011)
o Actual estudiante del doctorado en informática en la UNIOVI

¿Qué es la Biblioteca del Congreso Nacional?
Poderes del
estado
Poder Ejecutivo Poder Judicial Poder Legislativo
- Órgano “autónomo” del Poder
Legislativo
- Apoya al Parlamento y presta
servicios a la Ciudadanía.

Por qué Tecnologías Semánticas en la BCN
o Se identifica el potencial tecnológico para generación de nuevos productos
o Provee mecanismos de interoperabilidad (Web Semántica)
o Se ajusta a la idea de información pública
o Uno de los cuatro pilares del plan estratégico (Biblioteca Semántica)
Francisco Cifuentes Silva - BCN 413 de noviembre de 2018

De qué hablamos con “Tecnologías Semánticas”
Las definiremos como:
“Conjunto de herramientas y técnicas que permitirán estudiar, explorar,
ampliar y explotar el significado de recursos de información”

Tecnologías Semánticas
En la práctica, unión de dos mundos:
Tecnologías de Web Semántica (machine readable)
 XML
 RDF, OWL
 Ontologías
 Linked Open Data
Tecnologías de Análisis de Texto o Text Mining (content
enrichment)
 Extracción de unidades uni/multi palabra relevantes
 Extracción de tópicos
 Marcaje automático
 Clasificación

EL COMIENZO DEL CAMINO
Tecnologías Semánticas en la BCN

Inicial
Ley Chile
2008
Open Data, Normas Legales en XML
2018
Fig: http://www.w3.org/DesignIssues/LinkedData.html

Fase inicial (2008-2011)
http://www.leychile.cl
Publicación de normas
Legales actualizadas
Interoperabilidad con organismos públicos:
•Poder Judicial
•Contraloría
•SAG
•Entre más de cien otros.

XML de la Ley 20.000 en http://www.leychile.cl
Fase inicial (2008-2011)

Fase inicial (2008-2011): Social, Servicios Web y API
http://llevatelo.bcn.cl
Conjunto de servicios
de información que dan
acceso a contenidos
publicados por BCN
para ser integrados por
fuentes externas

Inicial Exploración
Ley Chile
Ontología +
Datos +
visualizaciones
2008 2011 2018
Linked Open Data
Normas Legales en RDF
Fig: http://www.w3.org/DesignIssues/LinkedData.html

Fase exploratoria (2011-2012)
 Publicación de las primeras ontologías y datasets 5
estrellas:
 Normas legales (cerca de 300.000 normas en RDF)
 Parlamentarios
 Localidades geográficas
 Portal de datos enlazados
 Visualizaciones (validación y uso
de los datos)

Fase exploratoria (2011-2012)
Publicación de grafos
de normas
Modelado de URIs para normas

Fase exploratoria (2011-2012): Ontologías
Diagrama de representación de la ontología
Ontología de Normas
PREFIX bcnnorms: <http://datos.bcn.cl/ontologies/bcn-norms#>

Fase exploratoria (2011-2012): Datasets
Endpoint SPARQL
http://datos.bcn.cl/sparql
Vista de recurso RDF en HTML

Salida HTML+RDFa Archivo de configuración
Fase exploratoria (2011-2012): Herramientas
Linked Data Frontend con negociación de contenido HTTP

Fase exploratoria (2011-2012): Visualizaciones I
http://datos.bcn.cl/visualizaciones/normas-por-comuna/

Fase exploratoria (2011-2012): Visualizaciones II
http://www.leychile.cl/Consulta/Consulta/visualizacion_vinculaciones

Fase exploratoria (2011-2012): Visualizaciones III
http://datos.bcn.cl/visualizaciones/genealogia-parlamentaria/

Inicial Exploración Explotación
Ley Chile
Ontología +
Datos +
visualizaciones
Producción de datos +
productos
2008 2011 2012 2018
Prueba de concepto satisfactoria
=
Paso a producción de tecnología

PROYECTO HISTORIA DE LA LEY Y LABOR
PARLAMENTARIA
Tecnologías Semánticas en Producción

Tecnologías Semánticas en producción
Proyecto Historia de la Ley y Labor Parlamentaria
Historia de la Ley (HL):
Obtener todo el debate en torno a una ley y sus partes, como también todas sus
versiones desde que fue presentada como proyecto, hasta que se publicó en el
Diario Oficial (BOE chileno), de manera automática
Labor Parlamentaria (LP)
Obtener todo lo hablado y documentos presentados por cada parlamentario en
sesiones del Congreso Nacional de manera histórica y categorizada de manera
automática

Escenario y complejidades de HL y LP
Si volvemos el tiempo atrás hasta 2011…
 Se deben procesar aproximadamente 8.000 diarios de sesión (desde 1965 a la
fecha) y aproximadamente 17.000 documentos de otros tipos (informes de
comisión, iniciativas de proyecto de ley, etc) del archivo de la biblioteca
 Documentos anteriores a 1990 solo se cuenta con el ejemplar físico (papel)
 Posterior a 1990, algunos documentos en Word
 Posterior a 2012, algunos documentos en XML
 Se debe detectar cuándo habla un parlamentario, qué parlamentario y sobre qué
habla
 Se debe detectar la estructura y articulado de un proyecto de ley (además su
estructura es recursiva )
 Normas de redacción varían levemente en distintos periodos
 Se debe poder extraer información para luego consultar

Observación empírica en procesamiento de marcaje de documentos usando XML en BCN
26/29
Escenario y complejidades de HL y LP

Solución planteada HL y LP
Usando Tecnologías Semánticas:
Ya que se cuenta con texto plano => aplicar marcaje en XML sobre el texto:
 Ya se cuenta con una infraestructura de Linked Open Data
 Existe el estándar Akoma-Ntosopara documentos legales
 Marcar documentos a nivel de proyecto de ley e Intervención de parlamentario
agregando metadatos
X Marcar 24.000 documentos de forma manual (estructura, metadatos y entidades)
aproximadamente 12 horas por documento promedio (100 páginas) = 288.000 horas
 Usar herramientas de marcaje automático => reducción de tiempo a marcar solo
metadatos especializados y QA promedio 1,5 horas por documento
 Extraer datos para elaborar productos y dejarlos a disposición de la ciudadanía

Vista del proceso en términos generales
Congreso Nacional Documentos legislativos
•Papel (requiere OCR)
•Documentos Word
•XML desde opendata.congreso.cl
Editor XML y
Herramientas
Workflow de
producción
Repositorio SVN
Akoma-Ntoso
Publicación
(extracción RDF
desde Akomantoso)
Linked Open Data BD de consulta
Capa de servicios
Portales de
contenido

Tecnologías Semánticas – Marcaje Automático
Llegar desde esto
con el menor esfuerzo posible Hasta esto

Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML

Reconocimiento de
entidades nombradas
Marcaje estructural

Reconocedor de Entidades Nombradas (NER)
o Se necesita identificar entidades en el texto y su tipo (personas,
organismos, lugares, roles, fechas, documentos)
o Se está utilizando una versión adaptada al español del Stanford NER
o El clasificador fue entrenado con diarios de sesión de largo promedio
(aprox. 100 páginas), logrando sobre un 95% de efectividad en
reconocimiento de entidades
o Escrito en Java y disponible como servicio XML HTTP

Reconocimiento de
entidades nombradas
Marcaje estructural

Desambiguación de entidades - Mediador
Permite asignar una única URI a una entidad reconocida en el texto
o Conecta a un endpoint SPARQL e indexa entidades
o Compara un texto de entrada con diversas etiquetas de recursos RDF (rdfs:label,
skos:prefLabel, skos:altLabel)
o Selecciona la etiqueta más similar y devuelve la URI del recurso
Mediador
Indexar LOC entities
Colección tuplas
URI/Label
GET URI para “Chile”
200 OK
http://datos.bcn.cl/recurso/pais/chile

Asigna una URI a la entidad
Input
Output

Otras características
o Los datos están indexados en memoria
o Permite establecer información de contexto
o Heurísticas por tipo de entidad (Solución para ambigüedades)
o Implementa conjunto de servicios Web HTTP escritos en Java

Reconocimiento de
entidades nombradas
Marcaje estructural

Marcaje Estructural en XML
o El problema es detectar secciones estructurales
o Combinación de métodos
o Expresiones regulares
o Algoritmos para diferencias y detectar secuencias
o Mezcla de reglas y algoritmos
o Cada combinación depende del tipo de documento
o Finalmente, una representación de objeto similar a DOM es transformada a
XML
o Servicio Web escrito en Java

Reconocimiento de
entidades nombradas
Marcaje estructural

Traducción de XML a formato final
o Akoma-Ntoso es un estándar OASIS para documentos legales
o AKN es un esquema demasiado amplio y complejo por lo que construir
hojas XSLT no era una solución viable
o Se implementó en Java un servicio Web traductor de XML

o Los documentos AKN generados de forma automática deben ser revisados
y enriquecidos por analistas humanos
o Dependiendo del proceso, se integraron o implementaron editores XML
ad-hoc en el Workflow
o Para marcaje de diarios de sesión en XML se utilizó un editor comercial
o Para otras operaciones se implementaron editores XML ad-hoc
Edición de documentos AKN

Vista del proceso en términos generales
Repositorio SVN
Akoma-Ntoso
Congreso Nacional Documentos legislativos
•Papel (requiere OCR)
•Documentos Word
•XML desde opendata.congreso.cl
Editor XML y
Herramientas
Workflow de
producción Publicación
(extracción RDF
desde Akomantoso)
Linked Open Data BD de consulta
Capa de servicios
Portales de
contenido

Publicación de documentos y extracción de datos
o Una vez almacenado el XML enriquecido es momento de extraer
información
o Para ello se desarrolló un servicio capaz de distinguir el tipo de documento
y extraer su información
o La información se extrae en un modelo de objetos que se persiste en una
base de datos relacional y a su vez se exporta a RDF persistiéndose en un
RDF Triplestore
o Adicionalmente tanto los documentos como los datos extraídos se indexan
en un motor de búsqueda para texto basado en Apache Lucene
o Los portales de consulta accederán a datos en LOD como a la tabla de
hechos mediante servicios Web

Documento descompuesto en RDF

Consultar documentos vía SPARQL

VISUALIZACIÓN DE CONTENIDO
Labor Parlamentaria - Historia de la Ley

https://www.bcn.cl/laborparlamentaria13 de noviembre de 2018 47Francisco Cifuentes Silva - BCN

https://www.bcn.cl/historiadelaley13 de noviembre de 2018 50Francisco Cifuentes Silva - BCN

Visualización del contenido – Historia de la Ley

Lecciones aprendidas – Proyecto LP HL
o Probamos utilización de clasificadores para marcaje estructural sin obtener buenos
resultados, texto muy variado
o Para los Content Delivery, se probaron distintos esquemas para consultas
complejas usando LOD:
X Datos en RDF + Ontologías + Inferencias = algunas consultas no terminaban
X Datos en RDF + Datos inferidos precargados = promedio de tiempos
inaceptable
 Datos en tabla de Hechos para consulta
o Utilización de URIs es excepcionalmente útil para interoperabilidad
o Documentos legales, metadatos, entidades nombradas
 Procesar los documentos de forma completa reduce considerablemente las HH de
elaboración de productos y aumenta la eficiencia

Algunos datos operativos
o El proyecto se ha desarrollado en 5 años considerando desarrollo de
software en paralelo a poblamiento retrospectivo
o El equipo de proyecto interno de informática fue de 3 personas por 2 años
y desde ahí hemos sido solo 2
o Asociados al proyecto se realizaron un total de 14 contratos, 10 de ellos
proyectos vía licitación pública, 2 por contratación directa y 2 por
conceptos de licencias de software
o La distribución del gasto asociada al proyecto es aproximadamente:
o 10% licencias de software
o 30% desarrollo de software
o 60% HH de analistas legislativos para poblamiento de la base de datos

PROYECTO ANÁLISIS DE PRENSA
Tecnologías Semánticas en desarrollo

Tecnologías Semánticas en desarrollo
Proyecto análisis de prensa
o BCN cuenta con una base de datos que almacena la prensa de todos los
medios de comunicación nacionales (prensa escrita, en línea, radio y TV).
o Se cuenta con registros de prensa desde 1818 a la fecha
o Solo en texto, al día de hoy se cuenta con 10.000.000 de registros
o La idea es disponibilizar para el Congreso Nacional una herramienta que
permita obtener información agregada y desagregada, como también
analizar tendencias

Proyecto Análisis de Prensa
Hardware actual Cluster Big Data, 6 nodos
– 2 nodos master 16 cores, RAM 128GB, 1.5TB HD
– 4 nodos slave 16 cores, RAM 96GB, 1TB HD

Ecosistema Big Data - BCN

Se procesará toda la prensa para realizar las siguientes
operaciones:
o Extraer entidades nombradas y asignar una URI
o Extraer conceptos relevantes (una o más palabras)
o Extracción de sinónimos de conceptos relevantes para mejorar
recuperabilidad
o Extracción de tópicos basados en análisis semántico latente
o Clasificar en categorías conocidas (Deportes, Policial, Economía, etc.)
o Análisis de sentimiento (Polaridad: +, -, 0)
Posteriormente se indexará toda la información generada sobre
SolR para generar una base de datos de consulta

Por agilidad en el desarrollo, se utilizó Python para el
desarrollo de los algoritmos sobre Apache Spark, trabajando
sobre Jupyter Notebooks

Análisis de Prensa - Algoritmos y estado actual
Operación Algoritmo/herramienta Estado
Extraer entidades nombradas SpaCy NER Testeado y
Procesado
Extraer conceptos relevantes TF-IDF Testeado y
Procesado
Extracción de sinónimos de
conceptos relevantes para mejorar
recuperabilidad
Word embeddings
(Word2vec Apache
Spark)
Testeado
Extracción de tópicos basados en
análisis semántico latente
Latent Dirichlet
allocation – (LDA)
Testeado
Clasificar en categorías Scikit-Learn Testeado
Análisis de sentimiento Scikit-Learn Testeado

Reconocimiento de entidades
nombradas
Named Entity Recognizer – NER
Se utilizó spaCy, un framework NLP que
ofrece un modelo de reconocimiento de
entidades pre entrenado con un corpus
de noticias.
Análisis de Prensa – Algoritmo probado

Algoritmo
Reconocimiento entidades nombradas (Spacy)
Datos
Testing: prensa 2018
Procesamiento: 2009 - 2018 prensa (90% de la BD)
Descripción
Se instaló componente con modelo entrenado en español sobre una base de datos de
noticias y se hizo correr en el cluster mediante Apache Spark
Resultados
Permite obtener entidades nombradas desde prensa, aunque se observa baja
precisión en la determinación del tipo de entidad
Análisis de Prensa - Resultados de pruebas

Extraer conceptos relevantes
Term-Frequency Inverse Document Frequency
Aplicable en el contexto de una colección de documentos, consiste en:
Donde TF es la frecuencia de un término en un documento:
IDF es la frecuencia inversa de documento, indica si un término es menos
frecuente en la colección es más relevante.

Algoritmo
Term-Frequency Inverse Document Frequency variante 2: TF-IDF -V2
Datos
Testing: prensa 2018
Procesamiento: 2009 - 2018 prensa (90% de la BD)
Descripción
- Colección por día (aprox 5.000 elementos)
- Variación de TF-IDF implementada en Apache Spark, extrae N-gramas relevantes de
largo 1 hasta 4
-Por cada documento solo se dejaron los 120 términos más relevantes divididos en
distinta proporción por ngrama (1=10%, 2=40%, 3=40%, 4=10%)
Resultados
Permite extraer n-gramas por documento o por otro criterio (ventana de tiempo, tipo,
etc)

Word embeddings
Técnica de aprendizaje no supervisado
donde se transforma un espacio discreto
(de una dimensión por palabra) en un
espacio vectorial continuo con menos
dimensiones

Algoritmo
Word embedding (Word2vec Apache Spark)
Datos
Testing: 1.5 GB de intervenciones Labor parlamentaria
Descripción
Definir palabras en espacio vectorial para calcular y obtener sinónimos
Resultados
Permite obtener variaciones de conceptos que pueden ser utilizados junto a TF-IDF, lo
cual puede servir en ciertos casos

Clasificadores de texto por materia
Se utilizó Scikit-learn, un framework para Machine Learning en Python

Algoritmo
Clasificadores Scikit-Learn por materia del repositorio institucional
Datos
25.000 documentos de texto del repositorio institucional
Descripción
o Prueba de 10 Clasificadores distintos en combinación de 4 parámetros (Stopwords,
limpiar_texto, Stemizar, Tipo_vectorizer (hash,count,tf_idf))
o 240 pruebas por materia en 5 cross_validation si la 1º prueba pasaba 80% accuracy.
o Se generaron clasificadores para aprox 350 materias definidas como metadato en los
recursos del repositorio. Cada materia debía tener al menos 50 documentos para
ejemplo. Del total de documentos se seleccionó igual nº de docs aleatorios de otras
materias para entrenar de forma balanceada
Resultados
Variedad en calidad de clasificadores dependiendo del número de ejemplos

Latent Dirichlet Allocation – LDA
Permite identificar tópicos “latentes”
(no explícitos) en el texto, mediante
agrupación de términos relacionados
al tópico latente.

Algoritmo
Latent Dirichlet Allocation - LDA
Datos
Texto de participaciones por día
Corpus de noticias, con texto por ngramas y entidades
Descripción
Se implementó en Apache Spark un extractor de tópicos por día, asocia diversos
ngramas y entidades a un mismo tópico
Resultados
Se obtienen listas de palabras asociadas a tópicos, las cuales pueden ser utilizadas
para el análisis

PRIMER PROTOTIPO FUNCIONAL
Análisis de Prensa

Análisis de Prensa – Datos indexados en SolR

Análisis de Prensa – Primer prototipo funcional

Análisis de Prensa - Conclusiones de las pruebas
o En el alto volumen de datos procesados el ruido de términos TF-IDF y
entidades desaparece
o Para procesar alto volumen de datos y obtener resultados coherentes no
se requiere un modelo que se ajuste “tanto” a los datos
o LDA se hace necesario para obtener tópicos intra-colección que no son
relevantes para TFIDF por ser muy frecuentes, pero poco frecuentes en el
total de las colecciones, no obstante que LDA tiene un inconveniente: la
necesidad a priori de determinar número de tópicos para entrenar el
modelo
o No es recomendable el uso de hadoop con datos altamente fragmentados
(archivos pequeños), ya que el performance baja considerablemente

Análisis de Prensa - Estado actual y trabajo futuro
o Datos de prensa (2009 a 2018) procesados y cargados sobre Apache SolR
(aprox. 9.000.000 de registros, tiempo de procesamiento > 45 días)
o Se debe realizar curado, unificación, normalización de datos y entity
linking.
o Se continuará la implementación de las características planificadas

Datasets actualmente disponibles
BCN publica periodicamente datos en una Knowledge Base RDF con acceso vía SPARQL:
http://datos.bcn.cl/sparql
o Normas de Leychile (RDF, XML)
o Documentos legislativos (RDF, XML, TXT) (útiles para corpus y pruebas)
o Diarios de sesiones
o Informes de comisión
o Mociónes
o Proyectos de Ley
o Biografías parlamentarias (RDF, RDFa)
o Localidades geográficas, Cargos, Persona, Organismos (RDF)
o Presupuesto de la Nacion

Referencias
Akoma-Ntoso
http://www.akomantoso.org
Stanford NER
http://nlp.stanford.edu/software/CRF-NER.shtml
spaCy
https://spacy.io
LDA
http://jmlr.csail.mit.edu/papers/v3/blei03a.html
Scikit-learn
https://scikit-learn.org

Tecnologías Semánticas para análisis político y legislativo

Recomendados

Recomendados

Más contenido relacionado

Similar a Tecnologías Semánticas para análisis político y legislativo

Similar a Tecnologías Semánticas para análisis político y legislativo (20)

Más de Francisco Cifuentes Silva

Más de Francisco Cifuentes Silva (11)

Último

Último (19)

Tecnologías Semánticas para análisis político y legislativo