SlideShare una empresa de Scribd logo
1 de 96
Tecnologías Semánticas para el análisis
político y legislativo
13 de noviembre de 2018
Francisco Cifuentes Silva
fcifuentes@bcn.cl
13 de noviembre de 2018 1Francisco Cifuentes Silva - BCN
Sobre el conferencista
o Jefe de Proyectos de Investigación en la Biblioteca del Congreso Nacional de Chile
o Ingeniero informático, Universidad de la Frontera (2001 – 2007)
o Máster en Ingeniería Web, Universidad de Oviedo (2009 – 2011)
o Actual estudiante del doctorado en informática en la UNIOVI
13 de noviembre de 2018 2Francisco Cifuentes Silva - BCN
¿Qué es la Biblioteca del Congreso Nacional?
Poderes del
estado
Poder Ejecutivo Poder Judicial Poder Legislativo
- Órgano “autónomo” del Poder
Legislativo
- Apoya al Parlamento y presta
servicios a la Ciudadanía.
13 de noviembre de 2018 3Francisco Cifuentes Silva - BCN
Por qué Tecnologías Semánticas en la BCN
o Se identifica el potencial tecnológico para generación de nuevos productos
o Provee mecanismos de interoperabilidad (Web Semántica)
o Se ajusta a la idea de información pública
o Uno de los cuatro pilares del plan estratégico (Biblioteca Semántica)
Francisco Cifuentes Silva - BCN 413 de noviembre de 2018
De qué hablamos con “Tecnologías Semánticas”
Las definiremos como:
“Conjunto de herramientas y técnicas que permitirán estudiar, explorar,
ampliar y explotar el significado de recursos de información”
13 de noviembre de 2018 5Francisco Cifuentes Silva - BCN
Tecnologías Semánticas
En la práctica, unión de dos mundos:
Tecnologías de Web Semántica (machine readable)
 XML
 RDF, OWL
 Ontologías
 Linked Open Data
Tecnologías de Análisis de Texto o Text Mining (content
enrichment)
 Extracción de unidades uni/multi palabra relevantes
 Extracción de tópicos
 Marcaje automático
 Clasificación
13 de noviembre de 2018 6Francisco Cifuentes Silva - BCN
EL COMIENZO DEL CAMINO
Tecnologías Semánticas en la BCN
13 de noviembre de 2018 7Francisco Cifuentes Silva - BCN
Tecnologías Semánticas en la BCN
Inicial
Ley Chile
2008
Open Data, Normas Legales en XML
2018
Fig: http://www.w3.org/DesignIssues/LinkedData.html
13 de noviembre de 2018 8Francisco Cifuentes Silva - BCN
Fase inicial (2008-2011)
http://www.leychile.cl
Publicación de normas
Legales actualizadas
Interoperabilidad con organismos públicos:
•Poder Judicial
•Contraloría
•SAG
•Entre más de cien otros.
13 de noviembre de 2018 9Francisco Cifuentes Silva - BCN
XML de la Ley 20.000 en http://www.leychile.cl
Fase inicial (2008-2011)
13 de noviembre de 2018 10Francisco Cifuentes Silva - BCN
Fase inicial (2008-2011): Social, Servicios Web y API
http://llevatelo.bcn.cl
Conjunto de servicios
de información que dan
acceso a contenidos
publicados por BCN
para ser integrados por
fuentes externas
13 de noviembre de 2018 11Francisco Cifuentes Silva - BCN
Tecnologías Semánticas en la BCN
Inicial Exploración
Ley Chile
Ontología +
Datos +
visualizaciones
2008 2011 2018
Linked Open Data
Normas Legales en RDF
Fig: http://www.w3.org/DesignIssues/LinkedData.html
13 de noviembre de 2018 12Francisco Cifuentes Silva - BCN
Fase exploratoria (2011-2012)
 Publicación de las primeras ontologías y datasets 5
estrellas:
 Normas legales (cerca de 300.000 normas en RDF)
 Parlamentarios
 Localidades geográficas
 Portal de datos enlazados
 Visualizaciones (validación y uso
de los datos)
13 de noviembre de 2018 13Francisco Cifuentes Silva - BCN
Fase exploratoria (2011-2012)
Publicación de grafos
de normas
Modelado de URIs para normas
13 de noviembre de 2018 14Francisco Cifuentes Silva - BCN
Fase exploratoria (2011-2012): Ontologías
Diagrama de representación de la ontología
Ontología de Normas
PREFIX bcnnorms: <http://datos.bcn.cl/ontologies/bcn-norms#>
13 de noviembre de 2018 15Francisco Cifuentes Silva - BCN
Fase exploratoria (2011-2012): Datasets
Endpoint SPARQL
http://datos.bcn.cl/sparql
Vista de recurso RDF en HTML
13 de noviembre de 2018 16Francisco Cifuentes Silva - BCN
Salida HTML+RDFa Archivo de configuración
Fase exploratoria (2011-2012): Herramientas
Linked Data Frontend con negociación de contenido HTTP
13 de noviembre de 2018 17Francisco Cifuentes Silva - BCN
Fase exploratoria (2011-2012): Visualizaciones I
http://datos.bcn.cl/visualizaciones/normas-por-comuna/
13 de noviembre de 2018 18Francisco Cifuentes Silva - BCN
Fase exploratoria (2011-2012): Visualizaciones II
http://www.leychile.cl/Consulta/Consulta/visualizacion_vinculaciones
13 de noviembre de 2018 19Francisco Cifuentes Silva - BCN
Fase exploratoria (2011-2012): Visualizaciones III
http://datos.bcn.cl/visualizaciones/genealogia-parlamentaria/
13 de noviembre de 2018 20Francisco Cifuentes Silva - BCN
Fase exploratoria (2011-2012): Visualizaciones III
http://datos.bcn.cl/visualizaciones/genealogia-parlamentaria/
13 de noviembre de 2018 21Francisco Cifuentes Silva - BCN
Tecnologías Semánticas en la BCN
Inicial Exploración Explotación
Ley Chile
Ontología +
Datos +
visualizaciones
Producción de datos +
productos
2008 2011 2012 2018
Prueba de concepto satisfactoria
=
Paso a producción de tecnología
13 de noviembre de 2018 22Francisco Cifuentes Silva - BCN
PROYECTO HISTORIA DE LA LEY Y LABOR
PARLAMENTARIA
Tecnologías Semánticas en Producción
13 de noviembre de 2018 23Francisco Cifuentes Silva - BCN
Tecnologías Semánticas en producción
Proyecto Historia de la Ley y Labor Parlamentaria
Historia de la Ley (HL):
Obtener todo el debate en torno a una ley y sus partes, como también todas sus
versiones desde que fue presentada como proyecto, hasta que se publicó en el
Diario Oficial (BOE chileno), de manera automática
Labor Parlamentaria (LP)
Obtener todo lo hablado y documentos presentados por cada parlamentario en
sesiones del Congreso Nacional de manera histórica y categorizada de manera
automática
13 de noviembre de 2018 24Francisco Cifuentes Silva - BCN
Escenario y complejidades de HL y LP
Si volvemos el tiempo atrás hasta 2011…
 Se deben procesar aproximadamente 8.000 diarios de sesión (desde 1965 a la
fecha) y aproximadamente 17.000 documentos de otros tipos (informes de
comisión, iniciativas de proyecto de ley, etc) del archivo de la biblioteca
 Documentos anteriores a 1990 solo se cuenta con el ejemplar físico (papel)
 Posterior a 1990, algunos documentos en Word
 Posterior a 2012, algunos documentos en XML
 Se debe detectar cuándo habla un parlamentario, qué parlamentario y sobre qué
habla
 Se debe detectar la estructura y articulado de un proyecto de ley (además su
estructura es recursiva )
 Normas de redacción varían levemente en distintos periodos
 Se debe poder extraer información para luego consultar
13 de noviembre de 2018 25Francisco Cifuentes Silva - BCN
Observación empírica en procesamiento de marcaje de documentos usando XML en BCN
26/29
Escenario y complejidades de HL y LP
13 de noviembre de 2018 26Francisco Cifuentes Silva - BCN
Solución planteada HL y LP
Usando Tecnologías Semánticas:
Ya que se cuenta con texto plano => aplicar marcaje en XML sobre el texto:
 Ya se cuenta con una infraestructura de Linked Open Data
 Existe el estándar Akoma-Ntosopara documentos legales
 Marcar documentos a nivel de proyecto de ley e Intervención de parlamentario
agregando metadatos
X Marcar 24.000 documentos de forma manual (estructura, metadatos y entidades)
aproximadamente 12 horas por documento promedio (100 páginas) = 288.000 horas
 Usar herramientas de marcaje automático => reducción de tiempo a marcar solo
metadatos especializados y QA promedio 1,5 horas por documento
 Extraer datos para elaborar productos y dejarlos a disposición de la ciudadanía
13 de noviembre de 2018 27Francisco Cifuentes Silva - BCN
Vista del proceso en términos generales
Congreso Nacional Documentos legislativos
•Papel (requiere OCR)
•Documentos Word
•XML desde opendata.congreso.cl
Editor XML y
Herramientas
Workflow de
producción
Repositorio SVN
Akoma-Ntoso
Publicación
(extracción RDF
desde Akomantoso)
Linked Open Data BD de consulta
Capa de servicios
Portales de
contenido
13 de noviembre de 2018 28Francisco Cifuentes Silva - BCN
Tecnologías Semánticas – Marcaje Automático
Llegar desde esto
con el menor esfuerzo posible Hasta esto
13 de noviembre de 2018 29Francisco Cifuentes Silva - BCN
Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 30Francisco Cifuentes Silva - BCN
Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 31Francisco Cifuentes Silva - BCN
Reconocedor de Entidades Nombradas (NER)
o Se necesita identificar entidades en el texto y su tipo (personas,
organismos, lugares, roles, fechas, documentos)
o Se está utilizando una versión adaptada al español del Stanford NER
o El clasificador fue entrenado con diarios de sesión de largo promedio
(aprox. 100 páginas), logrando sobre un 95% de efectividad en
reconocimiento de entidades
o Escrito en Java y disponible como servicio XML HTTP
Francisco Cifuentes Silva - BCN 3213 de noviembre de 2018
Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 33Francisco Cifuentes Silva - BCN
Desambiguación de entidades - Mediador
Permite asignar una única URI a una entidad reconocida en el texto
o Conecta a un endpoint SPARQL e indexa entidades
o Compara un texto de entrada con diversas etiquetas de recursos RDF (rdfs:label,
skos:prefLabel, skos:altLabel)
o Selecciona la etiqueta más similar y devuelve la URI del recurso
Mediador
Indexar LOC entities
Colección tuplas
URI/Label
GET URI para “Chile”
200 OK
http://datos.bcn.cl/recurso/pais/chile
13 de noviembre de 2018 34Francisco Cifuentes Silva - BCN
Desambiguación de entidades - Mediador
Asigna una URI a la entidad
Input
Output
13 de noviembre de 2018 35Francisco Cifuentes Silva - BCN
Otras características
o Los datos están indexados en memoria
o Permite establecer información de contexto
o Heurísticas por tipo de entidad (Solución para ambigüedades)
o Implementa conjunto de servicios Web HTTP escritos en Java
Desambiguación de entidades - Mediador
13 de noviembre de 2018 36Francisco Cifuentes Silva - BCN
Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 37Francisco Cifuentes Silva - BCN
Marcaje Estructural en XML
o El problema es detectar secciones estructurales
o Combinación de métodos
o Expresiones regulares
o Algoritmos para diferencias y detectar secuencias
o Mezcla de reglas y algoritmos
o Cada combinación depende del tipo de documento
o Finalmente, una representación de objeto similar a DOM es transformada a
XML
o Servicio Web escrito en Java
13 de noviembre de 2018 38Francisco Cifuentes Silva - BCN
Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 39Francisco Cifuentes Silva - BCN
Traducción de XML a formato final
o Akoma-Ntoso es un estándar OASIS para documentos legales
o AKN es un esquema demasiado amplio y complejo por lo que construir
hojas XSLT no era una solución viable
o Se implementó en Java un servicio Web traductor de XML
13 de noviembre de 2018 40Francisco Cifuentes Silva - BCN
o Los documentos AKN generados de forma automática deben ser revisados
y enriquecidos por analistas humanos
o Dependiendo del proceso, se integraron o implementaron editores XML
ad-hoc en el Workflow
o Para marcaje de diarios de sesión en XML se utilizó un editor comercial
o Para otras operaciones se implementaron editores XML ad-hoc
Edición de documentos AKN
13 de noviembre de 2018 41Francisco Cifuentes Silva - BCN
Vista del proceso en términos generales
Repositorio SVN
Akoma-Ntoso
Congreso Nacional Documentos legislativos
•Papel (requiere OCR)
•Documentos Word
•XML desde opendata.congreso.cl
Editor XML y
Herramientas
Workflow de
producción Publicación
(extracción RDF
desde Akomantoso)
Linked Open Data BD de consulta
Capa de servicios
Portales de
contenido
13 de noviembre de 2018 42Francisco Cifuentes Silva - BCN
Publicación de documentos y extracción de datos
o Una vez almacenado el XML enriquecido es momento de extraer
información
o Para ello se desarrolló un servicio capaz de distinguir el tipo de documento
y extraer su información
o La información se extrae en un modelo de objetos que se persiste en una
base de datos relacional y a su vez se exporta a RDF persistiéndose en un
RDF Triplestore
o Adicionalmente tanto los documentos como los datos extraídos se indexan
en un motor de búsqueda para texto basado en Apache Lucene
o Los portales de consulta accederán a datos en LOD como a la tabla de
hechos mediante servicios Web
13 de noviembre de 2018 43Francisco Cifuentes Silva - BCN
Documento descompuesto en RDF
13 de noviembre de 2018 44Francisco Cifuentes Silva - BCN
Consultar documentos vía SPARQL
13 de noviembre de 2018 45Francisco Cifuentes Silva - BCN
VISUALIZACIÓN DE CONTENIDO
Labor Parlamentaria - Historia de la Ley
13 de noviembre de 2018 46Francisco Cifuentes Silva - BCN
https://www.bcn.cl/laborparlamentaria13 de noviembre de 2018 47Francisco Cifuentes Silva - BCN
https://www.bcn.cl/laborparlamentaria13 de noviembre de 2018 48Francisco Cifuentes Silva - BCN
https://www.bcn.cl/laborparlamentaria13 de noviembre de 2018 49Francisco Cifuentes Silva - BCN
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 50Francisco Cifuentes Silva - BCN
Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 51Francisco Cifuentes Silva - BCN
Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 52Francisco Cifuentes Silva - BCN
Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 53Francisco Cifuentes Silva - BCN
Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 54Francisco Cifuentes Silva - BCN
Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 55Francisco Cifuentes Silva - BCN
Lecciones aprendidas – Proyecto LP HL
o Probamos utilización de clasificadores para marcaje estructural sin obtener buenos
resultados, texto muy variado
o Para los Content Delivery, se probaron distintos esquemas para consultas
complejas usando LOD:
X Datos en RDF + Ontologías + Inferencias = algunas consultas no terminaban
X Datos en RDF + Datos inferidos precargados = promedio de tiempos
inaceptable
 Datos en tabla de Hechos para consulta
o Utilización de URIs es excepcionalmente útil para interoperabilidad
o Documentos legales, metadatos, entidades nombradas
 Procesar los documentos de forma completa reduce considerablemente las HH de
elaboración de productos y aumenta la eficiencia
13 de noviembre de 2018 56Francisco Cifuentes Silva - BCN
Algunos datos operativos
o El proyecto se ha desarrollado en 5 años considerando desarrollo de
software en paralelo a poblamiento retrospectivo
o El equipo de proyecto interno de informática fue de 3 personas por 2 años
y desde ahí hemos sido solo 2
o Asociados al proyecto se realizaron un total de 14 contratos, 10 de ellos
proyectos vía licitación pública, 2 por contratación directa y 2 por
conceptos de licencias de software
o La distribución del gasto asociada al proyecto es aproximadamente:
o 10% licencias de software
o 30% desarrollo de software
o 60% HH de analistas legislativos para poblamiento de la base de datos
13 de noviembre de 2018 57Francisco Cifuentes Silva - BCN
PROYECTO ANÁLISIS DE PRENSA
Tecnologías Semánticas en desarrollo
13 de noviembre de 2018 58Francisco Cifuentes Silva - BCN
Tecnologías Semánticas en desarrollo
Proyecto análisis de prensa
o BCN cuenta con una base de datos que almacena la prensa de todos los
medios de comunicación nacionales (prensa escrita, en línea, radio y TV).
o Se cuenta con registros de prensa desde 1818 a la fecha
o Solo en texto, al día de hoy se cuenta con 10.000.000 de registros
o La idea es disponibilizar para el Congreso Nacional una herramienta que
permita obtener información agregada y desagregada, como también
analizar tendencias
13 de noviembre de 2018 59Francisco Cifuentes Silva - BCN
Proyecto Análisis de Prensa
Hardware actual Cluster Big Data, 6 nodos
– 2 nodos master 16 cores, RAM 128GB, 1.5TB HD
– 4 nodos slave 16 cores, RAM 96GB, 1TB HD
13 de noviembre de 2018 60Francisco Cifuentes Silva - BCN
Proyecto Análisis de Prensa
Ecosistema Big Data - BCN
13 de noviembre de 2018 61Francisco Cifuentes Silva - BCN
Proyecto Análisis de Prensa
Se procesará toda la prensa para realizar las siguientes
operaciones:
o Extraer entidades nombradas y asignar una URI
o Extraer conceptos relevantes (una o más palabras)
o Extracción de sinónimos de conceptos relevantes para mejorar
recuperabilidad
o Extracción de tópicos basados en análisis semántico latente
o Clasificar en categorías conocidas (Deportes, Policial, Economía, etc.)
o Análisis de sentimiento (Polaridad: +, -, 0)
Posteriormente se indexará toda la información generada sobre
SolR para generar una base de datos de consulta
13 de noviembre de 2018 62Francisco Cifuentes Silva - BCN
Proyecto Análisis de Prensa
Por agilidad en el desarrollo, se utilizó Python para el
desarrollo de los algoritmos sobre Apache Spark, trabajando
sobre Jupyter Notebooks
13 de noviembre de 2018 63Francisco Cifuentes Silva - BCN
Análisis de Prensa - Algoritmos y estado actual
Operación Algoritmo/herramienta Estado
Extraer entidades nombradas SpaCy NER Testeado y
Procesado
Extraer conceptos relevantes TF-IDF Testeado y
Procesado
Extracción de sinónimos de
conceptos relevantes para mejorar
recuperabilidad
Word embeddings
(Word2vec Apache
Spark)
Testeado
Extracción de tópicos basados en
análisis semántico latente
Latent Dirichlet
allocation – (LDA)
Testeado
Clasificar en categorías Scikit-Learn Testeado
Análisis de sentimiento Scikit-Learn Testeado
13 de noviembre de 2018 64Francisco Cifuentes Silva - BCN
Reconocimiento de entidades
nombradas
Named Entity Recognizer – NER
Se utilizó spaCy, un framework NLP que
ofrece un modelo de reconocimiento de
entidades pre entrenado con un corpus
de noticias.
Análisis de Prensa – Algoritmo probado
13 de noviembre de 2018 65Francisco Cifuentes Silva - BCN
Algoritmo
Reconocimiento entidades nombradas (Spacy)
Datos
Testing: prensa 2018
Procesamiento: 2009 - 2018 prensa (90% de la BD)
Descripción
Se instaló componente con modelo entrenado en español sobre una base de datos de
noticias y se hizo correr en el cluster mediante Apache Spark
Resultados
Permite obtener entidades nombradas desde prensa, aunque se observa baja
precisión en la determinación del tipo de entidad
Análisis de Prensa - Resultados de pruebas
13 de noviembre de 2018 66Francisco Cifuentes Silva - BCN
Análisis de Prensa – Algoritmo probado
Extraer conceptos relevantes
Term-Frequency Inverse Document Frequency
Aplicable en el contexto de una colección de documentos, consiste en:
Donde TF es la frecuencia de un término en un documento:
IDF es la frecuencia inversa de documento, indica si un término es menos
frecuente en la colección es más relevante.
13 de noviembre de 2018 67Francisco Cifuentes Silva - BCN
Análisis de Prensa - Resultados de pruebas
Algoritmo
Term-Frequency Inverse Document Frequency variante 2: TF-IDF -V2
Datos
Testing: prensa 2018
Procesamiento: 2009 - 2018 prensa (90% de la BD)
Descripción
- Colección por día (aprox 5.000 elementos)
- Variación de TF-IDF implementada en Apache Spark, extrae N-gramas relevantes de
largo 1 hasta 4
-Por cada documento solo se dejaron los 120 términos más relevantes divididos en
distinta proporción por ngrama (1=10%, 2=40%, 3=40%, 4=10%)
Resultados
Permite extraer n-gramas por documento o por otro criterio (ventana de tiempo, tipo,
etc)
13 de noviembre de 2018 68Francisco Cifuentes Silva - BCN
Word embeddings
Técnica de aprendizaje no supervisado
donde se transforma un espacio discreto
(de una dimensión por palabra) en un
espacio vectorial continuo con menos
dimensiones
Análisis de Prensa – Algoritmo probado
13 de noviembre de 2018 69Francisco Cifuentes Silva - BCN
Algoritmo
Word embedding (Word2vec Apache Spark)
Datos
Testing: 1.5 GB de intervenciones Labor parlamentaria
Descripción
Definir palabras en espacio vectorial para calcular y obtener sinónimos
Resultados
Permite obtener variaciones de conceptos que pueden ser utilizados junto a TF-IDF, lo
cual puede servir en ciertos casos
Análisis de Prensa - Resultados de pruebas
13 de noviembre de 2018 70Francisco Cifuentes Silva - BCN
Clasificadores de texto por materia
Se utilizó Scikit-learn, un framework para Machine Learning en Python
Análisis de Prensa – Algoritmo probado
13 de noviembre de 2018 71Francisco Cifuentes Silva - BCN
Algoritmo
Clasificadores Scikit-Learn por materia del repositorio institucional
Datos
25.000 documentos de texto del repositorio institucional
Descripción
o Prueba de 10 Clasificadores distintos en combinación de 4 parámetros (Stopwords,
limpiar_texto, Stemizar, Tipo_vectorizer (hash,count,tf_idf))
o 240 pruebas por materia en 5 cross_validation si la 1º prueba pasaba 80% accuracy.
o Se generaron clasificadores para aprox 350 materias definidas como metadato en los
recursos del repositorio. Cada materia debía tener al menos 50 documentos para
ejemplo. Del total de documentos se seleccionó igual nº de docs aleatorios de otras
materias para entrenar de forma balanceada
Resultados
Variedad en calidad de clasificadores dependiendo del número de ejemplos
Análisis de Prensa - Resultados de pruebas
13 de noviembre de 2018 72Francisco Cifuentes Silva - BCN
Análisis de Prensa – Algoritmo probado
Latent Dirichlet Allocation – LDA
Permite identificar tópicos “latentes”
(no explícitos) en el texto, mediante
agrupación de términos relacionados
al tópico latente.
13 de noviembre de 2018 73Francisco Cifuentes Silva - BCN
Análisis de Prensa - Resultados de pruebas
Algoritmo
Latent Dirichlet Allocation - LDA
Datos
Texto de participaciones por día
Corpus de noticias, con texto por ngramas y entidades
Descripción
Se implementó en Apache Spark un extractor de tópicos por día, asocia diversos
ngramas y entidades a un mismo tópico
Resultados
Se obtienen listas de palabras asociadas a tópicos, las cuales pueden ser utilizadas
para el análisis
13 de noviembre de 2018 74Francisco Cifuentes Silva - BCN
PRIMER PROTOTIPO FUNCIONAL
Análisis de Prensa
13 de noviembre de 2018 75Francisco Cifuentes Silva - BCN
Análisis de Prensa – Datos indexados en SolR
13 de noviembre de 2018 76Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 77Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 78Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 79Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 80Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 81Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 82Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 83Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 84Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 85Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 86Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 87Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 88Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 89Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 90Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 91Francisco Cifuentes Silva - BCN
Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 92Francisco Cifuentes Silva - BCN
Análisis de Prensa - Conclusiones de las pruebas
o En el alto volumen de datos procesados el ruido de términos TF-IDF y
entidades desaparece
o Para procesar alto volumen de datos y obtener resultados coherentes no
se requiere un modelo que se ajuste “tanto” a los datos
o LDA se hace necesario para obtener tópicos intra-colección que no son
relevantes para TFIDF por ser muy frecuentes, pero poco frecuentes en el
total de las colecciones, no obstante que LDA tiene un inconveniente: la
necesidad a priori de determinar número de tópicos para entrenar el
modelo
o No es recomendable el uso de hadoop con datos altamente fragmentados
(archivos pequeños), ya que el performance baja considerablemente
13 de noviembre de 2018 93Francisco Cifuentes Silva - BCN
Análisis de Prensa - Estado actual y trabajo futuro
o Datos de prensa (2009 a 2018) procesados y cargados sobre Apache SolR
(aprox. 9.000.000 de registros, tiempo de procesamiento > 45 días)
o Se debe realizar curado, unificación, normalización de datos y entity
linking.
o Se continuará la implementación de las características planificadas
13 de noviembre de 2018 94Francisco Cifuentes Silva - BCN
Datasets actualmente disponibles
BCN publica periodicamente datos en una Knowledge Base RDF con acceso vía SPARQL:
http://datos.bcn.cl/sparql
o Normas de Leychile (RDF, XML)
o Documentos legislativos (RDF, XML, TXT) (útiles para corpus y pruebas)
o Diarios de sesiones
o Informes de comisión
o Mociónes
o Proyectos de Ley
o Biografías parlamentarias (RDF, RDFa)
o Localidades geográficas, Cargos, Persona, Organismos (RDF)
o Presupuesto de la Nacion
Francisco Cifuentes Silva - BCN 9513 de noviembre de 2018
Referencias
Akoma-Ntoso
http://www.akomantoso.org
Stanford NER
http://nlp.stanford.edu/software/CRF-NER.shtml
spaCy
https://spacy.io
LDA
http://jmlr.csail.mit.edu/papers/v3/blei03a.html
Scikit-learn
https://scikit-learn.org
Francisco Cifuentes Silva - BCN 9613 de noviembre de 2018

Más contenido relacionado

Similar a Tecnologías Semánticas para análisis político y legislativo

Presentacion taller regional en El Salvador
Presentacion taller regional en El SalvadorPresentacion taller regional en El Salvador
Presentacion taller regional en El SalvadorChristian Sifaqui
 
Charla a alumnos de la UCINF
Charla a alumnos de la UCINFCharla a alumnos de la UCINF
Charla a alumnos de la UCINFChristian Sifaqui
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rioLATIPAT
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rioLATIPAT
 
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...Oscar Corcho
 
Presentación ley de archivo 07jun
Presentación ley de archivo 07junPresentación ley de archivo 07jun
Presentación ley de archivo 07junDaniel Briones Reyes
 
El Proyecto Colibrí
El Proyecto ColibríEl Proyecto Colibrí
El Proyecto ColibríOpenKratio
 
Charla y mesa redonda 19 diciembre 2011
Charla y mesa redonda 19 diciembre 2011Charla y mesa redonda 19 diciembre 2011
Charla y mesa redonda 19 diciembre 2011Christian Sifaqui
 
Presentacion 20111019 latipat
Presentacion 20111019 latipatPresentacion 20111019 latipat
Presentacion 20111019 latipatLATIPAT
 
Conferencia Datos Abiertos Regionales, Montevideo, 2013
Conferencia Datos Abiertos Regionales, Montevideo, 2013Conferencia Datos Abiertos Regionales, Montevideo, 2013
Conferencia Datos Abiertos Regionales, Montevideo, 2013Christian Sifaqui
 
Seminario Cepal, martes 24 de abril de 2012
Seminario Cepal, martes 24 de abril de 2012Seminario Cepal, martes 24 de abril de 2012
Seminario Cepal, martes 24 de abril de 2012Christian Sifaqui
 
XBRL IV Congreso Anual XBRL
XBRL IV Congreso Anual XBRLXBRL IV Congreso Anual XBRL
XBRL IV Congreso Anual XBRLmuriel sebas
 
OVTT: Vigilancia tecnológica al servicio de la innovación empresarial
OVTT: Vigilancia tecnológica al servicio de la innovación empresarialOVTT: Vigilancia tecnológica al servicio de la innovación empresarial
OVTT: Vigilancia tecnológica al servicio de la innovación empresarialOVTT
 
OVTT: Vigilancia tecnológica al servicio de la innovación empresarial
OVTT: Vigilancia tecnológica al servicio de la innovación empresarialOVTT: Vigilancia tecnológica al servicio de la innovación empresarial
OVTT: Vigilancia tecnológica al servicio de la innovación empresarialAlba Santa
 
Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012Christian Sifaqui
 

Similar a Tecnologías Semánticas para análisis político y legislativo (20)

Charla Usm Stgo
Charla Usm StgoCharla Usm Stgo
Charla Usm Stgo
 
Charla Usm Stgo, 12/10/2007
Charla Usm Stgo, 12/10/2007Charla Usm Stgo, 12/10/2007
Charla Usm Stgo, 12/10/2007
 
Presentacion taller regional en El Salvador
Presentacion taller regional en El SalvadorPresentacion taller regional en El Salvador
Presentacion taller regional en El Salvador
 
Charla a alumnos de la UCINF
Charla a alumnos de la UCINFCharla a alumnos de la UCINF
Charla a alumnos de la UCINF
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rio
 
Presentación latipat rio
Presentación latipat rioPresentación latipat rio
Presentación latipat rio
 
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
Periodismo de datos y Linked Data: El poder de los datos enlazados para gener...
 
ABOX ECM
ABOX ECM ABOX ECM
ABOX ECM
 
Presentación ley de archivo 07jun
Presentación ley de archivo 07junPresentación ley de archivo 07jun
Presentación ley de archivo 07jun
 
El Proyecto Colibrí
El Proyecto ColibríEl Proyecto Colibrí
El Proyecto Colibrí
 
Charla y mesa redonda 19 diciembre 2011
Charla y mesa redonda 19 diciembre 2011Charla y mesa redonda 19 diciembre 2011
Charla y mesa redonda 19 diciembre 2011
 
Presentacion 20111019 latipat
Presentacion 20111019 latipatPresentacion 20111019 latipat
Presentacion 20111019 latipat
 
Conferencia Datos Abiertos Regionales, Montevideo, 2013
Conferencia Datos Abiertos Regionales, Montevideo, 2013Conferencia Datos Abiertos Regionales, Montevideo, 2013
Conferencia Datos Abiertos Regionales, Montevideo, 2013
 
Seminario Cepal, martes 24 de abril de 2012
Seminario Cepal, martes 24 de abril de 2012Seminario Cepal, martes 24 de abril de 2012
Seminario Cepal, martes 24 de abril de 2012
 
XBRL IV Congreso Anual XBRL
XBRL IV Congreso Anual XBRLXBRL IV Congreso Anual XBRL
XBRL IV Congreso Anual XBRL
 
XBRL España. Un año de trabajo
XBRL España. Un año de trabajoXBRL España. Un año de trabajo
XBRL España. Un año de trabajo
 
Mexico
MexicoMexico
Mexico
 
OVTT: Vigilancia tecnológica al servicio de la innovación empresarial
OVTT: Vigilancia tecnológica al servicio de la innovación empresarialOVTT: Vigilancia tecnológica al servicio de la innovación empresarial
OVTT: Vigilancia tecnológica al servicio de la innovación empresarial
 
OVTT: Vigilancia tecnológica al servicio de la innovación empresarial
OVTT: Vigilancia tecnológica al servicio de la innovación empresarialOVTT: Vigilancia tecnológica al servicio de la innovación empresarial
OVTT: Vigilancia tecnológica al servicio de la innovación empresarial
 
Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012Encuentro open data, 12 de julio de 2012
Encuentro open data, 12 de julio de 2012
 

Más de Francisco Cifuentes Silva

Más de Francisco Cifuentes Silva (11)

Modelo de enriquecimiento semántico de recursos de información
Modelo de enriquecimiento semántico de recursos de informaciónModelo de enriquecimiento semántico de recursos de información
Modelo de enriquecimiento semántico de recursos de información
 
Participación de la BCN en la Global Legislative Hackathon 2016.
Participación de la BCN en la Global Legislative Hackathon 2016.Participación de la BCN en la Global Legislative Hackathon 2016.
Participación de la BCN en la Global Legislative Hackathon 2016.
 
Service-Oriented Architecture for automatic markup of documents
Service-Oriented Architecture for automatic markup of documentsService-Oriented Architecture for automatic markup of documents
Service-Oriented Architecture for automatic markup of documents
 
Introduccion a OpenData
Introduccion a OpenDataIntroduccion a OpenData
Introduccion a OpenData
 
Curso ontologías - Modelando en E-R y RDF Schema
Curso ontologías - Modelando en E-R y RDF SchemaCurso ontologías - Modelando en E-R y RDF Schema
Curso ontologías - Modelando en E-R y RDF Schema
 
Introduccion - Curso Ontologías
Introduccion - Curso OntologíasIntroduccion - Curso Ontologías
Introduccion - Curso Ontologías
 
Presentacion tfm
Presentacion tfmPresentacion tfm
Presentacion tfm
 
Presentación Linked data BCN - Red linked data españa
Presentación Linked  data BCN  - Red linked data españaPresentación Linked  data BCN  - Red linked data españa
Presentación Linked data BCN - Red linked data españa
 
Cuántos Rostros!
Cuántos Rostros!Cuántos Rostros!
Cuántos Rostros!
 
Prototipe v2
Prototipe v2Prototipe v2
Prototipe v2
 
Usability Fails
Usability FailsUsability Fails
Usability Fails
 

Último

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 

Último (19)

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 

Tecnologías Semánticas para análisis político y legislativo

  • 1. Tecnologías Semánticas para el análisis político y legislativo 13 de noviembre de 2018 Francisco Cifuentes Silva fcifuentes@bcn.cl 13 de noviembre de 2018 1Francisco Cifuentes Silva - BCN
  • 2. Sobre el conferencista o Jefe de Proyectos de Investigación en la Biblioteca del Congreso Nacional de Chile o Ingeniero informático, Universidad de la Frontera (2001 – 2007) o Máster en Ingeniería Web, Universidad de Oviedo (2009 – 2011) o Actual estudiante del doctorado en informática en la UNIOVI 13 de noviembre de 2018 2Francisco Cifuentes Silva - BCN
  • 3. ¿Qué es la Biblioteca del Congreso Nacional? Poderes del estado Poder Ejecutivo Poder Judicial Poder Legislativo - Órgano “autónomo” del Poder Legislativo - Apoya al Parlamento y presta servicios a la Ciudadanía. 13 de noviembre de 2018 3Francisco Cifuentes Silva - BCN
  • 4. Por qué Tecnologías Semánticas en la BCN o Se identifica el potencial tecnológico para generación de nuevos productos o Provee mecanismos de interoperabilidad (Web Semántica) o Se ajusta a la idea de información pública o Uno de los cuatro pilares del plan estratégico (Biblioteca Semántica) Francisco Cifuentes Silva - BCN 413 de noviembre de 2018
  • 5. De qué hablamos con “Tecnologías Semánticas” Las definiremos como: “Conjunto de herramientas y técnicas que permitirán estudiar, explorar, ampliar y explotar el significado de recursos de información” 13 de noviembre de 2018 5Francisco Cifuentes Silva - BCN
  • 6. Tecnologías Semánticas En la práctica, unión de dos mundos: Tecnologías de Web Semántica (machine readable)  XML  RDF, OWL  Ontologías  Linked Open Data Tecnologías de Análisis de Texto o Text Mining (content enrichment)  Extracción de unidades uni/multi palabra relevantes  Extracción de tópicos  Marcaje automático  Clasificación 13 de noviembre de 2018 6Francisco Cifuentes Silva - BCN
  • 7. EL COMIENZO DEL CAMINO Tecnologías Semánticas en la BCN 13 de noviembre de 2018 7Francisco Cifuentes Silva - BCN
  • 8. Tecnologías Semánticas en la BCN Inicial Ley Chile 2008 Open Data, Normas Legales en XML 2018 Fig: http://www.w3.org/DesignIssues/LinkedData.html 13 de noviembre de 2018 8Francisco Cifuentes Silva - BCN
  • 9. Fase inicial (2008-2011) http://www.leychile.cl Publicación de normas Legales actualizadas Interoperabilidad con organismos públicos: •Poder Judicial •Contraloría •SAG •Entre más de cien otros. 13 de noviembre de 2018 9Francisco Cifuentes Silva - BCN
  • 10. XML de la Ley 20.000 en http://www.leychile.cl Fase inicial (2008-2011) 13 de noviembre de 2018 10Francisco Cifuentes Silva - BCN
  • 11. Fase inicial (2008-2011): Social, Servicios Web y API http://llevatelo.bcn.cl Conjunto de servicios de información que dan acceso a contenidos publicados por BCN para ser integrados por fuentes externas 13 de noviembre de 2018 11Francisco Cifuentes Silva - BCN
  • 12. Tecnologías Semánticas en la BCN Inicial Exploración Ley Chile Ontología + Datos + visualizaciones 2008 2011 2018 Linked Open Data Normas Legales en RDF Fig: http://www.w3.org/DesignIssues/LinkedData.html 13 de noviembre de 2018 12Francisco Cifuentes Silva - BCN
  • 13. Fase exploratoria (2011-2012)  Publicación de las primeras ontologías y datasets 5 estrellas:  Normas legales (cerca de 300.000 normas en RDF)  Parlamentarios  Localidades geográficas  Portal de datos enlazados  Visualizaciones (validación y uso de los datos) 13 de noviembre de 2018 13Francisco Cifuentes Silva - BCN
  • 14. Fase exploratoria (2011-2012) Publicación de grafos de normas Modelado de URIs para normas 13 de noviembre de 2018 14Francisco Cifuentes Silva - BCN
  • 15. Fase exploratoria (2011-2012): Ontologías Diagrama de representación de la ontología Ontología de Normas PREFIX bcnnorms: <http://datos.bcn.cl/ontologies/bcn-norms#> 13 de noviembre de 2018 15Francisco Cifuentes Silva - BCN
  • 16. Fase exploratoria (2011-2012): Datasets Endpoint SPARQL http://datos.bcn.cl/sparql Vista de recurso RDF en HTML 13 de noviembre de 2018 16Francisco Cifuentes Silva - BCN
  • 17. Salida HTML+RDFa Archivo de configuración Fase exploratoria (2011-2012): Herramientas Linked Data Frontend con negociación de contenido HTTP 13 de noviembre de 2018 17Francisco Cifuentes Silva - BCN
  • 18. Fase exploratoria (2011-2012): Visualizaciones I http://datos.bcn.cl/visualizaciones/normas-por-comuna/ 13 de noviembre de 2018 18Francisco Cifuentes Silva - BCN
  • 19. Fase exploratoria (2011-2012): Visualizaciones II http://www.leychile.cl/Consulta/Consulta/visualizacion_vinculaciones 13 de noviembre de 2018 19Francisco Cifuentes Silva - BCN
  • 20. Fase exploratoria (2011-2012): Visualizaciones III http://datos.bcn.cl/visualizaciones/genealogia-parlamentaria/ 13 de noviembre de 2018 20Francisco Cifuentes Silva - BCN
  • 21. Fase exploratoria (2011-2012): Visualizaciones III http://datos.bcn.cl/visualizaciones/genealogia-parlamentaria/ 13 de noviembre de 2018 21Francisco Cifuentes Silva - BCN
  • 22. Tecnologías Semánticas en la BCN Inicial Exploración Explotación Ley Chile Ontología + Datos + visualizaciones Producción de datos + productos 2008 2011 2012 2018 Prueba de concepto satisfactoria = Paso a producción de tecnología 13 de noviembre de 2018 22Francisco Cifuentes Silva - BCN
  • 23. PROYECTO HISTORIA DE LA LEY Y LABOR PARLAMENTARIA Tecnologías Semánticas en Producción 13 de noviembre de 2018 23Francisco Cifuentes Silva - BCN
  • 24. Tecnologías Semánticas en producción Proyecto Historia de la Ley y Labor Parlamentaria Historia de la Ley (HL): Obtener todo el debate en torno a una ley y sus partes, como también todas sus versiones desde que fue presentada como proyecto, hasta que se publicó en el Diario Oficial (BOE chileno), de manera automática Labor Parlamentaria (LP) Obtener todo lo hablado y documentos presentados por cada parlamentario en sesiones del Congreso Nacional de manera histórica y categorizada de manera automática 13 de noviembre de 2018 24Francisco Cifuentes Silva - BCN
  • 25. Escenario y complejidades de HL y LP Si volvemos el tiempo atrás hasta 2011…  Se deben procesar aproximadamente 8.000 diarios de sesión (desde 1965 a la fecha) y aproximadamente 17.000 documentos de otros tipos (informes de comisión, iniciativas de proyecto de ley, etc) del archivo de la biblioteca  Documentos anteriores a 1990 solo se cuenta con el ejemplar físico (papel)  Posterior a 1990, algunos documentos en Word  Posterior a 2012, algunos documentos en XML  Se debe detectar cuándo habla un parlamentario, qué parlamentario y sobre qué habla  Se debe detectar la estructura y articulado de un proyecto de ley (además su estructura es recursiva )  Normas de redacción varían levemente en distintos periodos  Se debe poder extraer información para luego consultar 13 de noviembre de 2018 25Francisco Cifuentes Silva - BCN
  • 26. Observación empírica en procesamiento de marcaje de documentos usando XML en BCN 26/29 Escenario y complejidades de HL y LP 13 de noviembre de 2018 26Francisco Cifuentes Silva - BCN
  • 27. Solución planteada HL y LP Usando Tecnologías Semánticas: Ya que se cuenta con texto plano => aplicar marcaje en XML sobre el texto:  Ya se cuenta con una infraestructura de Linked Open Data  Existe el estándar Akoma-Ntosopara documentos legales  Marcar documentos a nivel de proyecto de ley e Intervención de parlamentario agregando metadatos X Marcar 24.000 documentos de forma manual (estructura, metadatos y entidades) aproximadamente 12 horas por documento promedio (100 páginas) = 288.000 horas  Usar herramientas de marcaje automático => reducción de tiempo a marcar solo metadatos especializados y QA promedio 1,5 horas por documento  Extraer datos para elaborar productos y dejarlos a disposición de la ciudadanía 13 de noviembre de 2018 27Francisco Cifuentes Silva - BCN
  • 28. Vista del proceso en términos generales Congreso Nacional Documentos legislativos •Papel (requiere OCR) •Documentos Word •XML desde opendata.congreso.cl Editor XML y Herramientas Workflow de producción Repositorio SVN Akoma-Ntoso Publicación (extracción RDF desde Akomantoso) Linked Open Data BD de consulta Capa de servicios Portales de contenido 13 de noviembre de 2018 28Francisco Cifuentes Silva - BCN
  • 29. Tecnologías Semánticas – Marcaje Automático Llegar desde esto con el menor esfuerzo posible Hasta esto 13 de noviembre de 2018 29Francisco Cifuentes Silva - BCN
  • 30. Tecnologías Semánticas – Marcaje Automático Reconocimiento de entidades nombradas Desambiguación Entidades Marcaje estructural Traducción Akoma-Ntoso Marcador automático XML 13 de noviembre de 2018 30Francisco Cifuentes Silva - BCN
  • 31. Tecnologías Semánticas – Marcaje Automático Reconocimiento de entidades nombradas Desambiguación Entidades Marcaje estructural Traducción Akoma-Ntoso Marcador automático XML 13 de noviembre de 2018 31Francisco Cifuentes Silva - BCN
  • 32. Reconocedor de Entidades Nombradas (NER) o Se necesita identificar entidades en el texto y su tipo (personas, organismos, lugares, roles, fechas, documentos) o Se está utilizando una versión adaptada al español del Stanford NER o El clasificador fue entrenado con diarios de sesión de largo promedio (aprox. 100 páginas), logrando sobre un 95% de efectividad en reconocimiento de entidades o Escrito en Java y disponible como servicio XML HTTP Francisco Cifuentes Silva - BCN 3213 de noviembre de 2018
  • 33. Tecnologías Semánticas – Marcaje Automático Reconocimiento de entidades nombradas Desambiguación Entidades Marcaje estructural Traducción Akoma-Ntoso Marcador automático XML 13 de noviembre de 2018 33Francisco Cifuentes Silva - BCN
  • 34. Desambiguación de entidades - Mediador Permite asignar una única URI a una entidad reconocida en el texto o Conecta a un endpoint SPARQL e indexa entidades o Compara un texto de entrada con diversas etiquetas de recursos RDF (rdfs:label, skos:prefLabel, skos:altLabel) o Selecciona la etiqueta más similar y devuelve la URI del recurso Mediador Indexar LOC entities Colección tuplas URI/Label GET URI para “Chile” 200 OK http://datos.bcn.cl/recurso/pais/chile 13 de noviembre de 2018 34Francisco Cifuentes Silva - BCN
  • 35. Desambiguación de entidades - Mediador Asigna una URI a la entidad Input Output 13 de noviembre de 2018 35Francisco Cifuentes Silva - BCN
  • 36. Otras características o Los datos están indexados en memoria o Permite establecer información de contexto o Heurísticas por tipo de entidad (Solución para ambigüedades) o Implementa conjunto de servicios Web HTTP escritos en Java Desambiguación de entidades - Mediador 13 de noviembre de 2018 36Francisco Cifuentes Silva - BCN
  • 37. Tecnologías Semánticas – Marcaje Automático Reconocimiento de entidades nombradas Desambiguación Entidades Marcaje estructural Traducción Akoma-Ntoso Marcador automático XML 13 de noviembre de 2018 37Francisco Cifuentes Silva - BCN
  • 38. Marcaje Estructural en XML o El problema es detectar secciones estructurales o Combinación de métodos o Expresiones regulares o Algoritmos para diferencias y detectar secuencias o Mezcla de reglas y algoritmos o Cada combinación depende del tipo de documento o Finalmente, una representación de objeto similar a DOM es transformada a XML o Servicio Web escrito en Java 13 de noviembre de 2018 38Francisco Cifuentes Silva - BCN
  • 39. Tecnologías Semánticas – Marcaje Automático Reconocimiento de entidades nombradas Desambiguación Entidades Marcaje estructural Traducción Akoma-Ntoso Marcador automático XML 13 de noviembre de 2018 39Francisco Cifuentes Silva - BCN
  • 40. Traducción de XML a formato final o Akoma-Ntoso es un estándar OASIS para documentos legales o AKN es un esquema demasiado amplio y complejo por lo que construir hojas XSLT no era una solución viable o Se implementó en Java un servicio Web traductor de XML 13 de noviembre de 2018 40Francisco Cifuentes Silva - BCN
  • 41. o Los documentos AKN generados de forma automática deben ser revisados y enriquecidos por analistas humanos o Dependiendo del proceso, se integraron o implementaron editores XML ad-hoc en el Workflow o Para marcaje de diarios de sesión en XML se utilizó un editor comercial o Para otras operaciones se implementaron editores XML ad-hoc Edición de documentos AKN 13 de noviembre de 2018 41Francisco Cifuentes Silva - BCN
  • 42. Vista del proceso en términos generales Repositorio SVN Akoma-Ntoso Congreso Nacional Documentos legislativos •Papel (requiere OCR) •Documentos Word •XML desde opendata.congreso.cl Editor XML y Herramientas Workflow de producción Publicación (extracción RDF desde Akomantoso) Linked Open Data BD de consulta Capa de servicios Portales de contenido 13 de noviembre de 2018 42Francisco Cifuentes Silva - BCN
  • 43. Publicación de documentos y extracción de datos o Una vez almacenado el XML enriquecido es momento de extraer información o Para ello se desarrolló un servicio capaz de distinguir el tipo de documento y extraer su información o La información se extrae en un modelo de objetos que se persiste en una base de datos relacional y a su vez se exporta a RDF persistiéndose en un RDF Triplestore o Adicionalmente tanto los documentos como los datos extraídos se indexan en un motor de búsqueda para texto basado en Apache Lucene o Los portales de consulta accederán a datos en LOD como a la tabla de hechos mediante servicios Web 13 de noviembre de 2018 43Francisco Cifuentes Silva - BCN
  • 44. Documento descompuesto en RDF 13 de noviembre de 2018 44Francisco Cifuentes Silva - BCN
  • 45. Consultar documentos vía SPARQL 13 de noviembre de 2018 45Francisco Cifuentes Silva - BCN
  • 46. VISUALIZACIÓN DE CONTENIDO Labor Parlamentaria - Historia de la Ley 13 de noviembre de 2018 46Francisco Cifuentes Silva - BCN
  • 47. https://www.bcn.cl/laborparlamentaria13 de noviembre de 2018 47Francisco Cifuentes Silva - BCN
  • 48. https://www.bcn.cl/laborparlamentaria13 de noviembre de 2018 48Francisco Cifuentes Silva - BCN
  • 49. https://www.bcn.cl/laborparlamentaria13 de noviembre de 2018 49Francisco Cifuentes Silva - BCN
  • 50. https://www.bcn.cl/historiadelaley13 de noviembre de 2018 50Francisco Cifuentes Silva - BCN
  • 51. Visualización del contenido – Historia de la Ley https://www.bcn.cl/historiadelaley13 de noviembre de 2018 51Francisco Cifuentes Silva - BCN
  • 52. Visualización del contenido – Historia de la Ley https://www.bcn.cl/historiadelaley13 de noviembre de 2018 52Francisco Cifuentes Silva - BCN
  • 53. Visualización del contenido – Historia de la Ley https://www.bcn.cl/historiadelaley13 de noviembre de 2018 53Francisco Cifuentes Silva - BCN
  • 54. Visualización del contenido – Historia de la Ley https://www.bcn.cl/historiadelaley13 de noviembre de 2018 54Francisco Cifuentes Silva - BCN
  • 55. Visualización del contenido – Historia de la Ley https://www.bcn.cl/historiadelaley13 de noviembre de 2018 55Francisco Cifuentes Silva - BCN
  • 56. Lecciones aprendidas – Proyecto LP HL o Probamos utilización de clasificadores para marcaje estructural sin obtener buenos resultados, texto muy variado o Para los Content Delivery, se probaron distintos esquemas para consultas complejas usando LOD: X Datos en RDF + Ontologías + Inferencias = algunas consultas no terminaban X Datos en RDF + Datos inferidos precargados = promedio de tiempos inaceptable  Datos en tabla de Hechos para consulta o Utilización de URIs es excepcionalmente útil para interoperabilidad o Documentos legales, metadatos, entidades nombradas  Procesar los documentos de forma completa reduce considerablemente las HH de elaboración de productos y aumenta la eficiencia 13 de noviembre de 2018 56Francisco Cifuentes Silva - BCN
  • 57. Algunos datos operativos o El proyecto se ha desarrollado en 5 años considerando desarrollo de software en paralelo a poblamiento retrospectivo o El equipo de proyecto interno de informática fue de 3 personas por 2 años y desde ahí hemos sido solo 2 o Asociados al proyecto se realizaron un total de 14 contratos, 10 de ellos proyectos vía licitación pública, 2 por contratación directa y 2 por conceptos de licencias de software o La distribución del gasto asociada al proyecto es aproximadamente: o 10% licencias de software o 30% desarrollo de software o 60% HH de analistas legislativos para poblamiento de la base de datos 13 de noviembre de 2018 57Francisco Cifuentes Silva - BCN
  • 58. PROYECTO ANÁLISIS DE PRENSA Tecnologías Semánticas en desarrollo 13 de noviembre de 2018 58Francisco Cifuentes Silva - BCN
  • 59. Tecnologías Semánticas en desarrollo Proyecto análisis de prensa o BCN cuenta con una base de datos que almacena la prensa de todos los medios de comunicación nacionales (prensa escrita, en línea, radio y TV). o Se cuenta con registros de prensa desde 1818 a la fecha o Solo en texto, al día de hoy se cuenta con 10.000.000 de registros o La idea es disponibilizar para el Congreso Nacional una herramienta que permita obtener información agregada y desagregada, como también analizar tendencias 13 de noviembre de 2018 59Francisco Cifuentes Silva - BCN
  • 60. Proyecto Análisis de Prensa Hardware actual Cluster Big Data, 6 nodos – 2 nodos master 16 cores, RAM 128GB, 1.5TB HD – 4 nodos slave 16 cores, RAM 96GB, 1TB HD 13 de noviembre de 2018 60Francisco Cifuentes Silva - BCN
  • 61. Proyecto Análisis de Prensa Ecosistema Big Data - BCN 13 de noviembre de 2018 61Francisco Cifuentes Silva - BCN
  • 62. Proyecto Análisis de Prensa Se procesará toda la prensa para realizar las siguientes operaciones: o Extraer entidades nombradas y asignar una URI o Extraer conceptos relevantes (una o más palabras) o Extracción de sinónimos de conceptos relevantes para mejorar recuperabilidad o Extracción de tópicos basados en análisis semántico latente o Clasificar en categorías conocidas (Deportes, Policial, Economía, etc.) o Análisis de sentimiento (Polaridad: +, -, 0) Posteriormente se indexará toda la información generada sobre SolR para generar una base de datos de consulta 13 de noviembre de 2018 62Francisco Cifuentes Silva - BCN
  • 63. Proyecto Análisis de Prensa Por agilidad en el desarrollo, se utilizó Python para el desarrollo de los algoritmos sobre Apache Spark, trabajando sobre Jupyter Notebooks 13 de noviembre de 2018 63Francisco Cifuentes Silva - BCN
  • 64. Análisis de Prensa - Algoritmos y estado actual Operación Algoritmo/herramienta Estado Extraer entidades nombradas SpaCy NER Testeado y Procesado Extraer conceptos relevantes TF-IDF Testeado y Procesado Extracción de sinónimos de conceptos relevantes para mejorar recuperabilidad Word embeddings (Word2vec Apache Spark) Testeado Extracción de tópicos basados en análisis semántico latente Latent Dirichlet allocation – (LDA) Testeado Clasificar en categorías Scikit-Learn Testeado Análisis de sentimiento Scikit-Learn Testeado 13 de noviembre de 2018 64Francisco Cifuentes Silva - BCN
  • 65. Reconocimiento de entidades nombradas Named Entity Recognizer – NER Se utilizó spaCy, un framework NLP que ofrece un modelo de reconocimiento de entidades pre entrenado con un corpus de noticias. Análisis de Prensa – Algoritmo probado 13 de noviembre de 2018 65Francisco Cifuentes Silva - BCN
  • 66. Algoritmo Reconocimiento entidades nombradas (Spacy) Datos Testing: prensa 2018 Procesamiento: 2009 - 2018 prensa (90% de la BD) Descripción Se instaló componente con modelo entrenado en español sobre una base de datos de noticias y se hizo correr en el cluster mediante Apache Spark Resultados Permite obtener entidades nombradas desde prensa, aunque se observa baja precisión en la determinación del tipo de entidad Análisis de Prensa - Resultados de pruebas 13 de noviembre de 2018 66Francisco Cifuentes Silva - BCN
  • 67. Análisis de Prensa – Algoritmo probado Extraer conceptos relevantes Term-Frequency Inverse Document Frequency Aplicable en el contexto de una colección de documentos, consiste en: Donde TF es la frecuencia de un término en un documento: IDF es la frecuencia inversa de documento, indica si un término es menos frecuente en la colección es más relevante. 13 de noviembre de 2018 67Francisco Cifuentes Silva - BCN
  • 68. Análisis de Prensa - Resultados de pruebas Algoritmo Term-Frequency Inverse Document Frequency variante 2: TF-IDF -V2 Datos Testing: prensa 2018 Procesamiento: 2009 - 2018 prensa (90% de la BD) Descripción - Colección por día (aprox 5.000 elementos) - Variación de TF-IDF implementada en Apache Spark, extrae N-gramas relevantes de largo 1 hasta 4 -Por cada documento solo se dejaron los 120 términos más relevantes divididos en distinta proporción por ngrama (1=10%, 2=40%, 3=40%, 4=10%) Resultados Permite extraer n-gramas por documento o por otro criterio (ventana de tiempo, tipo, etc) 13 de noviembre de 2018 68Francisco Cifuentes Silva - BCN
  • 69. Word embeddings Técnica de aprendizaje no supervisado donde se transforma un espacio discreto (de una dimensión por palabra) en un espacio vectorial continuo con menos dimensiones Análisis de Prensa – Algoritmo probado 13 de noviembre de 2018 69Francisco Cifuentes Silva - BCN
  • 70. Algoritmo Word embedding (Word2vec Apache Spark) Datos Testing: 1.5 GB de intervenciones Labor parlamentaria Descripción Definir palabras en espacio vectorial para calcular y obtener sinónimos Resultados Permite obtener variaciones de conceptos que pueden ser utilizados junto a TF-IDF, lo cual puede servir en ciertos casos Análisis de Prensa - Resultados de pruebas 13 de noviembre de 2018 70Francisco Cifuentes Silva - BCN
  • 71. Clasificadores de texto por materia Se utilizó Scikit-learn, un framework para Machine Learning en Python Análisis de Prensa – Algoritmo probado 13 de noviembre de 2018 71Francisco Cifuentes Silva - BCN
  • 72. Algoritmo Clasificadores Scikit-Learn por materia del repositorio institucional Datos 25.000 documentos de texto del repositorio institucional Descripción o Prueba de 10 Clasificadores distintos en combinación de 4 parámetros (Stopwords, limpiar_texto, Stemizar, Tipo_vectorizer (hash,count,tf_idf)) o 240 pruebas por materia en 5 cross_validation si la 1º prueba pasaba 80% accuracy. o Se generaron clasificadores para aprox 350 materias definidas como metadato en los recursos del repositorio. Cada materia debía tener al menos 50 documentos para ejemplo. Del total de documentos se seleccionó igual nº de docs aleatorios de otras materias para entrenar de forma balanceada Resultados Variedad en calidad de clasificadores dependiendo del número de ejemplos Análisis de Prensa - Resultados de pruebas 13 de noviembre de 2018 72Francisco Cifuentes Silva - BCN
  • 73. Análisis de Prensa – Algoritmo probado Latent Dirichlet Allocation – LDA Permite identificar tópicos “latentes” (no explícitos) en el texto, mediante agrupación de términos relacionados al tópico latente. 13 de noviembre de 2018 73Francisco Cifuentes Silva - BCN
  • 74. Análisis de Prensa - Resultados de pruebas Algoritmo Latent Dirichlet Allocation - LDA Datos Texto de participaciones por día Corpus de noticias, con texto por ngramas y entidades Descripción Se implementó en Apache Spark un extractor de tópicos por día, asocia diversos ngramas y entidades a un mismo tópico Resultados Se obtienen listas de palabras asociadas a tópicos, las cuales pueden ser utilizadas para el análisis 13 de noviembre de 2018 74Francisco Cifuentes Silva - BCN
  • 75. PRIMER PROTOTIPO FUNCIONAL Análisis de Prensa 13 de noviembre de 2018 75Francisco Cifuentes Silva - BCN
  • 76. Análisis de Prensa – Datos indexados en SolR 13 de noviembre de 2018 76Francisco Cifuentes Silva - BCN
  • 77. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 77Francisco Cifuentes Silva - BCN
  • 78. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 78Francisco Cifuentes Silva - BCN
  • 79. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 79Francisco Cifuentes Silva - BCN
  • 80. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 80Francisco Cifuentes Silva - BCN
  • 81. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 81Francisco Cifuentes Silva - BCN
  • 82. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 82Francisco Cifuentes Silva - BCN
  • 83. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 83Francisco Cifuentes Silva - BCN
  • 84. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 84Francisco Cifuentes Silva - BCN
  • 85. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 85Francisco Cifuentes Silva - BCN
  • 86. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 86Francisco Cifuentes Silva - BCN
  • 87. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 87Francisco Cifuentes Silva - BCN
  • 88. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 88Francisco Cifuentes Silva - BCN
  • 89. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 89Francisco Cifuentes Silva - BCN
  • 90. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 90Francisco Cifuentes Silva - BCN
  • 91. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 91Francisco Cifuentes Silva - BCN
  • 92. Análisis de Prensa – Primer prototipo funcional 13 de noviembre de 2018 92Francisco Cifuentes Silva - BCN
  • 93. Análisis de Prensa - Conclusiones de las pruebas o En el alto volumen de datos procesados el ruido de términos TF-IDF y entidades desaparece o Para procesar alto volumen de datos y obtener resultados coherentes no se requiere un modelo que se ajuste “tanto” a los datos o LDA se hace necesario para obtener tópicos intra-colección que no son relevantes para TFIDF por ser muy frecuentes, pero poco frecuentes en el total de las colecciones, no obstante que LDA tiene un inconveniente: la necesidad a priori de determinar número de tópicos para entrenar el modelo o No es recomendable el uso de hadoop con datos altamente fragmentados (archivos pequeños), ya que el performance baja considerablemente 13 de noviembre de 2018 93Francisco Cifuentes Silva - BCN
  • 94. Análisis de Prensa - Estado actual y trabajo futuro o Datos de prensa (2009 a 2018) procesados y cargados sobre Apache SolR (aprox. 9.000.000 de registros, tiempo de procesamiento > 45 días) o Se debe realizar curado, unificación, normalización de datos y entity linking. o Se continuará la implementación de las características planificadas 13 de noviembre de 2018 94Francisco Cifuentes Silva - BCN
  • 95. Datasets actualmente disponibles BCN publica periodicamente datos en una Knowledge Base RDF con acceso vía SPARQL: http://datos.bcn.cl/sparql o Normas de Leychile (RDF, XML) o Documentos legislativos (RDF, XML, TXT) (útiles para corpus y pruebas) o Diarios de sesiones o Informes de comisión o Mociónes o Proyectos de Ley o Biografías parlamentarias (RDF, RDFa) o Localidades geográficas, Cargos, Persona, Organismos (RDF) o Presupuesto de la Nacion Francisco Cifuentes Silva - BCN 9513 de noviembre de 2018