Tecnologías Semánticas para análisis político y legislativo
1. Tecnologías Semánticas para el análisis
político y legislativo
13 de noviembre de 2018
Francisco Cifuentes Silva
fcifuentes@bcn.cl
13 de noviembre de 2018 1Francisco Cifuentes Silva - BCN
2. Sobre el conferencista
o Jefe de Proyectos de Investigación en la Biblioteca del Congreso Nacional de Chile
o Ingeniero informático, Universidad de la Frontera (2001 – 2007)
o Máster en Ingeniería Web, Universidad de Oviedo (2009 – 2011)
o Actual estudiante del doctorado en informática en la UNIOVI
13 de noviembre de 2018 2Francisco Cifuentes Silva - BCN
3. ¿Qué es la Biblioteca del Congreso Nacional?
Poderes del
estado
Poder Ejecutivo Poder Judicial Poder Legislativo
- Órgano “autónomo” del Poder
Legislativo
- Apoya al Parlamento y presta
servicios a la Ciudadanía.
13 de noviembre de 2018 3Francisco Cifuentes Silva - BCN
4. Por qué Tecnologías Semánticas en la BCN
o Se identifica el potencial tecnológico para generación de nuevos productos
o Provee mecanismos de interoperabilidad (Web Semántica)
o Se ajusta a la idea de información pública
o Uno de los cuatro pilares del plan estratégico (Biblioteca Semántica)
Francisco Cifuentes Silva - BCN 413 de noviembre de 2018
5. De qué hablamos con “Tecnologías Semánticas”
Las definiremos como:
“Conjunto de herramientas y técnicas que permitirán estudiar, explorar,
ampliar y explotar el significado de recursos de información”
13 de noviembre de 2018 5Francisco Cifuentes Silva - BCN
6. Tecnologías Semánticas
En la práctica, unión de dos mundos:
Tecnologías de Web Semántica (machine readable)
XML
RDF, OWL
Ontologías
Linked Open Data
Tecnologías de Análisis de Texto o Text Mining (content
enrichment)
Extracción de unidades uni/multi palabra relevantes
Extracción de tópicos
Marcaje automático
Clasificación
13 de noviembre de 2018 6Francisco Cifuentes Silva - BCN
7. EL COMIENZO DEL CAMINO
Tecnologías Semánticas en la BCN
13 de noviembre de 2018 7Francisco Cifuentes Silva - BCN
8. Tecnologías Semánticas en la BCN
Inicial
Ley Chile
2008
Open Data, Normas Legales en XML
2018
Fig: http://www.w3.org/DesignIssues/LinkedData.html
13 de noviembre de 2018 8Francisco Cifuentes Silva - BCN
9. Fase inicial (2008-2011)
http://www.leychile.cl
Publicación de normas
Legales actualizadas
Interoperabilidad con organismos públicos:
•Poder Judicial
•Contraloría
•SAG
•Entre más de cien otros.
13 de noviembre de 2018 9Francisco Cifuentes Silva - BCN
10. XML de la Ley 20.000 en http://www.leychile.cl
Fase inicial (2008-2011)
13 de noviembre de 2018 10Francisco Cifuentes Silva - BCN
11. Fase inicial (2008-2011): Social, Servicios Web y API
http://llevatelo.bcn.cl
Conjunto de servicios
de información que dan
acceso a contenidos
publicados por BCN
para ser integrados por
fuentes externas
13 de noviembre de 2018 11Francisco Cifuentes Silva - BCN
12. Tecnologías Semánticas en la BCN
Inicial Exploración
Ley Chile
Ontología +
Datos +
visualizaciones
2008 2011 2018
Linked Open Data
Normas Legales en RDF
Fig: http://www.w3.org/DesignIssues/LinkedData.html
13 de noviembre de 2018 12Francisco Cifuentes Silva - BCN
13. Fase exploratoria (2011-2012)
Publicación de las primeras ontologías y datasets 5
estrellas:
Normas legales (cerca de 300.000 normas en RDF)
Parlamentarios
Localidades geográficas
Portal de datos enlazados
Visualizaciones (validación y uso
de los datos)
13 de noviembre de 2018 13Francisco Cifuentes Silva - BCN
15. Fase exploratoria (2011-2012): Ontologías
Diagrama de representación de la ontología
Ontología de Normas
PREFIX bcnnorms: <http://datos.bcn.cl/ontologies/bcn-norms#>
13 de noviembre de 2018 15Francisco Cifuentes Silva - BCN
16. Fase exploratoria (2011-2012): Datasets
Endpoint SPARQL
http://datos.bcn.cl/sparql
Vista de recurso RDF en HTML
13 de noviembre de 2018 16Francisco Cifuentes Silva - BCN
17. Salida HTML+RDFa Archivo de configuración
Fase exploratoria (2011-2012): Herramientas
Linked Data Frontend con negociación de contenido HTTP
13 de noviembre de 2018 17Francisco Cifuentes Silva - BCN
18. Fase exploratoria (2011-2012): Visualizaciones I
http://datos.bcn.cl/visualizaciones/normas-por-comuna/
13 de noviembre de 2018 18Francisco Cifuentes Silva - BCN
19. Fase exploratoria (2011-2012): Visualizaciones II
http://www.leychile.cl/Consulta/Consulta/visualizacion_vinculaciones
13 de noviembre de 2018 19Francisco Cifuentes Silva - BCN
20. Fase exploratoria (2011-2012): Visualizaciones III
http://datos.bcn.cl/visualizaciones/genealogia-parlamentaria/
13 de noviembre de 2018 20Francisco Cifuentes Silva - BCN
21. Fase exploratoria (2011-2012): Visualizaciones III
http://datos.bcn.cl/visualizaciones/genealogia-parlamentaria/
13 de noviembre de 2018 21Francisco Cifuentes Silva - BCN
22. Tecnologías Semánticas en la BCN
Inicial Exploración Explotación
Ley Chile
Ontología +
Datos +
visualizaciones
Producción de datos +
productos
2008 2011 2012 2018
Prueba de concepto satisfactoria
=
Paso a producción de tecnología
13 de noviembre de 2018 22Francisco Cifuentes Silva - BCN
23. PROYECTO HISTORIA DE LA LEY Y LABOR
PARLAMENTARIA
Tecnologías Semánticas en Producción
13 de noviembre de 2018 23Francisco Cifuentes Silva - BCN
24. Tecnologías Semánticas en producción
Proyecto Historia de la Ley y Labor Parlamentaria
Historia de la Ley (HL):
Obtener todo el debate en torno a una ley y sus partes, como también todas sus
versiones desde que fue presentada como proyecto, hasta que se publicó en el
Diario Oficial (BOE chileno), de manera automática
Labor Parlamentaria (LP)
Obtener todo lo hablado y documentos presentados por cada parlamentario en
sesiones del Congreso Nacional de manera histórica y categorizada de manera
automática
13 de noviembre de 2018 24Francisco Cifuentes Silva - BCN
25. Escenario y complejidades de HL y LP
Si volvemos el tiempo atrás hasta 2011…
Se deben procesar aproximadamente 8.000 diarios de sesión (desde 1965 a la
fecha) y aproximadamente 17.000 documentos de otros tipos (informes de
comisión, iniciativas de proyecto de ley, etc) del archivo de la biblioteca
Documentos anteriores a 1990 solo se cuenta con el ejemplar físico (papel)
Posterior a 1990, algunos documentos en Word
Posterior a 2012, algunos documentos en XML
Se debe detectar cuándo habla un parlamentario, qué parlamentario y sobre qué
habla
Se debe detectar la estructura y articulado de un proyecto de ley (además su
estructura es recursiva )
Normas de redacción varían levemente en distintos periodos
Se debe poder extraer información para luego consultar
13 de noviembre de 2018 25Francisco Cifuentes Silva - BCN
26. Observación empírica en procesamiento de marcaje de documentos usando XML en BCN
26/29
Escenario y complejidades de HL y LP
13 de noviembre de 2018 26Francisco Cifuentes Silva - BCN
27. Solución planteada HL y LP
Usando Tecnologías Semánticas:
Ya que se cuenta con texto plano => aplicar marcaje en XML sobre el texto:
Ya se cuenta con una infraestructura de Linked Open Data
Existe el estándar Akoma-Ntosopara documentos legales
Marcar documentos a nivel de proyecto de ley e Intervención de parlamentario
agregando metadatos
X Marcar 24.000 documentos de forma manual (estructura, metadatos y entidades)
aproximadamente 12 horas por documento promedio (100 páginas) = 288.000 horas
Usar herramientas de marcaje automático => reducción de tiempo a marcar solo
metadatos especializados y QA promedio 1,5 horas por documento
Extraer datos para elaborar productos y dejarlos a disposición de la ciudadanía
13 de noviembre de 2018 27Francisco Cifuentes Silva - BCN
28. Vista del proceso en términos generales
Congreso Nacional Documentos legislativos
•Papel (requiere OCR)
•Documentos Word
•XML desde opendata.congreso.cl
Editor XML y
Herramientas
Workflow de
producción
Repositorio SVN
Akoma-Ntoso
Publicación
(extracción RDF
desde Akomantoso)
Linked Open Data BD de consulta
Capa de servicios
Portales de
contenido
13 de noviembre de 2018 28Francisco Cifuentes Silva - BCN
29. Tecnologías Semánticas – Marcaje Automático
Llegar desde esto
con el menor esfuerzo posible Hasta esto
13 de noviembre de 2018 29Francisco Cifuentes Silva - BCN
30. Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 30Francisco Cifuentes Silva - BCN
31. Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 31Francisco Cifuentes Silva - BCN
32. Reconocedor de Entidades Nombradas (NER)
o Se necesita identificar entidades en el texto y su tipo (personas,
organismos, lugares, roles, fechas, documentos)
o Se está utilizando una versión adaptada al español del Stanford NER
o El clasificador fue entrenado con diarios de sesión de largo promedio
(aprox. 100 páginas), logrando sobre un 95% de efectividad en
reconocimiento de entidades
o Escrito en Java y disponible como servicio XML HTTP
Francisco Cifuentes Silva - BCN 3213 de noviembre de 2018
33. Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 33Francisco Cifuentes Silva - BCN
34. Desambiguación de entidades - Mediador
Permite asignar una única URI a una entidad reconocida en el texto
o Conecta a un endpoint SPARQL e indexa entidades
o Compara un texto de entrada con diversas etiquetas de recursos RDF (rdfs:label,
skos:prefLabel, skos:altLabel)
o Selecciona la etiqueta más similar y devuelve la URI del recurso
Mediador
Indexar LOC entities
Colección tuplas
URI/Label
GET URI para “Chile”
200 OK
http://datos.bcn.cl/recurso/pais/chile
13 de noviembre de 2018 34Francisco Cifuentes Silva - BCN
35. Desambiguación de entidades - Mediador
Asigna una URI a la entidad
Input
Output
13 de noviembre de 2018 35Francisco Cifuentes Silva - BCN
36. Otras características
o Los datos están indexados en memoria
o Permite establecer información de contexto
o Heurísticas por tipo de entidad (Solución para ambigüedades)
o Implementa conjunto de servicios Web HTTP escritos en Java
Desambiguación de entidades - Mediador
13 de noviembre de 2018 36Francisco Cifuentes Silva - BCN
37. Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 37Francisco Cifuentes Silva - BCN
38. Marcaje Estructural en XML
o El problema es detectar secciones estructurales
o Combinación de métodos
o Expresiones regulares
o Algoritmos para diferencias y detectar secuencias
o Mezcla de reglas y algoritmos
o Cada combinación depende del tipo de documento
o Finalmente, una representación de objeto similar a DOM es transformada a
XML
o Servicio Web escrito en Java
13 de noviembre de 2018 38Francisco Cifuentes Silva - BCN
39. Tecnologías Semánticas – Marcaje Automático
Reconocimiento de
entidades nombradas
Desambiguación Entidades
Marcaje estructural
Traducción Akoma-Ntoso
Marcador automático XML
13 de noviembre de 2018 39Francisco Cifuentes Silva - BCN
40. Traducción de XML a formato final
o Akoma-Ntoso es un estándar OASIS para documentos legales
o AKN es un esquema demasiado amplio y complejo por lo que construir
hojas XSLT no era una solución viable
o Se implementó en Java un servicio Web traductor de XML
13 de noviembre de 2018 40Francisco Cifuentes Silva - BCN
41. o Los documentos AKN generados de forma automática deben ser revisados
y enriquecidos por analistas humanos
o Dependiendo del proceso, se integraron o implementaron editores XML
ad-hoc en el Workflow
o Para marcaje de diarios de sesión en XML se utilizó un editor comercial
o Para otras operaciones se implementaron editores XML ad-hoc
Edición de documentos AKN
13 de noviembre de 2018 41Francisco Cifuentes Silva - BCN
42. Vista del proceso en términos generales
Repositorio SVN
Akoma-Ntoso
Congreso Nacional Documentos legislativos
•Papel (requiere OCR)
•Documentos Word
•XML desde opendata.congreso.cl
Editor XML y
Herramientas
Workflow de
producción Publicación
(extracción RDF
desde Akomantoso)
Linked Open Data BD de consulta
Capa de servicios
Portales de
contenido
13 de noviembre de 2018 42Francisco Cifuentes Silva - BCN
43. Publicación de documentos y extracción de datos
o Una vez almacenado el XML enriquecido es momento de extraer
información
o Para ello se desarrolló un servicio capaz de distinguir el tipo de documento
y extraer su información
o La información se extrae en un modelo de objetos que se persiste en una
base de datos relacional y a su vez se exporta a RDF persistiéndose en un
RDF Triplestore
o Adicionalmente tanto los documentos como los datos extraídos se indexan
en un motor de búsqueda para texto basado en Apache Lucene
o Los portales de consulta accederán a datos en LOD como a la tabla de
hechos mediante servicios Web
13 de noviembre de 2018 43Francisco Cifuentes Silva - BCN
51. Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 51Francisco Cifuentes Silva - BCN
52. Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 52Francisco Cifuentes Silva - BCN
53. Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 53Francisco Cifuentes Silva - BCN
54. Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 54Francisco Cifuentes Silva - BCN
55. Visualización del contenido – Historia de la Ley
https://www.bcn.cl/historiadelaley13 de noviembre de 2018 55Francisco Cifuentes Silva - BCN
56. Lecciones aprendidas – Proyecto LP HL
o Probamos utilización de clasificadores para marcaje estructural sin obtener buenos
resultados, texto muy variado
o Para los Content Delivery, se probaron distintos esquemas para consultas
complejas usando LOD:
X Datos en RDF + Ontologías + Inferencias = algunas consultas no terminaban
X Datos en RDF + Datos inferidos precargados = promedio de tiempos
inaceptable
Datos en tabla de Hechos para consulta
o Utilización de URIs es excepcionalmente útil para interoperabilidad
o Documentos legales, metadatos, entidades nombradas
Procesar los documentos de forma completa reduce considerablemente las HH de
elaboración de productos y aumenta la eficiencia
13 de noviembre de 2018 56Francisco Cifuentes Silva - BCN
57. Algunos datos operativos
o El proyecto se ha desarrollado en 5 años considerando desarrollo de
software en paralelo a poblamiento retrospectivo
o El equipo de proyecto interno de informática fue de 3 personas por 2 años
y desde ahí hemos sido solo 2
o Asociados al proyecto se realizaron un total de 14 contratos, 10 de ellos
proyectos vía licitación pública, 2 por contratación directa y 2 por
conceptos de licencias de software
o La distribución del gasto asociada al proyecto es aproximadamente:
o 10% licencias de software
o 30% desarrollo de software
o 60% HH de analistas legislativos para poblamiento de la base de datos
13 de noviembre de 2018 57Francisco Cifuentes Silva - BCN
58. PROYECTO ANÁLISIS DE PRENSA
Tecnologías Semánticas en desarrollo
13 de noviembre de 2018 58Francisco Cifuentes Silva - BCN
59. Tecnologías Semánticas en desarrollo
Proyecto análisis de prensa
o BCN cuenta con una base de datos que almacena la prensa de todos los
medios de comunicación nacionales (prensa escrita, en línea, radio y TV).
o Se cuenta con registros de prensa desde 1818 a la fecha
o Solo en texto, al día de hoy se cuenta con 10.000.000 de registros
o La idea es disponibilizar para el Congreso Nacional una herramienta que
permita obtener información agregada y desagregada, como también
analizar tendencias
13 de noviembre de 2018 59Francisco Cifuentes Silva - BCN
60. Proyecto Análisis de Prensa
Hardware actual Cluster Big Data, 6 nodos
– 2 nodos master 16 cores, RAM 128GB, 1.5TB HD
– 4 nodos slave 16 cores, RAM 96GB, 1TB HD
13 de noviembre de 2018 60Francisco Cifuentes Silva - BCN
61. Proyecto Análisis de Prensa
Ecosistema Big Data - BCN
13 de noviembre de 2018 61Francisco Cifuentes Silva - BCN
62. Proyecto Análisis de Prensa
Se procesará toda la prensa para realizar las siguientes
operaciones:
o Extraer entidades nombradas y asignar una URI
o Extraer conceptos relevantes (una o más palabras)
o Extracción de sinónimos de conceptos relevantes para mejorar
recuperabilidad
o Extracción de tópicos basados en análisis semántico latente
o Clasificar en categorías conocidas (Deportes, Policial, Economía, etc.)
o Análisis de sentimiento (Polaridad: +, -, 0)
Posteriormente se indexará toda la información generada sobre
SolR para generar una base de datos de consulta
13 de noviembre de 2018 62Francisco Cifuentes Silva - BCN
63. Proyecto Análisis de Prensa
Por agilidad en el desarrollo, se utilizó Python para el
desarrollo de los algoritmos sobre Apache Spark, trabajando
sobre Jupyter Notebooks
13 de noviembre de 2018 63Francisco Cifuentes Silva - BCN
64. Análisis de Prensa - Algoritmos y estado actual
Operación Algoritmo/herramienta Estado
Extraer entidades nombradas SpaCy NER Testeado y
Procesado
Extraer conceptos relevantes TF-IDF Testeado y
Procesado
Extracción de sinónimos de
conceptos relevantes para mejorar
recuperabilidad
Word embeddings
(Word2vec Apache
Spark)
Testeado
Extracción de tópicos basados en
análisis semántico latente
Latent Dirichlet
allocation – (LDA)
Testeado
Clasificar en categorías Scikit-Learn Testeado
Análisis de sentimiento Scikit-Learn Testeado
13 de noviembre de 2018 64Francisco Cifuentes Silva - BCN
65. Reconocimiento de entidades
nombradas
Named Entity Recognizer – NER
Se utilizó spaCy, un framework NLP que
ofrece un modelo de reconocimiento de
entidades pre entrenado con un corpus
de noticias.
Análisis de Prensa – Algoritmo probado
13 de noviembre de 2018 65Francisco Cifuentes Silva - BCN
66. Algoritmo
Reconocimiento entidades nombradas (Spacy)
Datos
Testing: prensa 2018
Procesamiento: 2009 - 2018 prensa (90% de la BD)
Descripción
Se instaló componente con modelo entrenado en español sobre una base de datos de
noticias y se hizo correr en el cluster mediante Apache Spark
Resultados
Permite obtener entidades nombradas desde prensa, aunque se observa baja
precisión en la determinación del tipo de entidad
Análisis de Prensa - Resultados de pruebas
13 de noviembre de 2018 66Francisco Cifuentes Silva - BCN
67. Análisis de Prensa – Algoritmo probado
Extraer conceptos relevantes
Term-Frequency Inverse Document Frequency
Aplicable en el contexto de una colección de documentos, consiste en:
Donde TF es la frecuencia de un término en un documento:
IDF es la frecuencia inversa de documento, indica si un término es menos
frecuente en la colección es más relevante.
13 de noviembre de 2018 67Francisco Cifuentes Silva - BCN
68. Análisis de Prensa - Resultados de pruebas
Algoritmo
Term-Frequency Inverse Document Frequency variante 2: TF-IDF -V2
Datos
Testing: prensa 2018
Procesamiento: 2009 - 2018 prensa (90% de la BD)
Descripción
- Colección por día (aprox 5.000 elementos)
- Variación de TF-IDF implementada en Apache Spark, extrae N-gramas relevantes de
largo 1 hasta 4
-Por cada documento solo se dejaron los 120 términos más relevantes divididos en
distinta proporción por ngrama (1=10%, 2=40%, 3=40%, 4=10%)
Resultados
Permite extraer n-gramas por documento o por otro criterio (ventana de tiempo, tipo,
etc)
13 de noviembre de 2018 68Francisco Cifuentes Silva - BCN
69. Word embeddings
Técnica de aprendizaje no supervisado
donde se transforma un espacio discreto
(de una dimensión por palabra) en un
espacio vectorial continuo con menos
dimensiones
Análisis de Prensa – Algoritmo probado
13 de noviembre de 2018 69Francisco Cifuentes Silva - BCN
70. Algoritmo
Word embedding (Word2vec Apache Spark)
Datos
Testing: 1.5 GB de intervenciones Labor parlamentaria
Descripción
Definir palabras en espacio vectorial para calcular y obtener sinónimos
Resultados
Permite obtener variaciones de conceptos que pueden ser utilizados junto a TF-IDF, lo
cual puede servir en ciertos casos
Análisis de Prensa - Resultados de pruebas
13 de noviembre de 2018 70Francisco Cifuentes Silva - BCN
71. Clasificadores de texto por materia
Se utilizó Scikit-learn, un framework para Machine Learning en Python
Análisis de Prensa – Algoritmo probado
13 de noviembre de 2018 71Francisco Cifuentes Silva - BCN
72. Algoritmo
Clasificadores Scikit-Learn por materia del repositorio institucional
Datos
25.000 documentos de texto del repositorio institucional
Descripción
o Prueba de 10 Clasificadores distintos en combinación de 4 parámetros (Stopwords,
limpiar_texto, Stemizar, Tipo_vectorizer (hash,count,tf_idf))
o 240 pruebas por materia en 5 cross_validation si la 1º prueba pasaba 80% accuracy.
o Se generaron clasificadores para aprox 350 materias definidas como metadato en los
recursos del repositorio. Cada materia debía tener al menos 50 documentos para
ejemplo. Del total de documentos se seleccionó igual nº de docs aleatorios de otras
materias para entrenar de forma balanceada
Resultados
Variedad en calidad de clasificadores dependiendo del número de ejemplos
Análisis de Prensa - Resultados de pruebas
13 de noviembre de 2018 72Francisco Cifuentes Silva - BCN
73. Análisis de Prensa – Algoritmo probado
Latent Dirichlet Allocation – LDA
Permite identificar tópicos “latentes”
(no explícitos) en el texto, mediante
agrupación de términos relacionados
al tópico latente.
13 de noviembre de 2018 73Francisco Cifuentes Silva - BCN
74. Análisis de Prensa - Resultados de pruebas
Algoritmo
Latent Dirichlet Allocation - LDA
Datos
Texto de participaciones por día
Corpus de noticias, con texto por ngramas y entidades
Descripción
Se implementó en Apache Spark un extractor de tópicos por día, asocia diversos
ngramas y entidades a un mismo tópico
Resultados
Se obtienen listas de palabras asociadas a tópicos, las cuales pueden ser utilizadas
para el análisis
13 de noviembre de 2018 74Francisco Cifuentes Silva - BCN
76. Análisis de Prensa – Datos indexados en SolR
13 de noviembre de 2018 76Francisco Cifuentes Silva - BCN
77. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 77Francisco Cifuentes Silva - BCN
78. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 78Francisco Cifuentes Silva - BCN
79. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 79Francisco Cifuentes Silva - BCN
80. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 80Francisco Cifuentes Silva - BCN
81. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 81Francisco Cifuentes Silva - BCN
82. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 82Francisco Cifuentes Silva - BCN
83. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 83Francisco Cifuentes Silva - BCN
84. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 84Francisco Cifuentes Silva - BCN
85. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 85Francisco Cifuentes Silva - BCN
86. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 86Francisco Cifuentes Silva - BCN
87. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 87Francisco Cifuentes Silva - BCN
88. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 88Francisco Cifuentes Silva - BCN
89. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 89Francisco Cifuentes Silva - BCN
90. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 90Francisco Cifuentes Silva - BCN
91. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 91Francisco Cifuentes Silva - BCN
92. Análisis de Prensa – Primer prototipo funcional
13 de noviembre de 2018 92Francisco Cifuentes Silva - BCN
93. Análisis de Prensa - Conclusiones de las pruebas
o En el alto volumen de datos procesados el ruido de términos TF-IDF y
entidades desaparece
o Para procesar alto volumen de datos y obtener resultados coherentes no
se requiere un modelo que se ajuste “tanto” a los datos
o LDA se hace necesario para obtener tópicos intra-colección que no son
relevantes para TFIDF por ser muy frecuentes, pero poco frecuentes en el
total de las colecciones, no obstante que LDA tiene un inconveniente: la
necesidad a priori de determinar número de tópicos para entrenar el
modelo
o No es recomendable el uso de hadoop con datos altamente fragmentados
(archivos pequeños), ya que el performance baja considerablemente
13 de noviembre de 2018 93Francisco Cifuentes Silva - BCN
94. Análisis de Prensa - Estado actual y trabajo futuro
o Datos de prensa (2009 a 2018) procesados y cargados sobre Apache SolR
(aprox. 9.000.000 de registros, tiempo de procesamiento > 45 días)
o Se debe realizar curado, unificación, normalización de datos y entity
linking.
o Se continuará la implementación de las características planificadas
13 de noviembre de 2018 94Francisco Cifuentes Silva - BCN
95. Datasets actualmente disponibles
BCN publica periodicamente datos en una Knowledge Base RDF con acceso vía SPARQL:
http://datos.bcn.cl/sparql
o Normas de Leychile (RDF, XML)
o Documentos legislativos (RDF, XML, TXT) (útiles para corpus y pruebas)
o Diarios de sesiones
o Informes de comisión
o Mociónes
o Proyectos de Ley
o Biografías parlamentarias (RDF, RDFa)
o Localidades geográficas, Cargos, Persona, Organismos (RDF)
o Presupuesto de la Nacion
Francisco Cifuentes Silva - BCN 9513 de noviembre de 2018