3. Introducción
• Extracción de localizaciones geográficas
Auge y desarrollo de la utilización de técnicas y herramientas de
representación y posicionamiento geográfico Google Maps
La extracción de localizaciones geográficas en documentos de texto
(Location Extraction)
Caso particular
Técnicas de extracción de palabras
Subtarea de
y frases clave
Reconocimiento y Clasificación de (Keyword Extraction / Keyphrase
Entidades Nombradas Extraction)
(NERC)
Se basa
Técnicas de Inteligencia Artificial:
Aprendizaje Automático (Machine Learning)
Coincidencia de Patrones (Pattern Matching)
Procesamiento del lenguaje natural (Natural Language Process)
4. Introducción
• Motivación
– Internet Aumento del consumo de publicaciones a través de su formato
electrónico
– Aumento de la competencia entre este tipo de publicaciones online
– Servicios de valor añadido que atraigan un mayor número de lectores
Localización geográfica de las noticias: visualización en un mapa
• Ámbito periodístico y local
– Sección en la que se encuentre la noticia
– La granularidad en la definición de la localización geográfica dependerá de
dónde suceda la noticia (local, provincial, regional, nacional o internacional)
5. Introducción
• Mejora de las herramientas
Proporcionar un vocabulario acotado de posibles palabras
clave Diccionarios específicos (Gazetteers)
Localidades, calles, organizaciones, personas, etc…
Utilización de técnicas semánticas para confirmar y
completar los resultados obtenidos y resolver posibles
ambigüedades en las entidades encontradas Tesauros
7. Aspectos Tecnológicos
• Recuperación de la información (IR)
– Búsqueda de documentos, de información dentro de los documentos y de metadatos
que describen los documentos
– Los Sistemas de Recuperación de Información (SRI), están orientados a la gestión de
información textual desestructurada
– Fueron diseñados para superar las limitaciones que presentaban los Sistemas de
Gestión de Base de Datos (SGBD) relacionales para trabajar con información
desestructurada
• Extracción de la información (IE)
– Tipo de Recuperación de la Información cuyo objetivo es extraer automáticamente
información estructurada a partir de documentos desestructurados
– IE no es lo mismo que IR. IE no recupera un conjunto de documentos que pueden ser
relevantes, sino que su objetivo es extraer de los documentos hechos importantes
sobre tipos de eventos, entidades o relaciones preestablecidos de antemano
8. Aspectos Tecnológicos
• Reconocimiento y Clasificación de entidades
nombradas
– Los sistemas de NERC acometen dos tareas principales:
• Identificar nombres propios en los textos
• Clasificar dichos nombres en un conjunto de categorías
predefinidas como son nombres de personas, organizaciones,
localizaciones, expresiones temporales y valores numéricos
– En cuanto a su funcionamiento, los sistemas de NERC se
pueden clasificar en tres clases:
• Los basados en conocimiento (reglas manuales) que se
fundamentan en el uso de técnicas gramaticales y lingüísticas que
ha diseñado un experto en esa materia
• Los que se basan en aprendizaje automático (Machine Learning) y
modelos estadísticos
• Los sistemas híbridos que combinan los dos anteriores
9. Aspectos Tecnológicos
• GIR y GIS
– Recuperación de la Información Geográfica (GIR) surge de
la aplicación de las técnicas de IR a entidades geográficas
– Los GIR se centran en la búsqueda de una pequeña
cantidad de datos semánticos Una localización o
característica geográfica asociada a un documento
Un Sistema de Información
Geográfica (GIS) es una
integración organizada de
hardware, software y datos
geográficos, diseñado para
capturar, almacenar,
manipular, analizar y
desplegar en todas sus formas
la información
geográficamente referenciada
10. Aspectos Tecnológicos
• Tesauros
– Un tesauro es un vocabulario controlado y estructurado formalmente,
formado por términos que guardan entre sí relaciones semánticas y
genéricas: de equivalencia, jerárquicas y asociativas
– Permite convertir el lenguaje natural de los documentos en un
lenguaje controlado, con el fin de servir tanto para la indización, como
para la recuperación de los documentos
• Herramientas de Georreferenciación
– La georreferenciación es el posicionamiento en el que se define la
localización de un objeto espacial (representado mediante punto,
vector, área, volumen) en un sistema de coordenadas determinado
– Aparición de nuevas herramientas cuya facilidad de uso ha extendido
esta tarea fuera del ámbito técnico existente hasta ahora:
Google Maps
Google Earth
Bing Maps
OpenStreetMap
13. Implementación
RSS Fead Reader
• Programa en Python para leer los ficheros XML/RSS desde un
conjunto de URLs definidas en un fichero de configuración y
obtener de su contenido la URL de cada una de las noticias
completas
15. Implementación
Semisupervised NERC
• Dos módulos de NERC que funcionan de forma complementaria
formando un modelo híbrido:
• Basado en aprendizaje automático: este módulo es el encargado de
ofrecer el resultado final con el etiquetado de las NE de las noticias
• Basado en reglas que servirá para etiquetar automáticamente noticias
que se utilizan para entrenar al primer módulo
16. Implementación
NE Semantic Disambiguator
• Desambiguación del significado de algunas de las NE
detectadas y clasificadas en el módulo anterior y que son
susceptibles de tener varios significados distintos
17. Implementación
Tesauro
• Adaptado al contexto en el que pueden aparecer las NE.
• La desambiguación semántica se realiza mediante un ranking de los
posibles significados que la NE pueda tener dentro del tesauro
correspondiente.
• Se puntuará positivamente que aparezcan en la misma noticia otras
palabras con las que la palabra que queremos desambiguar tenga alguna
relación semántica:
•1 para las relaciones altLabel
• 1 para las relaciones prefLabel
• 0,75 para las relaciones narrower
• 0,75 para las relaciones broader
• 0,5 para las relaciones related
18. Implementación
Tag & Location Extractor
• Programa en Java para extraer las NE de los ficheros de noticias
etiquetados, e introducirlas en la BBDD quedando relacionadas cada una
de las noticias con un conjunto de NE y con su tipo correspondiente.
• También determina mediante heurísticas sencillas cuál es la localización
principal de la noticia eligiendo entre todas las detectadas
19. Implementación
BBDD & Aplicación Web
• Datos de las noticias y las NE de manera estructurada. Gestor de base de
datos SQLite 3
• App Web recoge los datos de la BBDD para mostrarlos adecuadamente.
Se estructura en una arquitectura Modelo‐Vista‐Controlador
(MVC).Utiliza Google Maps como herramienta de Georreferenciación
21. Evaluación
Conjunto de datos para entrenamiento y pruebas
– Training Set:
– CoNLL 2002‐Spanish
• Conference on Computational Natural Language Learning (CoNLL)
• Conjunto de más de 300.000 palabras
• Más de 20.000 NE (LOC, PER, ORG y MISC)
– Selección de artículos de la edición digital de El Norte de Castilla
• Noticias extraídas de la edición digital de El Norte de Castilla (2010)
• 12 artículos de diferente temática, autores y profundidad de contenidos
• 4.742 palabras
• 251 NE (LOC, PER, ORG)
– Test Set:
• Noticias extraídas de la edición digital de El Norte de Castilla (2010)
• Formado por 9 artículos de diferente temática
• Contiene 1.519 palabras y 78 NE (LOC, PER, ORG)
22. Evaluación
Metodología y métricas de evaluación
• Tres principales técnicas de evaluación:
– MUC
– IREX‐CoNLL
– ACE
Utilizaremos la técnica de evaluación definida por las conferencias IREX y CoNLL, basada
en la métrica MAF(micro‐averaged f‐measure):
• Precisión
• P = Entidades detectadas correctamente/Entidades detectadas
• Cobertura (recall)
• R = Entidades detectadas correctamente/Entidades existentes
• MAF (también denominado F1)
• F1 = 2*P*R/(P+R)
23. Evaluación
Criterios de Preselección
– Software de libre distribución
– Buenos resultados en conferencias y congresos
– Curva de aprendizaje suave
Herramientas NERC seleccionadas
• Aprendizaje automático
– LBJ NER
•Sistemas híbridos
– Stanford NER
•Freeling
– Lingpipe
• Conocimientos lingüísticos (reglas)
– CAGEclass
– DRAMNERI
– LT‐TTT2
31. Conclusiones
Conclusiones
Auge de herramientas y técnicas de representación y posicionamiento
geográfico en el mundo de Internet
Desarrollo de herramientas NERC Conferencias: MUC, IREX, CoNLL, ACE,
etc…
Su utilización en ámbitos acotados (periodismo, localización geográfica)
permite mejoras en el rendimiento
Mejoras ampliando los gazetteers con NE particulares de la zona y utilizando
técnicas semánticas (tesauros) para ratificar resultados y resolver
ambigüedades
Mejoras globales en parámetros como F1 20% sobre un test de prueba
formado por artículos de “El Norte de Castilla”
Mejoras obtenidas en el caso de las NE referentes a localizaciones (LOC) 7%
El resultado final Aplicación web que facilita la lectura de un periódico
digital online, identificando visualmente la localización de las noticias a partir
del texto y mostrándola en un mapa
32. Conclusiones
Líneas Futuras
Actualizar nuestra base de noticias automáticamente
Generar tesauros partiendo de diferentes categorías (deportes, economía,
sociedad, …) Diferentes secciones de la publicación
Estudio de la manera de asignar las diferentes puntuaciones que se otorgan a
las NE detectadas por la herramienta y contenidas en el tesauro Valoración
de cuáles son las más relevantes
Valorar la utilización de nuevas herramientas NERC
Herramientas basadas en reglas Actualizar gazetteers utilizados (listado de
nombres y apellidos, organizaciones institucionales, empresas, asociaciones,
localidades, nuevas calles, etc.…)
Desarrollo de un conjunto de datos de entrenamiento partiendo de artículos
de la publicación online
Reglas para elegir la localización final de la noticia Incorporar nuevas reglas
que permitan identificar recorridos, rutas, agrupaciones de calles o barrios
Funcionalidades en la aplicación web Consultar noticias por localización,
fecha o para una zona seleccionada en el mapa