4. Introducción
Información estructurada vs no estructurada.
Inteligencia artificial y procesamiento del lenguaje
natural (PLN).
Extracción de la información (IE). Extracción de
conocimiento estructurado, a partir de información
textual no estructurada en lenguaje natural.
Reconocimiento y clasificación de entidades
nombradas (NERC). Extracción de entidades dentro
del texto y posterior clasificación en categorías
(nombres de personas, organizaciones, nombres de
lugares,..)
5. Proceso General de Geolocalización
Tarea 1. Captura de noticias
Tarea 2. Reconocimiento y Clasificación de entidades
nombradas
Tarea 3. Resolución de nombres de lugares
Tarea 4. Visualización
6. Proceso General de Geolocalización
Reconocimiento y Clasificación de entidades
nombradas (NERC)
Basados en Gazetteer.
Basados en Reglas.
Basados en Aprendizaje Automático.
“El presidente de la Generalitat valenciana, Alberto Fabra, ha trasladado al nuevo
ministro de Industria, José Manuel Soria, el rechazo de la Generalitat valenciana
ante el proyecto que propone la instalación de un cementerio nuclear en la
localidad de Zarra (Valencia).”
“El presidente de la [Generalitat valenciana] [Organization], [Alberto Fabra]
[Person], ha trasladado al nuevo ministro de Industria, [José Manuel Soria]
[Person], el rechazo de la Generalitat valenciana [Organization] ante el proyecto
que propone la instalación de un cementerio nuclear en la localidad de [Zarra]
[Location] ([Valencia] [Location]).”
7. Proceso General de Geolocalización
Resolución de nombres de lugares
Recibe una lista de nombres de lugares o topónimos, y debe determinar cuál es
el topónimo mas adecuado para posicionar geográficamente una noticia sobre
un mapa cartográfico.
Ej. Asturias, España Asturias (Latitud: 43.33333, Longitud: -6)
Uso de servicio web search de Geonames para obtener coordenadas geográficas.
Problema de ambigüedades.
Homografía de nombres de lugares con palabras comunes.
Homografía de nombres de lugares con nombre y apellidos de
personas.
Homografía de nombres de lugares con el mismo nombre.
8. Arquitectura Tecnológica
Aplicación Web con tecnología Java/J2EE
Tecnologías
GWT (Google Web Toolkit).
Google Maps
Servicios
Servicio RSS.
Servicio de reconocimiento y clasificación de entidades
nombradas.
Servicio de resolución de lugares (topónimos).
Servicio Cache Local (Guava Cache).
10. Arquitectura Tecnológica
Tecnologías empleadas
GWT (Google Web Toolkit). Patrón MVP. Llamadas
asíncronas.
Integración GWT con cartografía de Google Maps (acceso
API de Google Maps).
Servicios
Servicio RSS.
Servicio de reconocimiento y clasificación de entidades
nombradas (GATE-ANNIE)
Servicio de resolución de lugares (topónimos) mediante el
apoyo de los servicios Web de Geonames.
Servicio cache local (Guava Cache).
12. Detalles Implementación
Servicio RSS
Permite acceder remotamente a fuentes de información RSS para obtener y
analizar cada item (elemento) con el objetivo de extraer el título, descripción
y categorías.
Formato RSS 2.0 (Lenguaje XML)
Información
Titulo
Descripción
Categorías
OJO!! Existen fuentes RSS con
Publicidad
13. Detalles Implementación
Servicio de reconocimiento y clasificación de
entidades nombradas (NERC)
Identificación de nombres propios dentro del texto, y
clasificación dentro de un conjunto de categorías
predefinidas de interés (nombres de personas,
organizaciones , nombres de lugares, …)
GATE-ANNIE. Reconocedor genérico de entidades.
14. Detalles Implementación
Servicio de reconocimiento y clasificación de
entidades nombradas
Recursos de procesamiento
ANNIE Tokenizer
Sentence Splitter
Gazetteer
Part-Of-Speech
ANNIE NE Transducer
OJO!! Problemas de recursos disponibles en español
15. Detalles Implementación
Servicio de reconocimiento y clasificación de
entidades nombradas
GAZETTEER (Basado en listas)
Creación e Incorporación de listas de nombres de lugares o
topónimos obtenidos a partir de Geonames (continentes, países,
aeropuertos, regiones, estados, provincias, ciudades, mares,
océanos,…)
Creación e incorporación de listas de nombres de personas y
organizaciones obtenidos de JRCNames.
Lista de palabras de paradas o vacías (stopwords)
…
¿Qué es Geonames?
Base de datos de topónimos (alrededor de 8 millones).
Dispone 35 servicios Web (countryInfo, search,…)
16. Detalles Implementación
Servicio de resolución de nombres de lugares
Problema de ambigüedades
Homografía de palabras comunes
Homografía de nombres de personas y apellidos (Ej. Javier Solana,
Monserrat).
Homografía de lugares con el mismo nombre.
17. Detalles Implementación
Servicio de resolución de nombres de lugares
Algoritmo de desambiguación de lugares.
Basado en heurísticas
Cache de continentes y países
Implementación
Homografía basado en nombres de
lugares.
Ej. Asturias, España
Paso 1. Obtención de topónimos
Continentes, Países, Localizaciones (search)
Ej.: Asturias, España
Coordenadas Geográficas WGS84 (latitud y longitud)
18. Detalles Implementación
Servicio de resolución de nombres de lugares
Implementación
Paso 2. Nombre de lugar con un sólo
topónimo.
Lista de países elementos para
eliminar ambigüedades de topónimos.
19. Detalles Implementación
Servicio de resolución de nombres de lugares
Implementación
Paso 3.
Eliminación de topónimos que no
pertenezcan a listas de países, usando
cuadro delimitador.
Sistema de puntuación de 0..3, en función
clase característica y código característica de
Geonames.
22. Evaluación
Conjunto de 35 noticias nacionales.
Conjunto de 35 noticias internacionales.
Comparativa con servicio “Conversor RSS a GeoRSS”
de Geonames
Precisión o eficiencia de 35 noticias nacionales
GEONews Geonames
Falsamente 0% 0%
localizadas
(0%)
Incorrectamente 39,39% 21,21%
(39,39%)
localizadas
Correctamente 60,61% 78,79%
(60,61%)
localizadas
24. Conclusiones
Necesidad de tener un mayor conocimiento de la
información no estructurada ( Ej. representación y
posicionamiento de información geográfica )
Campo del procesamiento del lenguaje natural (PLN)
cada vez tiene mas importancia.
Geolocalización de Noticias es una aplicación Web
donde se integran diversas tecnologías y
herramientas (GWT, Google Maps, Reconocedor y
Clasificador de Entidades Nombradas, Geonames, ...)
25. Futuros Trabajos
Soporte para formatos adicionales de alimentadores
Web (Web Feed). RSS (multiples versiones), Atom u
otros formatos actuales.
Implementación para que la aplicación sea
completamente accesible y usable desde dispositivos
móviles.
Mejora de la inferfaz de usuario.
Usar otras alternativas a Google Maps (Cartografía
de OpenStreetMap).
26. Futuros Trabajos
Mejora del reconocimiento y clasificación de
entidades nombradas, dotándole de un mayor
rendimiento, de una mayor inteligencia y eficiencia.
Reducción de latencia de red a servicios de
Geonames, mediante la implementación un índice
con tecnología Lucene/SOLR en local.
Mejoras en el algoritmo de desambiguación de
topónimos, mejorar el rendimiento e inclusión de
otras heurísticas.