SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
Geolocalización de Noticias (GEONews)




            Proyecto Fin de Grado
                 Julio - 2012
              Guillermo Santos García
       gsantosgo@yahoo.es       @gsantosgo
Contenido
 Introducción
 Proceso General de Geolocalización
 Arquitectura Tecnológica
 Detalles Implementación
 Demo Aplicación
 Evaluación
 Conclusiones
 Futuros Trabajos
Introducción
 Visión general de la aplicación Geolocalización de
 Noticias
Introducción
 Información estructurada vs no estructurada.
 Inteligencia artificial y procesamiento del lenguaje
 natural (PLN).
 Extracción de la información (IE). Extracción de
 conocimiento estructurado, a partir de información
 textual no estructurada en lenguaje natural.
 Reconocimiento y clasificación de entidades
 nombradas (NERC). Extracción de entidades dentro
 del texto y posterior clasificación en categorías
 (nombres de personas, organizaciones, nombres de
 lugares,..)
Proceso General de Geolocalización
 Tarea 1. Captura de noticias
 Tarea 2. Reconocimiento y Clasificación de entidades
 nombradas




 Tarea 3. Resolución de nombres de lugares
 Tarea 4. Visualización
Proceso General de Geolocalización
 Reconocimiento y Clasificación de entidades
 nombradas (NERC)
     Basados en Gazetteer.
     Basados en Reglas.
     Basados en Aprendizaje Automático.

  “El presidente de la Generalitat valenciana, Alberto Fabra, ha trasladado al nuevo
  ministro de Industria, José Manuel Soria, el rechazo de la Generalitat valenciana
  ante el proyecto que propone la instalación de un cementerio nuclear en la
  localidad de Zarra (Valencia).”

  “El presidente de la [Generalitat valenciana] [Organization], [Alberto Fabra]
  [Person], ha trasladado al nuevo ministro de Industria, [José Manuel Soria]
  [Person], el rechazo de la Generalitat valenciana [Organization] ante el proyecto
  que propone la instalación de un cementerio nuclear en la localidad de [Zarra]
  [Location] ([Valencia] [Location]).”
Proceso General de Geolocalización
 Resolución de nombres de lugares
  Recibe una lista de nombres de lugares o topónimos, y debe determinar cuál es
  el topónimo mas adecuado para posicionar geográficamente una noticia sobre
  un mapa cartográfico.
      Ej. Asturias, España Asturias (Latitud: 43.33333, Longitud: -6)
  Uso de servicio web search de Geonames para obtener coordenadas geográficas.
    Problema de ambigüedades.
        Homografía de nombres de lugares con palabras comunes.
        Homografía de nombres de lugares con nombre y apellidos de
        personas.
        Homografía de nombres de lugares con el mismo nombre.
Arquitectura Tecnológica
 Aplicación Web con tecnología Java/J2EE
 Tecnologías
   GWT (Google Web Toolkit).
   Google Maps
 Servicios
   Servicio RSS.
   Servicio de reconocimiento y clasificación de entidades
   nombradas.
   Servicio de resolución de lugares (topónimos).
   Servicio Cache Local (Guava Cache).
Arquitectura Tecnológica
 Arquitectura Web con tecnología Java/JEE
 (gwtnewsgeolocation.war)
Arquitectura Tecnológica
 Tecnologías empleadas
   GWT (Google Web Toolkit). Patrón MVP. Llamadas
   asíncronas.
   Integración GWT con cartografía de Google Maps (acceso
   API de Google Maps).
 Servicios
   Servicio RSS.
   Servicio de reconocimiento y clasificación de entidades
   nombradas (GATE-ANNIE)
   Servicio de resolución de lugares (topónimos) mediante el
   apoyo de los servicios Web de Geonames.
   Servicio cache local (Guava Cache).
Arquitectura Tecnológica
 Arquitectura aplicación Geolocalización de Noticias
Detalles Implementación
 Servicio RSS
   Permite acceder remotamente a fuentes de información RSS para obtener y
   analizar cada item (elemento) con el objetivo de extraer el título, descripción
   y categorías.
   Formato RSS 2.0 (Lenguaje XML)
   Información
       Titulo
       Descripción
       Categorías
   OJO!! Existen fuentes RSS con
   Publicidad
Detalles Implementación
 Servicio de reconocimiento y clasificación de
 entidades nombradas (NERC)
   Identificación de nombres propios dentro del texto, y
   clasificación dentro de un conjunto de categorías
   predefinidas de interés (nombres de personas,
   organizaciones , nombres de lugares, …)



   GATE-ANNIE. Reconocedor genérico de entidades.
Detalles Implementación
 Servicio de reconocimiento y clasificación de
 entidades nombradas
    Recursos de procesamiento
         ANNIE Tokenizer
         Sentence Splitter
         Gazetteer
         Part-Of-Speech
         ANNIE NE Transducer




  OJO!! Problemas de recursos disponibles en español
Detalles Implementación
 Servicio de reconocimiento y clasificación de
 entidades nombradas
   GAZETTEER (Basado en listas)
      Creación e Incorporación de listas de nombres de lugares o
      topónimos obtenidos a partir de Geonames (continentes, países,
      aeropuertos, regiones, estados, provincias, ciudades, mares,
      océanos,…)
      Creación e incorporación de listas de nombres de personas y
      organizaciones obtenidos de JRCNames.
      Lista de palabras de paradas o vacías (stopwords)
      …
   ¿Qué es Geonames?
      Base de datos de topónimos (alrededor de 8 millones).
      Dispone 35 servicios Web (countryInfo, search,…)
Detalles Implementación
 Servicio de resolución de nombres de lugares
   Problema de ambigüedades
      Homografía de palabras comunes




      Homografía de nombres de personas y apellidos (Ej. Javier Solana,
      Monserrat).
      Homografía de lugares con el mismo nombre.
Detalles Implementación
 Servicio de resolución de nombres de lugares
   Algoritmo de desambiguación de lugares.
      Basado en heurísticas
      Cache de continentes y países
   Implementación
      Homografía basado en nombres de
      lugares.
      Ej. Asturias, España
      Paso 1. Obtención de topónimos
          Continentes, Países, Localizaciones (search)
          Ej.: Asturias, España
          Coordenadas Geográficas WGS84 (latitud y longitud)
Detalles Implementación
 Servicio de resolución de nombres de lugares
   Implementación
      Paso 2. Nombre de lugar con un sólo
             topónimo.
          Lista de países elementos para
          eliminar ambigüedades de topónimos.
Detalles Implementación
 Servicio de resolución de nombres de lugares
   Implementación
      Paso 3.
          Eliminación de topónimos que no
          pertenezcan a listas de países, usando
          cuadro delimitador.




          Sistema de puntuación de 0..3, en función
          clase característica y código característica de
          Geonames.
Demo Aplicación
Demo Aplicación
Evaluación
 Conjunto de 35 noticias nacionales.
 Conjunto de 35 noticias internacionales.
 Comparativa con servicio “Conversor RSS a GeoRSS”
 de Geonames
 Precisión o eficiencia de 35 noticias nacionales
                    GEONews        Geonames
  Falsamente          0%             0%
  localizadas
     (0%)
  Incorrectamente    39,39%         21,21%
     (39,39%)
  localizadas
  Correctamente      60,61%         78,79%
     (60,61%)
  localizadas
Evaluación
 Precisión o eficiencia de 35 noticias internacionales
                       GEONews          Geonames
   Falsamente            2,86%             0%
   localizadas
   Incorrectamente      37,14%           23,53%
   localizadas
   Correctamente        60,00%           76,47%
   localizadas
Conclusiones
 Necesidad de tener un mayor conocimiento de la
 información no estructurada ( Ej. representación y
 posicionamiento de información geográfica )
 Campo del procesamiento del lenguaje natural (PLN)
 cada vez tiene mas importancia.
 Geolocalización de Noticias es una aplicación Web
 donde se integran diversas tecnologías y
 herramientas (GWT, Google Maps, Reconocedor y
 Clasificador de Entidades Nombradas, Geonames, ...)
Futuros Trabajos
 Soporte para formatos adicionales de alimentadores
 Web (Web Feed). RSS (multiples versiones), Atom u
 otros formatos actuales.
 Implementación para que la aplicación sea
 completamente accesible y usable desde dispositivos
 móviles.
 Mejora de la inferfaz de usuario.
 Usar otras alternativas a Google Maps (Cartografía
 de OpenStreetMap).
Futuros Trabajos
 Mejora del reconocimiento y clasificación de
 entidades nombradas, dotándole de un mayor
 rendimiento, de una mayor inteligencia y eficiencia.
 Reducción de latencia de red a servicios de
 Geonames, mediante la implementación un índice
 con tecnología Lucene/SOLR en local.
 Mejoras en el algoritmo de desambiguación de
 topónimos, mejorar el rendimiento e inclusión de
 otras heurísticas.

Más contenido relacionado

Similar a Presentación Geolocalización Noticias (geo news).2012

Los sistemas de información geográfica (SIG) y estándares de normalización
Los sistemas de información geográfica (SIG) y estándares de normalizaciónLos sistemas de información geográfica (SIG) y estándares de normalización
Los sistemas de información geográfica (SIG) y estándares de normalizaciónFacultad de Informática UCM
 
Sistema para gestión y monitoreo de unidades de emergencia y/o transporte
Sistema para gestión y monitoreo de unidades de emergencia y/o transporteSistema para gestión y monitoreo de unidades de emergencia y/o transporte
Sistema para gestión y monitoreo de unidades de emergencia y/o transporteSaúl Vázquez
 
Georreferenciación de documentación ferroviaria mediante indexación semántica...
Georreferenciación de documentación ferroviaria mediante indexación semántica...Georreferenciación de documentación ferroviaria mediante indexación semántica...
Georreferenciación de documentación ferroviaria mediante indexación semántica...Jose Gomez Castaño
 
Sistemas de Información Geográfica Libres - Flisol 2016
Sistemas de Información Geográfica Libres - Flisol 2016Sistemas de Información Geográfica Libres - Flisol 2016
Sistemas de Información Geográfica Libres - Flisol 2016Plattinux
 
Sistemas de informacion Geográfico2
Sistemas de informacion Geográfico2Sistemas de informacion Geográfico2
Sistemas de informacion Geográfico2Edgar Espin
 
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...Carlos Gabriel Asato
 
Presentación sistemas de información geográfica(gis) usando tecnologías open ...
Presentación sistemas de información geográfica(gis) usando tecnologías open ...Presentación sistemas de información geográfica(gis) usando tecnologías open ...
Presentación sistemas de información geográfica(gis) usando tecnologías open ...Dairon Medina
 
Sistemas de informacion Geográfico metadatos
Sistemas de informacion Geográfico metadatos Sistemas de informacion Geográfico metadatos
Sistemas de informacion Geográfico metadatos Edgar Espin
 
01 intro
01 intro 01 intro
01 intro UMCE
 
Aplicaciones del gps y gis en la mineria.
Aplicaciones del gps y gis en la mineria.Aplicaciones del gps y gis en la mineria.
Aplicaciones del gps y gis en la mineria.villagarayanibal
 
Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...
Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...
Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...Carlos Gabriel Asato
 
Un Estudio Dinamico De Las Base De Datos En Sig Moviles
Un Estudio Dinamico De Las Base De Datos En Sig MovilesUn Estudio Dinamico De Las Base De Datos En Sig Moviles
Un Estudio Dinamico De Las Base De Datos En Sig MovilesJanett Julca Flores
 
Que es un gis100311
Que es un gis100311Que es un gis100311
Que es un gis100311sigcredia
 
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...TELECOM I+D 2011
 

Similar a Presentación Geolocalización Noticias (geo news).2012 (20)

Los sistemas de información geográfica (SIG) y estándares de normalización
Los sistemas de información geográfica (SIG) y estándares de normalizaciónLos sistemas de información geográfica (SIG) y estándares de normalización
Los sistemas de información geográfica (SIG) y estándares de normalización
 
Sistema para gestión y monitoreo de unidades de emergencia y/o transporte
Sistema para gestión y monitoreo de unidades de emergencia y/o transporteSistema para gestión y monitoreo de unidades de emergencia y/o transporte
Sistema para gestión y monitoreo de unidades de emergencia y/o transporte
 
Georreferenciación de documentación ferroviaria mediante indexación semántica...
Georreferenciación de documentación ferroviaria mediante indexación semántica...Georreferenciación de documentación ferroviaria mediante indexación semántica...
Georreferenciación de documentación ferroviaria mediante indexación semántica...
 
Sistemas de Información Geográfica Libres - Flisol 2016
Sistemas de Información Geográfica Libres - Flisol 2016Sistemas de Información Geográfica Libres - Flisol 2016
Sistemas de Información Geográfica Libres - Flisol 2016
 
Geo presentación carranza_colombia2
Geo presentación carranza_colombia2Geo presentación carranza_colombia2
Geo presentación carranza_colombia2
 
Sistemas de informacion Geográfico2
Sistemas de informacion Geográfico2Sistemas de informacion Geográfico2
Sistemas de informacion Geográfico2
 
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...
 
Presentación sistemas de información geográfica(gis) usando tecnologías open ...
Presentación sistemas de información geográfica(gis) usando tecnologías open ...Presentación sistemas de información geográfica(gis) usando tecnologías open ...
Presentación sistemas de información geográfica(gis) usando tecnologías open ...
 
Sistemas de informacion Geográfico metadatos
Sistemas de informacion Geográfico metadatos Sistemas de informacion Geográfico metadatos
Sistemas de informacion Geográfico metadatos
 
01 intro
01 intro 01 intro
01 intro
 
Introducción SIG [Máster Smart Cities UdG]
Introducción SIG [Máster Smart Cities UdG]Introducción SIG [Máster Smart Cities UdG]
Introducción SIG [Máster Smart Cities UdG]
 
Aplicaciones del gps y gis en la mineria.
Aplicaciones del gps y gis en la mineria.Aplicaciones del gps y gis en la mineria.
Aplicaciones del gps y gis en la mineria.
 
Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...
Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...
Contexto de los Sistemas de Información Geográfica en el Desarrollo de los Si...
 
Un Estudio Dinamico De Las Base De Datos En Sig Moviles
Un Estudio Dinamico De Las Base De Datos En Sig MovilesUn Estudio Dinamico De Las Base De Datos En Sig Moviles
Un Estudio Dinamico De Las Base De Datos En Sig Moviles
 
Que es un gis100311
Que es un gis100311Que es un gis100311
Que es un gis100311
 
Presentación clase biogeografia
Presentación clase biogeografiaPresentación clase biogeografia
Presentación clase biogeografia
 
Sig aby
Sig abySig aby
Sig aby
 
Sistemas De InformacióN GeográFica
Sistemas De InformacióN GeográFicaSistemas De InformacióN GeográFica
Sistemas De InformacióN GeográFica
 
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICO...
 
5.2 geoprocesamiento
5.2 geoprocesamiento5.2 geoprocesamiento
5.2 geoprocesamiento
 

Más de Guillermo Santos

Handwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemHandwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemGuillermo Santos
 
MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013Guillermo Santos
 
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Guillermo Santos
 
Data Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansData Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansGuillermo Santos
 
Instalación R y RStudio en Windows
Instalación R y RStudio en WindowsInstalación R y RStudio en Windows
Instalación R y RStudio en WindowsGuillermo Santos
 
Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Guillermo Santos
 
Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012Guillermo Santos
 

Más de Guillermo Santos (7)

Handwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification ProblemHandwritten Digit recognition with R. Classification Problem
Handwritten Digit recognition with R. Classification Problem
 
MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013MadridJUG Mineria de Datos-Data Mining.09.may.2013
MadridJUG Mineria de Datos-Data Mining.09.may.2013
 
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...
 
Data Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub LoansData Analysis. Regression. LendingClub Loans
Data Analysis. Regression. LendingClub Loans
 
Instalación R y RStudio en Windows
Instalación R y RStudio en WindowsInstalación R y RStudio en Windows
Instalación R y RStudio en Windows
 
Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012Algoritmos Aprendizaje Automático.2012
Algoritmos Aprendizaje Automático.2012
 
Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012Kettle. Recuperación y Procesado de datos.2012
Kettle. Recuperación y Procesado de datos.2012
 

Último

R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 

Último (20)

R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 

Presentación Geolocalización Noticias (geo news).2012

  • 1. Geolocalización de Noticias (GEONews) Proyecto Fin de Grado Julio - 2012 Guillermo Santos García gsantosgo@yahoo.es @gsantosgo
  • 2. Contenido Introducción Proceso General de Geolocalización Arquitectura Tecnológica Detalles Implementación Demo Aplicación Evaluación Conclusiones Futuros Trabajos
  • 3. Introducción Visión general de la aplicación Geolocalización de Noticias
  • 4. Introducción Información estructurada vs no estructurada. Inteligencia artificial y procesamiento del lenguaje natural (PLN). Extracción de la información (IE). Extracción de conocimiento estructurado, a partir de información textual no estructurada en lenguaje natural. Reconocimiento y clasificación de entidades nombradas (NERC). Extracción de entidades dentro del texto y posterior clasificación en categorías (nombres de personas, organizaciones, nombres de lugares,..)
  • 5. Proceso General de Geolocalización Tarea 1. Captura de noticias Tarea 2. Reconocimiento y Clasificación de entidades nombradas Tarea 3. Resolución de nombres de lugares Tarea 4. Visualización
  • 6. Proceso General de Geolocalización Reconocimiento y Clasificación de entidades nombradas (NERC) Basados en Gazetteer. Basados en Reglas. Basados en Aprendizaje Automático. “El presidente de la Generalitat valenciana, Alberto Fabra, ha trasladado al nuevo ministro de Industria, José Manuel Soria, el rechazo de la Generalitat valenciana ante el proyecto que propone la instalación de un cementerio nuclear en la localidad de Zarra (Valencia).” “El presidente de la [Generalitat valenciana] [Organization], [Alberto Fabra] [Person], ha trasladado al nuevo ministro de Industria, [José Manuel Soria] [Person], el rechazo de la Generalitat valenciana [Organization] ante el proyecto que propone la instalación de un cementerio nuclear en la localidad de [Zarra] [Location] ([Valencia] [Location]).”
  • 7. Proceso General de Geolocalización Resolución de nombres de lugares Recibe una lista de nombres de lugares o topónimos, y debe determinar cuál es el topónimo mas adecuado para posicionar geográficamente una noticia sobre un mapa cartográfico. Ej. Asturias, España Asturias (Latitud: 43.33333, Longitud: -6) Uso de servicio web search de Geonames para obtener coordenadas geográficas. Problema de ambigüedades. Homografía de nombres de lugares con palabras comunes. Homografía de nombres de lugares con nombre y apellidos de personas. Homografía de nombres de lugares con el mismo nombre.
  • 8. Arquitectura Tecnológica Aplicación Web con tecnología Java/J2EE Tecnologías GWT (Google Web Toolkit). Google Maps Servicios Servicio RSS. Servicio de reconocimiento y clasificación de entidades nombradas. Servicio de resolución de lugares (topónimos). Servicio Cache Local (Guava Cache).
  • 9. Arquitectura Tecnológica Arquitectura Web con tecnología Java/JEE (gwtnewsgeolocation.war)
  • 10. Arquitectura Tecnológica Tecnologías empleadas GWT (Google Web Toolkit). Patrón MVP. Llamadas asíncronas. Integración GWT con cartografía de Google Maps (acceso API de Google Maps). Servicios Servicio RSS. Servicio de reconocimiento y clasificación de entidades nombradas (GATE-ANNIE) Servicio de resolución de lugares (topónimos) mediante el apoyo de los servicios Web de Geonames. Servicio cache local (Guava Cache).
  • 11. Arquitectura Tecnológica Arquitectura aplicación Geolocalización de Noticias
  • 12. Detalles Implementación Servicio RSS Permite acceder remotamente a fuentes de información RSS para obtener y analizar cada item (elemento) con el objetivo de extraer el título, descripción y categorías. Formato RSS 2.0 (Lenguaje XML) Información Titulo Descripción Categorías OJO!! Existen fuentes RSS con Publicidad
  • 13. Detalles Implementación Servicio de reconocimiento y clasificación de entidades nombradas (NERC) Identificación de nombres propios dentro del texto, y clasificación dentro de un conjunto de categorías predefinidas de interés (nombres de personas, organizaciones , nombres de lugares, …) GATE-ANNIE. Reconocedor genérico de entidades.
  • 14. Detalles Implementación Servicio de reconocimiento y clasificación de entidades nombradas Recursos de procesamiento ANNIE Tokenizer Sentence Splitter Gazetteer Part-Of-Speech ANNIE NE Transducer OJO!! Problemas de recursos disponibles en español
  • 15. Detalles Implementación Servicio de reconocimiento y clasificación de entidades nombradas GAZETTEER (Basado en listas) Creación e Incorporación de listas de nombres de lugares o topónimos obtenidos a partir de Geonames (continentes, países, aeropuertos, regiones, estados, provincias, ciudades, mares, océanos,…) Creación e incorporación de listas de nombres de personas y organizaciones obtenidos de JRCNames. Lista de palabras de paradas o vacías (stopwords) … ¿Qué es Geonames? Base de datos de topónimos (alrededor de 8 millones). Dispone 35 servicios Web (countryInfo, search,…)
  • 16. Detalles Implementación Servicio de resolución de nombres de lugares Problema de ambigüedades Homografía de palabras comunes Homografía de nombres de personas y apellidos (Ej. Javier Solana, Monserrat). Homografía de lugares con el mismo nombre.
  • 17. Detalles Implementación Servicio de resolución de nombres de lugares Algoritmo de desambiguación de lugares. Basado en heurísticas Cache de continentes y países Implementación Homografía basado en nombres de lugares. Ej. Asturias, España Paso 1. Obtención de topónimos Continentes, Países, Localizaciones (search) Ej.: Asturias, España Coordenadas Geográficas WGS84 (latitud y longitud)
  • 18. Detalles Implementación Servicio de resolución de nombres de lugares Implementación Paso 2. Nombre de lugar con un sólo topónimo. Lista de países elementos para eliminar ambigüedades de topónimos.
  • 19. Detalles Implementación Servicio de resolución de nombres de lugares Implementación Paso 3. Eliminación de topónimos que no pertenezcan a listas de países, usando cuadro delimitador. Sistema de puntuación de 0..3, en función clase característica y código característica de Geonames.
  • 22. Evaluación Conjunto de 35 noticias nacionales. Conjunto de 35 noticias internacionales. Comparativa con servicio “Conversor RSS a GeoRSS” de Geonames Precisión o eficiencia de 35 noticias nacionales GEONews Geonames Falsamente 0% 0% localizadas (0%) Incorrectamente 39,39% 21,21% (39,39%) localizadas Correctamente 60,61% 78,79% (60,61%) localizadas
  • 23. Evaluación Precisión o eficiencia de 35 noticias internacionales GEONews Geonames Falsamente 2,86% 0% localizadas Incorrectamente 37,14% 23,53% localizadas Correctamente 60,00% 76,47% localizadas
  • 24. Conclusiones Necesidad de tener un mayor conocimiento de la información no estructurada ( Ej. representación y posicionamiento de información geográfica ) Campo del procesamiento del lenguaje natural (PLN) cada vez tiene mas importancia. Geolocalización de Noticias es una aplicación Web donde se integran diversas tecnologías y herramientas (GWT, Google Maps, Reconocedor y Clasificador de Entidades Nombradas, Geonames, ...)
  • 25. Futuros Trabajos Soporte para formatos adicionales de alimentadores Web (Web Feed). RSS (multiples versiones), Atom u otros formatos actuales. Implementación para que la aplicación sea completamente accesible y usable desde dispositivos móviles. Mejora de la inferfaz de usuario. Usar otras alternativas a Google Maps (Cartografía de OpenStreetMap).
  • 26. Futuros Trabajos Mejora del reconocimiento y clasificación de entidades nombradas, dotándole de un mayor rendimiento, de una mayor inteligencia y eficiencia. Reducción de latencia de red a servicios de Geonames, mediante la implementación un índice con tecnología Lucene/SOLR en local. Mejoras en el algoritmo de desambiguación de topónimos, mejorar el rendimiento e inclusión de otras heurísticas.