Este documento describe un proyecto de fin de grado para desarrollar una aplicación web de geolocalización de noticias. La aplicación extrae entidades nombradas de artículos de noticias y las localiza en un mapa utilizando servicios como GATE-ANNIE, Geonames y Google Maps. El documento explica el proceso general, la arquitectura tecnológica, detalles de implementación y una evaluación de la precisión de la geolocalización.
A Linked Open Data Service for Performing ArtsPaolo Nesi
Linked Open Data (LOD) is a new way of sharing information about digital/physical resources allowing connected computers to better use infor-mation related with the resources. LOD allows to enrich information about resources possibly improving the user experience when using the resources or on finding them. This paper presents the experience in publishing as linked data the information which is present on ECLAP portal about multimedia content on performing arts. The system provides access to information about content, the terms of the taxonomy used to classify the content and also structural information like connections with groups managing the content, use in playlists and collections. Moreover information about annotations on audio/visual content is provided and also information about users is available (e.g., the ‘friends’ graph). The enrichments made on geographical information present in the content metadata (e.g., city/country of the performance) allowed to link content with the GeoNames database that is available as liked data.
Assessment of the Accuracy of GeoNames Gazetteer DataDirk Ahlers
Gazetteers are the basis of many geospatial applications and serve an important role to collect and make available knowledge about the physical world such as place names and their coordinates. GeoNames is one of the largest and most often used gazetteer and it is generally assumed to be of sufficient quality. In this paper, we examine the quality and accuracy of the data in more detail, triggered by some anomalies encountered during its use. We present a classification of inaccuracies ranging from grid patterns, imprecise coordinates, overlaps and repetitions as well as misclassifications and visualize these for a range of countries.
Presentation of a paper at the GIR workshop. Full paper available from my homepage.
Best Practices in Geospatial Metadata - Working Session at Digital Library Fe...Sandra McIntyre
Presentation slides for the working session at the Digital Library Federation Forum 2014 in Atlanta, GA, October 29, 2014. Presentation delivered by Liz Woolcott, Sandra McIntyre, Anna Neatrour, and Rachel Wittmann, on behalf of the Mountain West Digital Library Geospatial Discovery Task Force. Other contributors to the planning of the working session: Kristen Jensen, Greta Bahnemann, Dustin Olson.
Utiliser les grandes plateformes collaboratives comme Wikipedia et GeoNames pour publier ses données dans le web de données, les enrichir et les relier
En esta conferencia te enseñaremos las nuevas alternativas y herramientas que existen para la geocalización con base a plataformas de software libre, como funcionan estas aplicaciones, que utilidades pueden tener y el impacto que genera en las redes sociales. Ponente Tonny Burbano.
A Linked Open Data Service for Performing ArtsPaolo Nesi
Linked Open Data (LOD) is a new way of sharing information about digital/physical resources allowing connected computers to better use infor-mation related with the resources. LOD allows to enrich information about resources possibly improving the user experience when using the resources or on finding them. This paper presents the experience in publishing as linked data the information which is present on ECLAP portal about multimedia content on performing arts. The system provides access to information about content, the terms of the taxonomy used to classify the content and also structural information like connections with groups managing the content, use in playlists and collections. Moreover information about annotations on audio/visual content is provided and also information about users is available (e.g., the ‘friends’ graph). The enrichments made on geographical information present in the content metadata (e.g., city/country of the performance) allowed to link content with the GeoNames database that is available as liked data.
Assessment of the Accuracy of GeoNames Gazetteer DataDirk Ahlers
Gazetteers are the basis of many geospatial applications and serve an important role to collect and make available knowledge about the physical world such as place names and their coordinates. GeoNames is one of the largest and most often used gazetteer and it is generally assumed to be of sufficient quality. In this paper, we examine the quality and accuracy of the data in more detail, triggered by some anomalies encountered during its use. We present a classification of inaccuracies ranging from grid patterns, imprecise coordinates, overlaps and repetitions as well as misclassifications and visualize these for a range of countries.
Presentation of a paper at the GIR workshop. Full paper available from my homepage.
Best Practices in Geospatial Metadata - Working Session at Digital Library Fe...Sandra McIntyre
Presentation slides for the working session at the Digital Library Federation Forum 2014 in Atlanta, GA, October 29, 2014. Presentation delivered by Liz Woolcott, Sandra McIntyre, Anna Neatrour, and Rachel Wittmann, on behalf of the Mountain West Digital Library Geospatial Discovery Task Force. Other contributors to the planning of the working session: Kristen Jensen, Greta Bahnemann, Dustin Olson.
Utiliser les grandes plateformes collaboratives comme Wikipedia et GeoNames pour publier ses données dans le web de données, les enrichir et les relier
En esta conferencia te enseñaremos las nuevas alternativas y herramientas que existen para la geocalización con base a plataformas de software libre, como funcionan estas aplicaciones, que utilidades pueden tener y el impacto que genera en las redes sociales. Ponente Tonny Burbano.
Se tratará de los principales productos de información geográfica como representación temática del territorio que se generan en el ámbito de las administraciones públicas; datos y servicios conformes con la Directiva 2007/2/CE del Parlamento Europeo y del Consejo de 14 de marzo de 2007 por la que se establece una infraestructura de información espacial en la Comunidad Europea.
Sistema para gestión y monitoreo de unidades de emergencia y/o transporteSaúl Vázquez
Demostración de nuestra tesis aplicada en la Universidad del Caribe, Cancún Q. Roo, un proyecto más con el Raspberry Pi el equipo lo conformo:
María José Ac Novelo
Yonni López Cortes
Saúl Vázquez Radilla
La reseña del proyecto lo pueden encontrar en:
http://blogvazquezsaul.blogspot.mx/2014/01/sistema-para-gestion-y-monitoreo-de.html
El vídeo del proyecto lo pueden encontrar en:
http://youtu.be/640oFKBMN04
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...Carlos Gabriel Asato
Curso Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, hasta One Geology.
XVIII Congreso Geológico Argentino. Neuquén2 de Mayo de 2011
es una operación de tratamiento o manipulación de datos espaciales realizada en un entorno SIG. Un Geoprocesamiento típico sería la operación de acceso a una base de datos espaciales, operar en aquella base de datos espaciales e incorporar el resultado de la operación como un nuevo dato al conjunto de datos espaciales.
Se tratará de los principales productos de información geográfica como representación temática del territorio que se generan en el ámbito de las administraciones públicas; datos y servicios conformes con la Directiva 2007/2/CE del Parlamento Europeo y del Consejo de 14 de marzo de 2007 por la que se establece una infraestructura de información espacial en la Comunidad Europea.
Sistema para gestión y monitoreo de unidades de emergencia y/o transporteSaúl Vázquez
Demostración de nuestra tesis aplicada en la Universidad del Caribe, Cancún Q. Roo, un proyecto más con el Raspberry Pi el equipo lo conformo:
María José Ac Novelo
Yonni López Cortes
Saúl Vázquez Radilla
La reseña del proyecto lo pueden encontrar en:
http://blogvazquezsaul.blogspot.mx/2014/01/sistema-para-gestion-y-monitoreo-de.html
El vídeo del proyecto lo pueden encontrar en:
http://youtu.be/640oFKBMN04
Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, h...Carlos Gabriel Asato
Curso Explotación de Información Geocientífica por Internet. Desde Geo-RSS a WMS, hasta One Geology.
XVIII Congreso Geológico Argentino. Neuquén2 de Mayo de 2011
es una operación de tratamiento o manipulación de datos espaciales realizada en un entorno SIG. Un Geoprocesamiento típico sería la operación de acceso a una base de datos espaciales, operar en aquella base de datos espaciales e incorporar el resultado de la operación como un nuevo dato al conjunto de datos espaciales.
Similar a Presentación Geolocalización Noticias (geo news).2012 (20)
Data Analysis. Predictive Analysis. Activity Prediction that a subject perfor...Guillermo Santos
Recently, our lives are invaded by small mobile devices, known as smartphones. These devices are mobile mini-computers, they have an operating system that allows it to launch applications, include a set of applications to manage contacts and address book, to create, edit or view different types of documents, to access or browse the Web, too provide us telephony or messaging services, etc. Apart from these previous features, the most of the smartphones have currently begun to incorporate other features such as cameras, GPS and various types of sensors.
In this analysis, we used data obtained from the accelerometer [1] and gyroscope[2] sensor signals of the smartphones. The accelerometer and gyroscope sensors measure 3-axial linear acceleration and 3-axial angular velocity, with these two sensors can monitor device acceleration, positions, orientation, rotation and angular motion. All these data can be stored and used to recognize a user’s activity. Here we refer to physical activities that a human person can perform daily such as walking, walking up, jogging, sitting, laying, etc.
The aim of this analysis consisted of perform a classification’s task. We took a dataset with their attributes (acceleration, orientation,…) and its labeled variable (in this case is activity), and later we created various classification’s models also known classifiers. To create these classification’s models we can use various algorithms of classification. These algorithms use all available information of a dataset to help us to classify or predict that activity is performed by a human person.
To create models of classification (models of classification), we performed a first task that consisted of choose different algorithms or techniques of classification, then for each algorithm or technique of classification we applied what is called cross-validation [3], that is, we trained these algorithm with a set of training data that corresponds to several observations of our available dataset. The following task was tested our classification’s algorithm to observe the accuracy, that is, if our predictive model can classify correctly a human’s activity according to the acquired knowledge in the stage of training. This whole process is known as supervised learning [4].
Conocer las diferencias entre los distintos algoritmos de aprendizaje automático.Utilizar una herramienta para minería de datos y comparar varios algoritmos de aprendizaje automático. Para ello vamos a trabajar con la herramienta RapidMiner.
Catalogo general Ariston Amado Salvador distribuidor oficial ValenciaAMADO SALVADOR
Distribuidor Oficial Ariston en Valencia: Amado Salvador distribuidor autorizado de Ariston, una marca líder en soluciones de calefacción y agua caliente sanitaria. Amado Salvador pone a tu disposición el catálogo completo de Ariston, encontrarás una amplia gama de productos diseñados para satisfacer las necesidades de hogares y empresas.
Calderas de condensación: Ofrecemos calderas de alta eficiencia energética que aprovechan al máximo el calor residual. Estas calderas Ariston son ideales para reducir el consumo de gas y minimizar las emisiones de CO2.
Bombas de calor: Las bombas de calor Ariston son una opción sostenible para la producción de agua caliente. Utilizan energía renovable del aire o el suelo para calentar el agua, lo que las convierte en una alternativa ecológica.
Termos eléctricos: Los termos eléctricos, como el modelo VELIS TECH DRY (sustito de los modelos Duo de Fleck), ofrecen diseño moderno y conectividad WIFI. Son ideales para hogares donde se necesita agua caliente de forma rápida y eficiente.
Aerotermia: Si buscas una solución aún más sostenible, considera la aerotermia. Esta tecnología extrae energía del aire exterior para calentar tu hogar y agua. Además, puede ser elegible para subvenciones locales.
Amado Salvador es el distribuidor oficial de Ariston en Valencia. Explora el catálogo y descubre cómo mejorar la comodidad y la eficiencia en tu hogar o negocio.
KAWARU CONSULTING presenta el projecte amb l'objectiu de permetre als ciutadans realitzar tràmits administratius de manera telemàtica, des de qualsevol lloc i dispositiu, amb seguretat jurídica. Aquesta plataforma redueix els desplaçaments físics i el temps invertit en tràmits, ja que es pot fer tot en línia. A més, proporciona evidències de la correcta realització dels tràmits, garantint-ne la validesa davant d'un jutge si cal. Inicialment concebuda per al Ministeri de Justícia, la plataforma s'ha expandit per adaptar-se a diverses organitzacions i països, oferint una solució flexible i fàcil de desplegar.
4. Introducción
Información estructurada vs no estructurada.
Inteligencia artificial y procesamiento del lenguaje
natural (PLN).
Extracción de la información (IE). Extracción de
conocimiento estructurado, a partir de información
textual no estructurada en lenguaje natural.
Reconocimiento y clasificación de entidades
nombradas (NERC). Extracción de entidades dentro
del texto y posterior clasificación en categorías
(nombres de personas, organizaciones, nombres de
lugares,..)
5. Proceso General de Geolocalización
Tarea 1. Captura de noticias
Tarea 2. Reconocimiento y Clasificación de entidades
nombradas
Tarea 3. Resolución de nombres de lugares
Tarea 4. Visualización
6. Proceso General de Geolocalización
Reconocimiento y Clasificación de entidades
nombradas (NERC)
Basados en Gazetteer.
Basados en Reglas.
Basados en Aprendizaje Automático.
“El presidente de la Generalitat valenciana, Alberto Fabra, ha trasladado al nuevo
ministro de Industria, José Manuel Soria, el rechazo de la Generalitat valenciana
ante el proyecto que propone la instalación de un cementerio nuclear en la
localidad de Zarra (Valencia).”
“El presidente de la [Generalitat valenciana] [Organization], [Alberto Fabra]
[Person], ha trasladado al nuevo ministro de Industria, [José Manuel Soria]
[Person], el rechazo de la Generalitat valenciana [Organization] ante el proyecto
que propone la instalación de un cementerio nuclear en la localidad de [Zarra]
[Location] ([Valencia] [Location]).”
7. Proceso General de Geolocalización
Resolución de nombres de lugares
Recibe una lista de nombres de lugares o topónimos, y debe determinar cuál es
el topónimo mas adecuado para posicionar geográficamente una noticia sobre
un mapa cartográfico.
Ej. Asturias, España Asturias (Latitud: 43.33333, Longitud: -6)
Uso de servicio web search de Geonames para obtener coordenadas geográficas.
Problema de ambigüedades.
Homografía de nombres de lugares con palabras comunes.
Homografía de nombres de lugares con nombre y apellidos de
personas.
Homografía de nombres de lugares con el mismo nombre.
8. Arquitectura Tecnológica
Aplicación Web con tecnología Java/J2EE
Tecnologías
GWT (Google Web Toolkit).
Google Maps
Servicios
Servicio RSS.
Servicio de reconocimiento y clasificación de entidades
nombradas.
Servicio de resolución de lugares (topónimos).
Servicio Cache Local (Guava Cache).
10. Arquitectura Tecnológica
Tecnologías empleadas
GWT (Google Web Toolkit). Patrón MVP. Llamadas
asíncronas.
Integración GWT con cartografía de Google Maps (acceso
API de Google Maps).
Servicios
Servicio RSS.
Servicio de reconocimiento y clasificación de entidades
nombradas (GATE-ANNIE)
Servicio de resolución de lugares (topónimos) mediante el
apoyo de los servicios Web de Geonames.
Servicio cache local (Guava Cache).
12. Detalles Implementación
Servicio RSS
Permite acceder remotamente a fuentes de información RSS para obtener y
analizar cada item (elemento) con el objetivo de extraer el título, descripción
y categorías.
Formato RSS 2.0 (Lenguaje XML)
Información
Titulo
Descripción
Categorías
OJO!! Existen fuentes RSS con
Publicidad
13. Detalles Implementación
Servicio de reconocimiento y clasificación de
entidades nombradas (NERC)
Identificación de nombres propios dentro del texto, y
clasificación dentro de un conjunto de categorías
predefinidas de interés (nombres de personas,
organizaciones , nombres de lugares, …)
GATE-ANNIE. Reconocedor genérico de entidades.
14. Detalles Implementación
Servicio de reconocimiento y clasificación de
entidades nombradas
Recursos de procesamiento
ANNIE Tokenizer
Sentence Splitter
Gazetteer
Part-Of-Speech
ANNIE NE Transducer
OJO!! Problemas de recursos disponibles en español
15. Detalles Implementación
Servicio de reconocimiento y clasificación de
entidades nombradas
GAZETTEER (Basado en listas)
Creación e Incorporación de listas de nombres de lugares o
topónimos obtenidos a partir de Geonames (continentes, países,
aeropuertos, regiones, estados, provincias, ciudades, mares,
océanos,…)
Creación e incorporación de listas de nombres de personas y
organizaciones obtenidos de JRCNames.
Lista de palabras de paradas o vacías (stopwords)
…
¿Qué es Geonames?
Base de datos de topónimos (alrededor de 8 millones).
Dispone 35 servicios Web (countryInfo, search,…)
16. Detalles Implementación
Servicio de resolución de nombres de lugares
Problema de ambigüedades
Homografía de palabras comunes
Homografía de nombres de personas y apellidos (Ej. Javier Solana,
Monserrat).
Homografía de lugares con el mismo nombre.
17. Detalles Implementación
Servicio de resolución de nombres de lugares
Algoritmo de desambiguación de lugares.
Basado en heurísticas
Cache de continentes y países
Implementación
Homografía basado en nombres de
lugares.
Ej. Asturias, España
Paso 1. Obtención de topónimos
Continentes, Países, Localizaciones (search)
Ej.: Asturias, España
Coordenadas Geográficas WGS84 (latitud y longitud)
18. Detalles Implementación
Servicio de resolución de nombres de lugares
Implementación
Paso 2. Nombre de lugar con un sólo
topónimo.
Lista de países elementos para
eliminar ambigüedades de topónimos.
19. Detalles Implementación
Servicio de resolución de nombres de lugares
Implementación
Paso 3.
Eliminación de topónimos que no
pertenezcan a listas de países, usando
cuadro delimitador.
Sistema de puntuación de 0..3, en función
clase característica y código característica de
Geonames.
22. Evaluación
Conjunto de 35 noticias nacionales.
Conjunto de 35 noticias internacionales.
Comparativa con servicio “Conversor RSS a GeoRSS”
de Geonames
Precisión o eficiencia de 35 noticias nacionales
GEONews Geonames
Falsamente 0% 0%
localizadas
(0%)
Incorrectamente 39,39% 21,21%
(39,39%)
localizadas
Correctamente 60,61% 78,79%
(60,61%)
localizadas
24. Conclusiones
Necesidad de tener un mayor conocimiento de la
información no estructurada ( Ej. representación y
posicionamiento de información geográfica )
Campo del procesamiento del lenguaje natural (PLN)
cada vez tiene mas importancia.
Geolocalización de Noticias es una aplicación Web
donde se integran diversas tecnologías y
herramientas (GWT, Google Maps, Reconocedor y
Clasificador de Entidades Nombradas, Geonames, ...)
25. Futuros Trabajos
Soporte para formatos adicionales de alimentadores
Web (Web Feed). RSS (multiples versiones), Atom u
otros formatos actuales.
Implementación para que la aplicación sea
completamente accesible y usable desde dispositivos
móviles.
Mejora de la inferfaz de usuario.
Usar otras alternativas a Google Maps (Cartografía
de OpenStreetMap).
26. Futuros Trabajos
Mejora del reconocimiento y clasificación de
entidades nombradas, dotándole de un mayor
rendimiento, de una mayor inteligencia y eficiencia.
Reducción de latencia de red a servicios de
Geonames, mediante la implementación un índice
con tecnología Lucene/SOLR en local.
Mejoras en el algoritmo de desambiguación de
topónimos, mejorar el rendimiento e inclusión de
otras heurísticas.