Aplicación del EI2A Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Zaragoza, 1 de Febrero de 2018
Aplicación del Esquema de Información Interoperable de Aragón EI2A en relación con la Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón.
Desayuno informativo ofrecido en la Dirección General de Administración Electrónica y Sociedad de la Información
Similar a Aplicación del EI2A Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Zaragoza, 1 de Febrero de 2018
Similar a Aplicación del EI2A Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Zaragoza, 1 de Febrero de 2018 (20)
Aplicación del EI2A Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Zaragoza, 1 de Febrero de 2018
1. Aplicación del EI2A
Recuperación de la información institucional ofrecida en las webs,
subdominios y portales del Gobierno de Aragón
Zaragoza, 1 de Febrero de 2018
4. 4
Introducción
Antecedentes
Aragón Open Data1, proyecto de apertura de datos públicos
Se atribuyen competencias con los objetivos de crear valor económico en
el sector TIC a través de
Reutilización de la información pública
Aumentar la transparencia en la Administración
Fomentar la innovación
Mejorar los sistemas de información de la Administración
Generar interoperabilidad de datos entre webs del sector público
Elaborar directrices y adoptar estándares (interoperabilidad)
1 http://opendata.aragon.es
Se han realizado numerosos trabajos
8. 8
Desafío
Automatización en la gestión de información
Surge la necesidad de
Generar un conjunto de reglas técnicas y legales que permitan profundizar
en la estandarización de información del Gobierno de Aragón
Esquema de Información Interoperable de Aragón
(EI2A)
10. 10
Desafío
Trabajo realizado
Identificar, estudiar y analizar tendencias actuales de I+D en relación a
Ontologías y diccionarios de interoperabilidad de datos
Definir la propuesta ontológica
Reutilización de ontologías y vocabularios existentes
Avaladas por W3C y directivas europeas
Generar versiones
Texto
Web1
1 http://opendata.aragon.es/def/ei2a/index.htm
locn
org
eventtime
person
geoschema
dc skosfoaf
13. 13
Desafíos
Dificultad de acceso y uso de la información
Surge la idea de
Recuperar la información institucional ofrecida en las webs, subdominios y
portales del Gobierno de Aragón
Ofrecer dicha información de manera estructurada y controlada desde un
único punto de acceso
Comprobar, mediante casos reales y prácticos, la aplicación del EI2A
16. 16
Desafío
¿Cómo?
Aplicando técnicas de
Web crawling, spidering o araña sobre los dominios existentes del Gobierno
de Aragón
Técnicas de captura de información
Técnicas de análisis / procesamiento de información
stopwords, lematizar, sinónimos, diccionarios
categorización
extracción de entidades nombradas
extracción de resúmenes
Técnicas de almacenamiento de la información
Identificando el marco técnico-jurídico aplicable
al uso de técnicas de Web Crawling
Adaptando y mejorando el EI2A
18. 18
Acciones desde el punto de vista jurídico
Objetivo
Identificar el marco técnico-jurídico aplicable al uso de técnicas de Web
Crawling
Analizar y evaluar la obtención de información de las webs
Definir requerimientos a satisfacer desde una perspectiva jurídica
Adicionalmente, analizar
la publicación de la información obtenida
los límites aplicables a la misma
los términos en los que pueda autorizarse
su reutilización
19. 19
Acciones desde el punto de vista jurídico
Trabajos realizados
Informe sobre la publicación de la información extraída
Seguimiento de las acciones de extracción de la información
Estudio preliminar y metodología jurídica
21. 21
Web Crawling
Diseño de una Metodología
Desarrollo de una metodología para el análisis de las
diferentes soluciones de web crawling
Listado de
soluciones
existentes
Filtrado en base
a criterios de
licenciamiento
y actualización
Captura de
propiedades
avanzadas
Filtrado en base
a criterios para
ejecutar
pruebas
funcionales
Ejecución de
pruebas y
selección de la
solución
crawler4j
29. 29
Solución semántica
Proceso de carga de datos organizacionales
ORG_ENTIDAD.cvs
ORG_CARGO.csv
ORG_LEGISLATURA.csv
Personal del organigrama actual del Gobierno de Aragón
Cargos que desempeñan
Entidad o departamento al que pertenecen
Dependencias de un departamento con otros
Dirección en la que se ubican (código postal, provincia,…)
Teléfono
Intervalo de tiempo de la ocupación de ese cargo que va
ligado básicamente con la legislatura
//Para personas
ei2a: idPersona rdf:type person:Person
ei2a: idPersona rdf:type owl:NamedIndividual
ei2a: idPersona org:identifier idAux
ei2a: idPersona ei2a:fullName nombrePersona
50. 50
Solución semántica
Interfaz de visualización de información Virtuoso
PREFIX org: <http://www.w3.org/ns/org#>
PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#>
PREFIX time: <http://www.w3.org/2006/time>
SELECT ?per ?org ?rol ?start ?end
WHERE {
?idMem org:member ?perID .
?perID ei2a:fullName ?per .
?idMem org:organization ?orgID .
?orgID ei2a:organizationName ?org .
?idMem org:role ?rolID .
Exportable a otros formatos
Datos de personas,
departamento al que
pertenecen, rol que ocupan e
intervalo de duración de ese
cargo
51. 51
Solución semántica
Ejemplo de información en Virtuoso
Exportable a otros formatos
PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#>
PREFIX locn:<http://www.w3.or/ns/locn#>
PREFIX org: <http://www.w3.org/ns/org#>
SELECT ?org ?phone ?add ?CP ?loc ?pro
WHERE {
?orgID org:hasPrimarySite ?sedeID .
?sedeID org:siteAddress ?addID .
?sedeID ei2a:phone ?phone .
?addID locn:fullAddress ?add.
Datos de una organización o
departamento
52. 52
Solución semántica
Ejemplo de información en Virtuoso
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#>
PREFIX webCategory:
<http://opendata.aragon.es/def/ei2a/categorization#>
SELECT ?url ?cat
WHERE {
?idURL ei2a:webPageCategorization ?catID .
?idURL ei2a:URL ?url .
Categorías asociadas a una
web, subdominio o portal
53. 53
Solución semántica
Ejemplo de información en Virtuoso
PREFIX ei2a: http://opendata.aragon.es/def/ei2a#
SELECT ?URL ?sum
WHERE {
?idURL ei2a:summary ?sum .
?idURL ei2a:URL ?URL
}
Resumen de una web,
subdominio o portal
54. 54
Solución semántica
Ejemplo de información en Virtuoso
PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#>
PREFIX locn:<http://www.w3.org/ns/locn#>
SELECT ?name
WHERE {
?ID ei2a:fullName ?name
}
Entidades: Personas,
Organizaciones o
Localizaciones
57. 57
Transferencia
Jornada “European Big Data Value Forum”
Celebrada en Versalles la semana del 20 – 24 de Noviembre
ITAINNOVA es miembro del BDVA (Big Data Value Association)
ITAINNOVA disponía de un stand
Se dio a conocer el trabajo realizado en el proyecto Open Data
Folletos
Roll-up
59. 59
Resultados obtenidos y Conclusiones
Identificación del marco jurídico para la extracción, publicación y
reutilización de información extraída en el proceso de Web Crawling
Análisis de las diferentes tendencias y soluciones Web Crawling
Adaptación y mejora del modelo semántico EI2A
Instalación de la infraestructura para dar soporte a la solución semántica
Desarrollo de la solución semántica aplicando técnicas de
Web Crawling
Captura de información
Análisis / procesamiento de la información:
- Stopwords, lematizar, etc.
- Categorizar
- Extracción de entidades nombradas
- Extracción de resúmenes
Almacenamiento de la información
Resultados obtenidos
60. 60
Resultados obtenidos y Conclusiones
Estructuración de datos del Gobierno de Aragón a través del
Resultados obtenidos
Esquema de Información Interoperable de Aragón
(EI2A)
Ejemplo de
aplicación
del EI2A
Personas
Localizaciones
Temporalidad
Organizaciones
Página Web
61. 61
Resultados obtenidos y Conclusiones
Importancia del origen y formatos para la carga de datos iniciales
En general, el modelo genérico presenta gran capacidad de
reconocimiento de entidades. Sin embargo, podría no ser suficiente en
algunos casos
El contexto y el formato textual sobre el que se aplica tienen una gran
influencia en la clasificación de la entidades
Resultados no satisfactorios en los casos donde el formato de texto o el
contexto difieren en mayor medida de la línea común de información textual
en forma de noticia (por ejemplo, determinados pdfs o docs)
Conclusiones
Definir nuevas
entidades según
el contexto
Generar diferentes
modelos matemáticos
según el contexto del
texto
62. 62
¡ Gracias por vuestra atención!
Instituto Tecnológico de Aragón
Paula Peña Larena
Big Data y Sistemas Cognitivos
María de Luna, 7-8 - E-50018 Zaragoza (Spain)
Phone: (+34) 976 011 083 - Fax: (+34) 976 011 888
e-mail: ppena@itainnova.es - http://www.itainnova.es
Instituto Tecnológico de Aragón
Clara Savirón
Desarrollo de Negocio
María de Luna, 7-8 - E-50018 Zaragoza (Spain)
Phone: (+34) 976 011 056 - Fax: (+34) 976 011 888
e-mail: csaviron@itainnova.es - http://www.itainnova.es
63. Aplicación del EI2A
Recuperación de la información institucional ofrecida en las webs,
subdominios y portales del Gobierno de Aragón
Zaragoza, 1 de Febrero de 2018