SlideShare una empresa de Scribd logo
1 de 63
Descargar para leer sin conexión
Aplicación del EI2A
Recuperación de la información institucional ofrecida en las webs,
subdominios y portales del Gobierno de Aragón
Zaragoza, 1 de Febrero de 2018
2
Contenidos
Introducción
Antecedentes
Trabajos realizados en el contexto de Aragón Open Data
Automatización en la gestión de la información
Dificultad de acceso y uso de la información
Resultados obtenidos
Conclusiones
3
Introducción
4
Introducción
Antecedentes
Aragón Open Data1, proyecto de apertura de datos públicos
Se atribuyen competencias con los objetivos de crear valor económico en
el sector TIC a través de
Reutilización de la información pública
Aumentar la transparencia en la Administración
Fomentar la innovación
Mejorar los sistemas de información de la Administración
Generar interoperabilidad de datos entre webs del sector público
Elaborar directrices y adoptar estándares (interoperabilidad)
1 http://opendata.aragon.es
Se han realizado numerosos trabajos
5
Desafíos
6
Desafío:
“Automatización
en la gestión de
la información”
7
Desafío
Automatización en la gestión de la información
Necesidad de
Mejorar la reutilización por terceros
8
Desafío
Automatización en la gestión de información
Surge la necesidad de
Generar un conjunto de reglas técnicas y legales que permitan profundizar
en la estandarización de información del Gobierno de Aragón
Esquema de Información Interoperable de Aragón
(EI2A)
9
Desafío
Propuesta ontológica EI2A
Personas Geometría
Geo-
localizaciones
Datos bancarios Territorios
EventosTemporalidad
Direcciones
físicasDocumentos
Organizaciones
10
Desafío
Trabajo realizado
Identificar, estudiar y analizar tendencias actuales de I+D en relación a
Ontologías y diccionarios de interoperabilidad de datos
Definir la propuesta ontológica
Reutilización de ontologías y vocabularios existentes
Avaladas por W3C y directivas europeas
Generar versiones
Texto
Web1
1 http://opendata.aragon.es/def/ei2a/index.htm
locn
org
eventtime
person
geoschema
dc skosfoaf
11
Desafío:
“Dificultad de
acceso y uso de
información”
12
Desafío
Dificultad de acceso y uso de información
13
Desafíos
Dificultad de acceso y uso de la información
Surge la idea de
Recuperar la información institucional ofrecida en las webs, subdominios y
portales del Gobierno de Aragón
Ofrecer dicha información de manera estructurada y controlada desde un
único punto de acceso
Comprobar, mediante casos reales y prácticos, la aplicación del EI2A
14
Desafíos
Punto de partida
Elevado número de webs, subdominio o portales
15
Desafío
ORG_ENTIDAD.cvs
ORG_CARGO.csv
ORG_LEGISLATURA.csv
16
Desafío
¿Cómo?
Aplicando técnicas de
Web crawling, spidering o araña sobre los dominios existentes del Gobierno
de Aragón
Técnicas de captura de información
Técnicas de análisis / procesamiento de información
stopwords, lematizar, sinónimos, diccionarios
categorización
extracción de entidades nombradas
extracción de resúmenes
Técnicas de almacenamiento de la información
Identificando el marco técnico-jurídico aplicable
al uso de técnicas de Web Crawling
Adaptando y mejorando el EI2A
17
Acciones desde
el punto de vista
jurídico
18
Acciones desde el punto de vista jurídico
Objetivo
Identificar el marco técnico-jurídico aplicable al uso de técnicas de Web
Crawling
Analizar y evaluar la obtención de información de las webs
Definir requerimientos a satisfacer desde una perspectiva jurídica
Adicionalmente, analizar
la publicación de la información obtenida
los límites aplicables a la misma
los términos en los que pueda autorizarse
su reutilización
19
Acciones desde el punto de vista jurídico
Trabajos realizados
Informe sobre la publicación de la información extraída
Seguimiento de las acciones de extracción de la información
Estudio preliminar y metodología jurídica
20
Estudio de
Vigilancia
Tecnológica de
Web Crawling
21
Web Crawling
Diseño de una Metodología
Desarrollo de una metodología para el análisis de las
diferentes soluciones de web crawling
Listado de
soluciones
existentes
Filtrado en base
a criterios de
licenciamiento
y actualización
Captura de
propiedades
avanzadas
Filtrado en base
a criterios para
ejecutar
pruebas
funcionales
Ejecución de
pruebas y
selección de la
solución
crawler4j
22
Estructuración
de datos
recopilados
23
Ontología EI2A
Adaptación y mejoras del modelo semántico
Personas LocalizacionesOrganizaciones
24
Ontología EI2A
Adaptación y mejoras del modelo semántico
WebPage
WebPage01
ei2a:citationOnWebPage
ei2a:CitationOnEntity
Citation
Citation01
person:Person
Persona01
locn:Location
Location01
ei2a:isCited
WebPageCategorization
WebPageCategorization01
ei2a: webPageCategorization
ei2a:isWebPageOf
org:Organization
Organization01
25
Ontología EI2A
Formalización y codificación del modelo conceptual
Protégé Home Page (http://protege.stanford.edu/) ; OWLGrEd (http://owlgred.lumii.lv/)
26
Ontología EI2A
Publicación del modelo semántico
http://opendata.aragon.es/def/ei2a/index.htm
27
Solución
semántica
28
Proceso de
carga de
datos
29
Solución semántica
Proceso de carga de datos organizacionales
ORG_ENTIDAD.cvs
ORG_CARGO.csv
ORG_LEGISLATURA.csv
Personal del organigrama actual del Gobierno de Aragón
Cargos que desempeñan
Entidad o departamento al que pertenecen
Dependencias de un departamento con otros
Dirección en la que se ubican (código postal, provincia,…)
Teléfono
Intervalo de tiempo de la ocupación de ese cargo que va
ligado básicamente con la legislatura
//Para personas
ei2a: idPersona rdf:type person:Person
ei2a: idPersona rdf:type owl:NamedIndividual
ei2a: idPersona org:identifier idAux
ei2a: idPersona ei2a:fullName nombrePersona
30
Proceso de
Web
Crawling
31
Solución semántica
Proceso de Web Crawling
32
Interfaz de
definición
del
diccionario
33
Solución semántica
Interfaz de definición del diccionario
34
Solución semántica
Visualizar categorías
35
Solución semántica
Visualizar palabras asociadas a una categoría
36
Solución semántica
Filtrado de categorías por palabras
37
Solución semántica
Añadir palabras asociadas a una categoría
38
Interfaz de
visualización
de
información
en Solr
39
Solución semántica
Interfaz de visualización de información Solr
40
Solución semántica
Ejemplo: Búsqueda por palabras
Identificación
de entidades que
pueden ser de
interés
41
Solución semántica
Ejemplo: Búsqueda avanzada
42
Solución semántica
Ejemplo: Búsqueda avanzada
43
Solución semántica
Ejemplo: Búsqueda avanzada por fecha actualización
44
Solución semántica
Ejemplo: Búsqueda avanzada por Entidades
45
Solución semántica
Ejemplo: Búsqueda por Categoría
46
Solución semántica
Ejemplo: Búsqueda por Categoría
47
Solución semántica
Ejemplo: Ordenar información
48
Ontología EI2A
Ejemplo de desambiguación
49
Interfaz de
visualización
de
información
en Virtuoso
50
Solución semántica
Interfaz de visualización de información Virtuoso
PREFIX org: <http://www.w3.org/ns/org#>
PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#>
PREFIX time: <http://www.w3.org/2006/time>
SELECT ?per ?org ?rol ?start ?end
WHERE {
?idMem org:member ?perID .
?perID ei2a:fullName ?per .
?idMem org:organization ?orgID .
?orgID ei2a:organizationName ?org .
?idMem org:role ?rolID .
Exportable a otros formatos
Datos de personas,
departamento al que
pertenecen, rol que ocupan e
intervalo de duración de ese
cargo
51
Solución semántica
Ejemplo de información en Virtuoso
Exportable a otros formatos
PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#>
PREFIX locn:<http://www.w3.or/ns/locn#>
PREFIX org: <http://www.w3.org/ns/org#>
SELECT ?org ?phone ?add ?CP ?loc ?pro
WHERE {
?orgID org:hasPrimarySite ?sedeID .
?sedeID org:siteAddress ?addID .
?sedeID ei2a:phone ?phone .
?addID locn:fullAddress ?add.
Datos de una organización o
departamento
52
Solución semántica
Ejemplo de información en Virtuoso
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#>
PREFIX webCategory:
<http://opendata.aragon.es/def/ei2a/categorization#>
SELECT ?url ?cat
WHERE {
?idURL ei2a:webPageCategorization ?catID .
?idURL ei2a:URL ?url .
Categorías asociadas a una
web, subdominio o portal
53
Solución semántica
Ejemplo de información en Virtuoso
PREFIX ei2a: http://opendata.aragon.es/def/ei2a#
SELECT ?URL ?sum
WHERE {
?idURL ei2a:summary ?sum .
?idURL ei2a:URL ?URL
}
Resumen de una web,
subdominio o portal
54
Solución semántica
Ejemplo de información en Virtuoso
PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#>
PREFIX locn:<http://www.w3.org/ns/locn#>
SELECT ?name
WHERE {
?ID ei2a:fullName ?name
}
Entidades: Personas,
Organizaciones o
Localizaciones
55
Solución semántica
Ejemplo de información en Virtuoso
PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#>
SELECT ?url ?ent ?date ?set
WHERE {
?citID ei2a:citationOnEntity ?PID .
?citID ei2a:citationOnWebPage ?urlID .
?citID ei2a:citationDate ?date .
?citID ei2a:citationPhrase ?set .
?urlID ei2a:URL ?url .
?PID ?cit ?ent
Citaciones
56
Transferencia
y Difusión
57
Transferencia
Jornada “European Big Data Value Forum”
Celebrada en Versalles la semana del 20 – 24 de Noviembre
ITAINNOVA es miembro del BDVA (Big Data Value Association)
ITAINNOVA disponía de un stand
Se dio a conocer el trabajo realizado en el proyecto Open Data
Folletos
Roll-up
58
Conclusiones y
Resultados
obtenidos
59
Resultados obtenidos y Conclusiones
Identificación del marco jurídico para la extracción, publicación y
reutilización de información extraída en el proceso de Web Crawling
Análisis de las diferentes tendencias y soluciones Web Crawling
Adaptación y mejora del modelo semántico EI2A
Instalación de la infraestructura para dar soporte a la solución semántica
Desarrollo de la solución semántica aplicando técnicas de
Web Crawling
Captura de información
Análisis / procesamiento de la información:
- Stopwords, lematizar, etc.
- Categorizar
- Extracción de entidades nombradas
- Extracción de resúmenes
Almacenamiento de la información
Resultados obtenidos
60
Resultados obtenidos y Conclusiones
Estructuración de datos del Gobierno de Aragón a través del
Resultados obtenidos
Esquema de Información Interoperable de Aragón
(EI2A)
Ejemplo de
aplicación
del EI2A
Personas
Localizaciones
Temporalidad
Organizaciones
Página Web
61
Resultados obtenidos y Conclusiones
Importancia del origen y formatos para la carga de datos iniciales
En general, el modelo genérico presenta gran capacidad de
reconocimiento de entidades. Sin embargo, podría no ser suficiente en
algunos casos
El contexto y el formato textual sobre el que se aplica tienen una gran
influencia en la clasificación de la entidades
Resultados no satisfactorios en los casos donde el formato de texto o el
contexto difieren en mayor medida de la línea común de información textual
en forma de noticia (por ejemplo, determinados pdfs o docs)
Conclusiones
Definir nuevas
entidades según
el contexto
Generar diferentes
modelos matemáticos
según el contexto del
texto
62
¡ Gracias por vuestra atención!
Instituto Tecnológico de Aragón
Paula Peña Larena
Big Data y Sistemas Cognitivos
María de Luna, 7-8 - E-50018 Zaragoza (Spain)
Phone: (+34) 976 011 083 - Fax: (+34) 976 011 888
e-mail: ppena@itainnova.es - http://www.itainnova.es
Instituto Tecnológico de Aragón
Clara Savirón
Desarrollo de Negocio
María de Luna, 7-8 - E-50018 Zaragoza (Spain)
Phone: (+34) 976 011 056 - Fax: (+34) 976 011 888
e-mail: csaviron@itainnova.es - http://www.itainnova.es
Aplicación del EI2A
Recuperación de la información institucional ofrecida en las webs,
subdominios y portales del Gobierno de Aragón
Zaragoza, 1 de Febrero de 2018

Más contenido relacionado

Similar a Aplicación del EI2A Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Zaragoza, 1 de Febrero de 2018

Aspectos técnicos para la puesta en marcha de un Portal de Transparencia
Aspectos técnicos para la puesta en marcha de un Portal de TransparenciaAspectos técnicos para la puesta en marcha de un Portal de Transparencia
Aspectos técnicos para la puesta en marcha de un Portal de TransparenciaTomás Saorín
 
Agrega "Plataforma de Contenidos Digitales Educativos"
Agrega "Plataforma de Contenidos Digitales Educativos"Agrega "Plataforma de Contenidos Digitales Educativos"
Agrega "Plataforma de Contenidos Digitales Educativos"red.es
 
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric LógicoMejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric LógicoDenodo
 
Guillen_Quisca_Lisbeth_Diana .pdf
Guillen_Quisca_Lisbeth_Diana .pdfGuillen_Quisca_Lisbeth_Diana .pdf
Guillen_Quisca_Lisbeth_Diana .pdfJoseEnriqueRojas4
 
Proyecto de Datos Abiertos del Ayuntamiento de Málaga
Proyecto de Datos Abiertos del Ayuntamiento de MálagaProyecto de Datos Abiertos del Ayuntamiento de Málaga
Proyecto de Datos Abiertos del Ayuntamiento de MálagaDavid Bueno Vallejo
 
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASBIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASAragón Open Data
 
#OpenData: Abrir... y abrir bien
#OpenData: Abrir... y abrir bien#OpenData: Abrir... y abrir bien
#OpenData: Abrir... y abrir bienMarc Garriga
 
Aragón Open Data: procesos de apertura y reutilización de datos de archivos y...
Aragón Open Data: procesos de apertura y reutilización de datos de archivos y...Aragón Open Data: procesos de apertura y reutilización de datos de archivos y...
Aragón Open Data: procesos de apertura y reutilización de datos de archivos y...Aragón Open Data
 
Sesion 05 erp
Sesion 05 erpSesion 05 erp
Sesion 05 erpmydraw
 
Presentación tesis final pdf
Presentación tesis final pdfPresentación tesis final pdf
Presentación tesis final pdfAleafrank5
 
Proyecto de transparencia de la Universidad de Granada
Proyecto de transparencia de la Universidad de GranadaProyecto de transparencia de la Universidad de Granada
Proyecto de transparencia de la Universidad de GranadaJaime Torres Benavente
 
Portafolio de Servicios Web - Sispronet & Cia Ltda
Portafolio de Servicios Web - Sispronet & Cia LtdaPortafolio de Servicios Web - Sispronet & Cia Ltda
Portafolio de Servicios Web - Sispronet & Cia Ltda102058_503
 
“Gobierno Electrónico 3.0" Aplicaciones de la Web Semántica a la Administraci...
“Gobierno Electrónico 3.0" Aplicaciones de la Web Semántica a la Administraci...“Gobierno Electrónico 3.0" Aplicaciones de la Web Semántica a la Administraci...
“Gobierno Electrónico 3.0" Aplicaciones de la Web Semántica a la Administraci...Carlos Brys
 
Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)Iniciativa Barcelona Open Data
 
Presentacion.ikanos.workshop
Presentacion.ikanos.workshopPresentacion.ikanos.workshop
Presentacion.ikanos.workshopHEZIKaTe
 

Similar a Aplicación del EI2A Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Zaragoza, 1 de Febrero de 2018 (20)

Evidencias de access
Evidencias de accessEvidencias de access
Evidencias de access
 
Linked data
Linked dataLinked data
Linked data
 
Difusión Estadística en Cantabria
Difusión Estadística en CantabriaDifusión Estadística en Cantabria
Difusión Estadística en Cantabria
 
Aspectos técnicos para la puesta en marcha de un Portal de Transparencia
Aspectos técnicos para la puesta en marcha de un Portal de TransparenciaAspectos técnicos para la puesta en marcha de un Portal de Transparencia
Aspectos técnicos para la puesta en marcha de un Portal de Transparencia
 
Agrega "Plataforma de Contenidos Digitales Educativos"
Agrega "Plataforma de Contenidos Digitales Educativos"Agrega "Plataforma de Contenidos Digitales Educativos"
Agrega "Plataforma de Contenidos Digitales Educativos"
 
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric LógicoMejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
Mejora el Rendimiento y la Gobernanza de tus Datos con un Data Fabric Lógico
 
Guillen_Quisca_Lisbeth_Diana .pdf
Guillen_Quisca_Lisbeth_Diana .pdfGuillen_Quisca_Lisbeth_Diana .pdf
Guillen_Quisca_Lisbeth_Diana .pdf
 
Proyecto de Datos Abiertos del Ayuntamiento de Málaga
Proyecto de Datos Abiertos del Ayuntamiento de MálagaProyecto de Datos Abiertos del Ayuntamiento de Málaga
Proyecto de Datos Abiertos del Ayuntamiento de Málaga
 
Bd
BdBd
Bd
 
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICASBIME HackDay  EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
BIME HackDay EXTRAYENDO LOS DATOS EN LAS ADMINISTRACIONES PÚBLICAS
 
#OpenData: Abrir... y abrir bien
#OpenData: Abrir... y abrir bien#OpenData: Abrir... y abrir bien
#OpenData: Abrir... y abrir bien
 
Aragón Open Data: procesos de apertura y reutilización de datos de archivos y...
Aragón Open Data: procesos de apertura y reutilización de datos de archivos y...Aragón Open Data: procesos de apertura y reutilización de datos de archivos y...
Aragón Open Data: procesos de apertura y reutilización de datos de archivos y...
 
Web mining
Web miningWeb mining
Web mining
 
Sesion 05 erp
Sesion 05 erpSesion 05 erp
Sesion 05 erp
 
Presentación tesis final pdf
Presentación tesis final pdfPresentación tesis final pdf
Presentación tesis final pdf
 
Proyecto de transparencia de la Universidad de Granada
Proyecto de transparencia de la Universidad de GranadaProyecto de transparencia de la Universidad de Granada
Proyecto de transparencia de la Universidad de Granada
 
Portafolio de Servicios Web - Sispronet & Cia Ltda
Portafolio de Servicios Web - Sispronet & Cia LtdaPortafolio de Servicios Web - Sispronet & Cia Ltda
Portafolio de Servicios Web - Sispronet & Cia Ltda
 
“Gobierno Electrónico 3.0" Aplicaciones de la Web Semántica a la Administraci...
“Gobierno Electrónico 3.0" Aplicaciones de la Web Semántica a la Administraci...“Gobierno Electrónico 3.0" Aplicaciones de la Web Semántica a la Administraci...
“Gobierno Electrónico 3.0" Aplicaciones de la Web Semántica a la Administraci...
 
Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)
 
Presentacion.ikanos.workshop
Presentacion.ikanos.workshopPresentacion.ikanos.workshop
Presentacion.ikanos.workshop
 

Último

POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxRogerPrieto3
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 

Último (15)

POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptx
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 

Aplicación del EI2A Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Zaragoza, 1 de Febrero de 2018

  • 1. Aplicación del EI2A Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Zaragoza, 1 de Febrero de 2018
  • 2. 2 Contenidos Introducción Antecedentes Trabajos realizados en el contexto de Aragón Open Data Automatización en la gestión de la información Dificultad de acceso y uso de la información Resultados obtenidos Conclusiones
  • 4. 4 Introducción Antecedentes Aragón Open Data1, proyecto de apertura de datos públicos Se atribuyen competencias con los objetivos de crear valor económico en el sector TIC a través de Reutilización de la información pública Aumentar la transparencia en la Administración Fomentar la innovación Mejorar los sistemas de información de la Administración Generar interoperabilidad de datos entre webs del sector público Elaborar directrices y adoptar estándares (interoperabilidad) 1 http://opendata.aragon.es Se han realizado numerosos trabajos
  • 7. 7 Desafío Automatización en la gestión de la información Necesidad de Mejorar la reutilización por terceros
  • 8. 8 Desafío Automatización en la gestión de información Surge la necesidad de Generar un conjunto de reglas técnicas y legales que permitan profundizar en la estandarización de información del Gobierno de Aragón Esquema de Información Interoperable de Aragón (EI2A)
  • 9. 9 Desafío Propuesta ontológica EI2A Personas Geometría Geo- localizaciones Datos bancarios Territorios EventosTemporalidad Direcciones físicasDocumentos Organizaciones
  • 10. 10 Desafío Trabajo realizado Identificar, estudiar y analizar tendencias actuales de I+D en relación a Ontologías y diccionarios de interoperabilidad de datos Definir la propuesta ontológica Reutilización de ontologías y vocabularios existentes Avaladas por W3C y directivas europeas Generar versiones Texto Web1 1 http://opendata.aragon.es/def/ei2a/index.htm locn org eventtime person geoschema dc skosfoaf
  • 11. 11 Desafío: “Dificultad de acceso y uso de información”
  • 12. 12 Desafío Dificultad de acceso y uso de información
  • 13. 13 Desafíos Dificultad de acceso y uso de la información Surge la idea de Recuperar la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Ofrecer dicha información de manera estructurada y controlada desde un único punto de acceso Comprobar, mediante casos reales y prácticos, la aplicación del EI2A
  • 14. 14 Desafíos Punto de partida Elevado número de webs, subdominio o portales
  • 16. 16 Desafío ¿Cómo? Aplicando técnicas de Web crawling, spidering o araña sobre los dominios existentes del Gobierno de Aragón Técnicas de captura de información Técnicas de análisis / procesamiento de información stopwords, lematizar, sinónimos, diccionarios categorización extracción de entidades nombradas extracción de resúmenes Técnicas de almacenamiento de la información Identificando el marco técnico-jurídico aplicable al uso de técnicas de Web Crawling Adaptando y mejorando el EI2A
  • 17. 17 Acciones desde el punto de vista jurídico
  • 18. 18 Acciones desde el punto de vista jurídico Objetivo Identificar el marco técnico-jurídico aplicable al uso de técnicas de Web Crawling Analizar y evaluar la obtención de información de las webs Definir requerimientos a satisfacer desde una perspectiva jurídica Adicionalmente, analizar la publicación de la información obtenida los límites aplicables a la misma los términos en los que pueda autorizarse su reutilización
  • 19. 19 Acciones desde el punto de vista jurídico Trabajos realizados Informe sobre la publicación de la información extraída Seguimiento de las acciones de extracción de la información Estudio preliminar y metodología jurídica
  • 21. 21 Web Crawling Diseño de una Metodología Desarrollo de una metodología para el análisis de las diferentes soluciones de web crawling Listado de soluciones existentes Filtrado en base a criterios de licenciamiento y actualización Captura de propiedades avanzadas Filtrado en base a criterios para ejecutar pruebas funcionales Ejecución de pruebas y selección de la solución crawler4j
  • 23. 23 Ontología EI2A Adaptación y mejoras del modelo semántico Personas LocalizacionesOrganizaciones
  • 24. 24 Ontología EI2A Adaptación y mejoras del modelo semántico WebPage WebPage01 ei2a:citationOnWebPage ei2a:CitationOnEntity Citation Citation01 person:Person Persona01 locn:Location Location01 ei2a:isCited WebPageCategorization WebPageCategorization01 ei2a: webPageCategorization ei2a:isWebPageOf org:Organization Organization01
  • 25. 25 Ontología EI2A Formalización y codificación del modelo conceptual Protégé Home Page (http://protege.stanford.edu/) ; OWLGrEd (http://owlgred.lumii.lv/)
  • 26. 26 Ontología EI2A Publicación del modelo semántico http://opendata.aragon.es/def/ei2a/index.htm
  • 29. 29 Solución semántica Proceso de carga de datos organizacionales ORG_ENTIDAD.cvs ORG_CARGO.csv ORG_LEGISLATURA.csv Personal del organigrama actual del Gobierno de Aragón Cargos que desempeñan Entidad o departamento al que pertenecen Dependencias de un departamento con otros Dirección en la que se ubican (código postal, provincia,…) Teléfono Intervalo de tiempo de la ocupación de ese cargo que va ligado básicamente con la legislatura //Para personas ei2a: idPersona rdf:type person:Person ei2a: idPersona rdf:type owl:NamedIndividual ei2a: idPersona org:identifier idAux ei2a: idPersona ei2a:fullName nombrePersona
  • 33. 33 Solución semántica Interfaz de definición del diccionario
  • 35. 35 Solución semántica Visualizar palabras asociadas a una categoría
  • 36. 36 Solución semántica Filtrado de categorías por palabras
  • 37. 37 Solución semántica Añadir palabras asociadas a una categoría
  • 39. 39 Solución semántica Interfaz de visualización de información Solr
  • 40. 40 Solución semántica Ejemplo: Búsqueda por palabras Identificación de entidades que pueden ser de interés
  • 43. 43 Solución semántica Ejemplo: Búsqueda avanzada por fecha actualización
  • 48. 48 Ontología EI2A Ejemplo de desambiguación
  • 50. 50 Solución semántica Interfaz de visualización de información Virtuoso PREFIX org: <http://www.w3.org/ns/org#> PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#> PREFIX time: <http://www.w3.org/2006/time> SELECT ?per ?org ?rol ?start ?end WHERE { ?idMem org:member ?perID . ?perID ei2a:fullName ?per . ?idMem org:organization ?orgID . ?orgID ei2a:organizationName ?org . ?idMem org:role ?rolID . Exportable a otros formatos Datos de personas, departamento al que pertenecen, rol que ocupan e intervalo de duración de ese cargo
  • 51. 51 Solución semántica Ejemplo de información en Virtuoso Exportable a otros formatos PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#> PREFIX locn:<http://www.w3.or/ns/locn#> PREFIX org: <http://www.w3.org/ns/org#> SELECT ?org ?phone ?add ?CP ?loc ?pro WHERE { ?orgID org:hasPrimarySite ?sedeID . ?sedeID org:siteAddress ?addID . ?sedeID ei2a:phone ?phone . ?addID locn:fullAddress ?add. Datos de una organización o departamento
  • 52. 52 Solución semántica Ejemplo de información en Virtuoso PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#> PREFIX webCategory: <http://opendata.aragon.es/def/ei2a/categorization#> SELECT ?url ?cat WHERE { ?idURL ei2a:webPageCategorization ?catID . ?idURL ei2a:URL ?url . Categorías asociadas a una web, subdominio o portal
  • 53. 53 Solución semántica Ejemplo de información en Virtuoso PREFIX ei2a: http://opendata.aragon.es/def/ei2a# SELECT ?URL ?sum WHERE { ?idURL ei2a:summary ?sum . ?idURL ei2a:URL ?URL } Resumen de una web, subdominio o portal
  • 54. 54 Solución semántica Ejemplo de información en Virtuoso PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#> PREFIX locn:<http://www.w3.org/ns/locn#> SELECT ?name WHERE { ?ID ei2a:fullName ?name } Entidades: Personas, Organizaciones o Localizaciones
  • 55. 55 Solución semántica Ejemplo de información en Virtuoso PREFIX ei2a: <http://opendata.aragon.es/def/ei2a#> SELECT ?url ?ent ?date ?set WHERE { ?citID ei2a:citationOnEntity ?PID . ?citID ei2a:citationOnWebPage ?urlID . ?citID ei2a:citationDate ?date . ?citID ei2a:citationPhrase ?set . ?urlID ei2a:URL ?url . ?PID ?cit ?ent Citaciones
  • 57. 57 Transferencia Jornada “European Big Data Value Forum” Celebrada en Versalles la semana del 20 – 24 de Noviembre ITAINNOVA es miembro del BDVA (Big Data Value Association) ITAINNOVA disponía de un stand Se dio a conocer el trabajo realizado en el proyecto Open Data Folletos Roll-up
  • 59. 59 Resultados obtenidos y Conclusiones Identificación del marco jurídico para la extracción, publicación y reutilización de información extraída en el proceso de Web Crawling Análisis de las diferentes tendencias y soluciones Web Crawling Adaptación y mejora del modelo semántico EI2A Instalación de la infraestructura para dar soporte a la solución semántica Desarrollo de la solución semántica aplicando técnicas de Web Crawling Captura de información Análisis / procesamiento de la información: - Stopwords, lematizar, etc. - Categorizar - Extracción de entidades nombradas - Extracción de resúmenes Almacenamiento de la información Resultados obtenidos
  • 60. 60 Resultados obtenidos y Conclusiones Estructuración de datos del Gobierno de Aragón a través del Resultados obtenidos Esquema de Información Interoperable de Aragón (EI2A) Ejemplo de aplicación del EI2A Personas Localizaciones Temporalidad Organizaciones Página Web
  • 61. 61 Resultados obtenidos y Conclusiones Importancia del origen y formatos para la carga de datos iniciales En general, el modelo genérico presenta gran capacidad de reconocimiento de entidades. Sin embargo, podría no ser suficiente en algunos casos El contexto y el formato textual sobre el que se aplica tienen una gran influencia en la clasificación de la entidades Resultados no satisfactorios en los casos donde el formato de texto o el contexto difieren en mayor medida de la línea común de información textual en forma de noticia (por ejemplo, determinados pdfs o docs) Conclusiones Definir nuevas entidades según el contexto Generar diferentes modelos matemáticos según el contexto del texto
  • 62. 62 ¡ Gracias por vuestra atención! Instituto Tecnológico de Aragón Paula Peña Larena Big Data y Sistemas Cognitivos María de Luna, 7-8 - E-50018 Zaragoza (Spain) Phone: (+34) 976 011 083 - Fax: (+34) 976 011 888 e-mail: ppena@itainnova.es - http://www.itainnova.es Instituto Tecnológico de Aragón Clara Savirón Desarrollo de Negocio María de Luna, 7-8 - E-50018 Zaragoza (Spain) Phone: (+34) 976 011 056 - Fax: (+34) 976 011 888 e-mail: csaviron@itainnova.es - http://www.itainnova.es
  • 63. Aplicación del EI2A Recuperación de la información institucional ofrecida en las webs, subdominios y portales del Gobierno de Aragón Zaragoza, 1 de Febrero de 2018