En esta presentación mostramos el trabajo realizado para la generación y publicación de datos enlazados a partir de los datos de estadística local del Instituto Aragonés de Estadística
Generación de datos estadísticos enlazados del Instituto Aragonés de Estadística
1. César Cano (IAEst), María José Laplana (IAEst),
Oscar Corcho (UPM/Localidata, @ocorcho),
Hugo Lafuente (Localidata), David Portolés (Idearium Consultores)
Disponibles en http://www.slideshare.net/ocorcho/
Generación de datos estadísticos enlazados del
Instituto Aragonés de Estadística
1
Plantilla: David Portolés
2. License
• This work is licensed under the license
CC BY-NC-SA 4.0 International
• http://purl.org/NET/rdflicense/cc-by-nc-sa4.0
• You are free:
• to Share — to copy, distribute and transmit the work
• to Remix — to adapt the work
• Under the following conditions
• Attribution — You must attribute the work by inserting
• “[source Oscar Corcho]” at the footer of each reused slide
• a credits slide stating: “These slides are partially based on “Generación de
datos estadísticos enlazados del Instituto Aragonés de Estadística” by O.
Corcho and colleagues”
• Non-commercial
• Share-Alike
2
4. Necesidades del IAEST
Gestión centralizada de las bases de datos
Tratamiento homogéneo de las clasificaciones
(Territorio, nacionalidad, CNAE,…)
Nuevo proyecto de difusión web de información
estadística por territorio
Estadística local
5. Implantación de un sistema de Data Warehouse en el
Instituto Aragonés de Estadística.
Solución
8. Datos de estadística local
• En la Web del IAEst
• http://www.aragon.es/DepartamentosOrganis
mosPublicos/Institutos/InstitutoAragonesEsta
distica/AreasGenericas/ci.EstadisticaLocal.det
alleDepartamento
• En OpenDataAragón
• http://opendata.aragon.es/catalogo/edificios-
superficie-y-vivienda-comarcas
11. ¿Qué son los datos enlazados?
1. Usar URIs para
identificar recursos
2. Usar HTTP URIs para
poder recuperar datos
de esas URIs
3. Cuando alguien acceda
a una URI, proporcionar
información útil (RDF,
JSON, SPARQL)
4. Incluir enlaces a otras
URIs.
• http://www.w3.org/DesignIssues/
LinkedData.html
12. ¿Y los datos estadísticos
enlazados? W3C Data Cube
1212
http://www.w3.org/TR/vocab-data-cube/
Publicación de datos multi-dimensionales en la Web
13. ¿Y los datos estadísticos
enlazados? W3C Data Cube
1313
14. ¿Por qué lo hacemos?
• Porque mis vecinos o colegas lo hacen
• Parte del ESS Vision 2020 (DIGICOM – WP3)
• http://ec.europa.eu/eurostat/web/ess/digicom
• Cantabria ya hizo sus pinitos
• Aunque no se está usando mucho… ;-( ¿Lecciones aprendidas?
15. ¿Por qué lo hacemos?
• Porque nos han dicho que tenemos que publicar “datos
abiertos” y queremos tener 5 estrellas
16. ¿Por qué? Ahora de verdad…
• Porque pensamos en los que usarán nuestros datos
• ¿Son suficientes los formatos de datos que proporcionamos?
¿Conocen PCAxis, SDMX? ¿O prefieren CSVs/Excels?
• ¿Podemos facilitar los datos más integrados con otros datos de
de la administración (Open Data Aragón, Ayuntamientos, etc.)?
• Facilitar el uso de nuestros datos por terceros
reutilizadores (no estadísticos)
• APIs de acceso a los datos (JSON, RDF, HTML)
• Curación de nuestros datos publicados por terceros
• Mejora de la descripción de nuestros conjuntos de datos
(columnas que no se publican porque ya están en la descripción
de la metodología – ej., el año de referencia)
17. ¿Por qué? Ahora de verdad…
• Homogeneizar y publicar abiertamente nuestras codelists
18. ¿Por qué? Ahora de verdad…
• Pasar de una orientación basada en la publicación de
conjuntos de datos / informes a una publicación de
granularidad más fina (por observación)
• Por ejemplo, un periodista puede hacer referencia directa, en
una noticia, a un dato concreto
• “En el año 1998 en Zaragoza había 42916 mujeres en el rango de edad de 0
a 15 años” (enlace: http://opendata.aragon.es/recurso/iaest/observacion/03-
030005TM/50a0a5b9-cb76-37f4-961c-8abdf1c458e3)
• “La tendencia de población de 0 a 15 años en mujeres en Zaragoza creció
hasta el 2013 y luego ha ido descendiendo levemente” (enlace:
https://github.com/aragonopendata/local-data-
aragopedia/blob/master/consultas.md)
• ¿Podemos permitir consultas más complejas y sobre varios
conjuntos de datos a la vez sin obligar a descargar y procesar
datos en local?
20. Proceso de transformación
bi.aragon.es
Google
Drive
Descarga de
datasets y
configuraciones
¿Dataset
nuevo?
GitHub
Sí
Por cada
dataset
Genera
configuración nueva
y crea issue
¿Nueva
estructura?
No
Crea issue
Sí
¿Nuevos
datos?
Regenera
datos y
crea issue
No
Sí
SPARQL
22. API de datos
• http://opendata.aragon.es/portal/desarrolladores
• API AragoDBpedia 2.0
23. API de datos (I)
• http://opendata.aragon.es/bancodatos/doc/
• Observaciones
• Todas las observaciones
• Una observación, dado dataset e id
• Data Structure Definitions (DSDs)
• DSD asociado a un cubo de datos
• Todas las propiedades / dimensiones / medidas
• Una dimensión dado su nombre normalizado
• Una medida dado su nombre normalizado
24. API de datos (II)
• Cubos de datos
• Todos los cubos de datos
• Cubos de datos dado…
• Título o parte del título
• Identificador
• Un valor de una dimensión específica / de cualquier dimensión
• Un valor de una medida específica / de cualquier medida
• Cubos de datos que contienen una dimensión específica / una medida
específica
• Cubos de datos que afectan a municipios / comarcas / provincias /
comunidades autónomas
25. API de datos (III). Listas de
códigos
• No jerárquicos
• http://opendata.aragon.es/kos/iaest/clase-de-propietario
• http://opendata.aragon.es/kos/iaest/clase-de-propietario/la-
comunidad
• Jerárquico
• http://opendata.aragon.es/kos/iaest/clase-vivienda
• http://opendata.aragon.es/kos/iaest/clase-vivienda/familiar
26. Punto SPARQL
La tendencia de población de 0 a 15 años en mujeres en
Zaragoza creció hasta el 2013 y luego ha ido descendiendo
levemente
select distinct ?year ?personas
where
{
?x a qb:Observation .
?x qb:dataSet <http://opendata.aragon.es/recurso/iaest/dataset/03-030005TM>
. #Pirámide Población Grandes Grupos
?x <http://purl.org/linked-data/sdmx/2009/dimension#refPeriod> ?year .
?x <http://purl.org/linked-data/sdmx/2009/dimension#refArea>
<http://opendata.aragon.es/recurso/territorio/Municipio/Zaragoza>.
?x <http://opendata.aragon.es/def/iaest/dimension#edad-grandes-grupos>
<http://opendata.aragon.es/kos/iaest/edad-grandes-grupos/0-a-15> .
?x <http://opendata.aragon.es/def/iaest/dimension#sexo>
<http://opendata.aragon.es/kos/iaest/sexo/mujeres>.
?x <http://opendata.aragon.es/def/iaest/medida#personas> ?personas .
} ORDER BY ?year
28. Conclusiones
• Un despliegue completo de datos de estadística local
como datos enlazados
• Añade una nueva forma de acceso a los datos, más allá de los
informes
• Se enlaza con datos procedentes de otras fuentes de Aragón
(por ejemplo, Aragopedia)
• Permite hacer consultas sin descargar los datos previamente
• Un proceso aplicable a un corpus de CSVs
• Basado en GitHub
• Y por supuesto también con formatos más ricos (p.ej., PCAxis,
SDMX)
• Todo disponible como código abierto
• https://github.com/aragonopendata/local-data-aragopedia
29. César Cano (IAEst), María José Laplana (IAEst),
Oscar Corcho (UPM/Localidata, @ocorcho),
Hugo Lafuente (Localidata), David Portolés (Idearium Consultores)
Disponibles en http://www.slideshare.net/ocorcho/
Generación de datos estadísticos enlazados del
Instituto Aragonés de Estadística
29
Plantilla: David Portolés