Captura y visualización de datos abiertos para acciones ciudadanas
1. Captura y visualización de datos
abiertos para acciones ciudadanas
Unai Aguilera
unai.aguilera@deusto.es
@unaguil
I Jornada de Periodismo de Datos y Open Data
Universidad de Deusto, Donostia
24 de mayo de 2013
3. "When information was scarce, most of our efforts were
devoted to hunting and gathering. Now that information
is abundant, processing is more important."
Philip Meyer, Professor Emeritus, University of
North Carolina at Chapel Hill
"The unifying goal is a journalistic one: providing
information and analysis to help inform us all about
important issues of the day."
Aron Pilhofer, New York Times
"It used to be that you would get stories by chatting to people in bars,
and it still might be that you’ll do it that way sometimes. But now it’s
also going to be about poring over data and equipping yourself with the
tools to analyze it and picking out what’s interesting."
Tim Berners-Lee, founder of the World Wide Web
Periodismo de datos
4. Do not Harm, Las Vegas Sun (2010)
http://www.lasvegassun.com/hospital-care/
2,9 millones de facturas analizadas
Detectados 3600 errores prevenibles
Resultado
6 modificaciones ley sanitaria
5. Iraq War Logs, Associated Press
http://overview.ap.org/blog/2010/12/a-full-text-visualization-of-the-iraq-war-logs/
11,616 SIGACT informes desde diciembre 2006
Búsqueda de palabras relacionadas
Clusterización
Enfatizar visualmente la estructura
6. El indultómetro, Fundación Civio
http://www.elindultometro.es/
Uso y posible abuso de la ley de indulto
Información del BOE desde 1996
Análisis gráfico
Tiempo medio de indulto
Histórico de indultos
Indultos destacados
9. Catálogos de datos
Datos abiertos
http://datahub.io/
http://opendata.euskadi.net/
http://datacatalogs.org/
Empresas privadas
http://datamarket.com/
Datos abiertos y de pago
Google
10. Búsqueda de datos
Buscador
Proceso más costoso
Conjuntos de datos duplicados
Sin catalogar
Origen dudoso
Licencias de uso
desempleo filetype:CSV
Tipo de fichero
desempleo filetype:XLS
desempleo filetype:RDF desempleo filetype:PDF
11. De personas y máquinas
Orientada a personas
Representación visual (HTML + CSS)
Documentos PDF
Difíciles de procesar (PDF Miner)
API web
http://www.justizia.net/
Web scraping
Scripting
Python+Beautiful Soap
Ejemplo
https://github.com/RHoK-
Bilbao/desahucios
12. Machine readable data
Listado personas desaparecidas durante la Guerra Civil y
el Franquismo (9600 entradas)
Fuente de datos: Justicia y Administración Pública. Gobierno Vasco
http://opendata.euskadi.net/w79-
contdata/es/contenidos/ds_general/personas_desaparecidas/es_desapare/personas_desaparecida
s.html
Nombre
Vecindad
Lugar muerte
Fecha muerte
Causa
Datos
¿Qué podemos preguntar?
13. Google Fusion Tables
Listado personas desaparecidas durante la Guerra Civil y
el Franquismo (solo 300 primeras / 9600 entradas)
Fuente de datos: Justicia y Administración Pública. Gobierno Vasco
14. Linked Data
Sir Tim Berners-Lee
LOD - Linked Open Data Cloud
Mecanismos básicos de la web
Aplicados a datos
HTTP -> Enlaces
URIs -> Recursos
RDF -> Estructura
http://5stardata.info/
15. RDF + Linked Data
http://helheim.deusto.es/bizkaisense
Ontologías
+Semantic
Sensor
Network
Semantic Web
for Earth and
Environmental
Terminology
http://ckan.linkeddata.es/dataset/bizkaisense
Publicación Aplicación web
Proyecto Bizkaisense
27. Proyecto LinkedStats
Mapa de calor (OpenLayers)
Kg residuos/persona
Progresión temporal
Gráficas por municipio (NVD3.JS)
Datos utilizados
Residuos
Diputación de Bizkaia
(PDF Scraping)
Copy & Paste - ing
Población
INS
(Fichero CSV)
http://helheim.deusto.es/linkedstats/
Autor
Jon Lázaro
32. Referencias
European Public Data Show Case
http://publicdata.eu/
http://datajournalismhandbook.org
Data Journalism Handbook
Licencia Creative Commons
Now You See It: Simple
Visualization Techniques
for Quantitative Analysis
Python Programming Language
http://python.org/