Presentación compartida con @elpbatista en el FLISOL 2017 en La Habana, en abril de 2017, sobre herramientas de código abierto con aplicación en periodismo de datos.
6. • pdf
• txt, odf, doc,
• CSV, TSV, *SV
• xls, xlsx, ods
• Html, xml
• Jpeg, png, tiff
• gis
• db
• Json
• geojson, osm, kml
Datos / Formatos
7. Datos
Obtención
• Recolección directa (encuestas, drones,
sensores, GPS, etc.)
• Copia de un dispositivo a otro
• Escaneo/OCR de documentos impresos
• Descarga de internet
• Consulta de API
• Filtraciones empresariales/institucionales
• Extracción automátizada (scraping)
• Solicitud via ley de libertad de información
9. Programas / Criterios de selección
Programas para
trabajo con datos
Propietarios Libres / Código abierto
Herramientas web
no instalables Instalables /Desktop
Dependen de conexión
a internet para funcionar No dependen de
conexión a internet
11. Tabula
“Tabula es una herramienta para liberar tablas
de datos atrapadas dentro de archivos PDF”
“Siempre será libre y de código abierto”
Tomado de “Acerca de Tabula” (en instalación del progama)
13. Tabula
• CSV
• TSV
• JSON
• ZIP (de CSV)
• SCRIPT (Markup)
PDF basado en texto
(no funciona con archivos
basados en imágenes)
14. Tabula
SO: Mac, Windows y Linux
Ej. medios de prensa que la usan
• ProPublica
• The Times of London
• Foreign Policy
• La Nación (Argentina)
• St. Paul (MN) Pioneer Press
15. Tabula
SO: Mac, Windows y Linux
Proyecto en Github:
https://github.com/tabulapdf/tabula
Creada por:
Manuel Aristarán, Mike Tigas, Jeremy B. Merrill
Con apoyo de:
ProPublica,
La Nación DATA,
Knight-Mozilla OpenNews,
The New York Times
Knight Foundation
21. Open Refine
Usos:
- Limpieza de conjuntos de datos
- Conversión de un formato a otro
- Obtención de datos de sitios web
- Enriquecimiento de conjuntos de datos
con más datos obtenidos de Freebase
22. Open Refine
Originalmente desarrollado por Metaweb
Technologies, Inc. como "Freebase
Gridworks" – libre desde enero 2010
Google Refine en julio 2010
OpenRefine en octubre de 2012
24. Open Refine
TSV, CSV, *SV,
Excel (.xls, .xlsx),
JSON,
XML,
RDF as XML,
Google Data documents
Otros formatos
disponibles mediante
extensiones
Formatos de entrada:
27. Neo4j
Sistema de gestión de bases de datos gráficas
Neo Technology, Inc. (EE.UU.-Suecia)
v 1.0 lanzada en febrero de 2010
V 2.0 lanzada en diciembre de 2013
29. Neo4j
Licencias:
• Versión de comunidad - GNU General
Public License (GPL) v3.
• Módulos adicionales – backup online –
Affero General Public License (AGPL) v3.
• Comercial
30. Neo4j
Tomado de Graph Databases: New opportunities for connected data,
de Ian Robinson, Jim Webber, y Emil Eifrem. O´Reilly Media, Inc. 2015
31. Neo4j
Tomado de Graph Databases: New opportunities for connected data,
de Ian Robinson, Jim Webber, y Emil Eifrem. O´Reilly Media, Inc. 2015
38. RStudio
Entorno de desarrollo integrado (IDE) para R
R es un lenguaje de programación para cálculo estadístico y
creación de gráficos
Disponible para Windows, Mac, Linux