Trabajando con
Datos
DATA PIPELINE
Julio Lopez
@jalp_ec
@EscuelaDeDatos
¿OPEN DATA?
Hola
Mi nombre es Julio (@jalp_ec), soy de Ecuador tengo 27 años, peso
75 kg (no es cierto) y me encanta andar en bicicleta
Hola
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 200, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Hola
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 18, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Hola.csv
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 18, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Datos
• Dataset: Una colección de Datos, usualmente el
mismo tipo de datos. Ejemplo: Alumnos de este taller; un
Álbum de Canciones
• Metadata: Datos sobre los Datos. De dónde vienen,
cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus
nombres, medio en el cual trabajan, sección, rol, desdecuándo.
Nombre del álbum, autor, canciones, duración, sello, estilo, etc.
• Datos Abiertos: Datos liberados y que cualquiera
tiene permitido usar,reusar, construir cosas con ellos y compartir
los resultados
¿Cómo empezamos a trabajar?
El “Data Pipeline” inicia
planteándose una pregunta para
luego encontrar la información,
extraerla, limpiarla, verificarla,
analizarla y presentarla.
http://es.schoolofdata.org/tag/pipeline/#sth
ash.1hteD09x.dpuf
Data Pipeline
Comenzamos con una o más preguntas
¿Qué sucede en mi país?
¿En qué se gasta el presupuesto público?
¿Cuántos partidos ganó mi selección?
Y así…..
1
2 Obtener la información
Algunas fuentes y portales
oficiales de datos
O haciendo uso de pedidos de
acceso a la información
HACKEANDO
Nerd Moment
Extracción (Hackeand0). Acá los datos se
convierten desde cualquier formato de entrada
que se ha adquirido (por ejemplo, archivos
XLS, PDF o incluso documentos de texto
plano) en una forma que se puede utilizar para
su posterior procesamiento y análisis.
La mayoría de veces implica cargar los datos en un
sistema de base de datos, como MySQL o
PostgreSQL.
O si eres más c00l MongoDB, Redis, SQLite, etc.
SCRAPPING
• Scraping es un término que, traducido al español,
literalmente quiere decir “rascado”. Sin embargo, en
este contexto, se refiere a la limpieza y filtro de los
datos.
• http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-
sitios-web-scraping/#sthash.0qgjKaad.dpuf
• ImportHTML en Google Spreadsheets
3 Extraer
• The Google spreadsheet formula:
=importHTML("","table",N)
=importHTML("http://en.wikipedia.org/wiki/List_of_largest_United
_Kingdom_settlements_by_population","table",2) - See more at:
http://schoolofdata.org/handbook/recipes/liberating-html-
tables/#sthash.tDFCZOhd.dpuf
IMPORTDATA o
IMPORTXML
Extraer los datos
• Tabula Permite extraer tablas de PDFs.
• SmallPDF y Nitro Permiten convertir archivos de
PDF a csv. La versión gratuita de Nitro permite un
máximo de 50 páginas.
• Import.io Permite scrappear de manera fácil
algunos sitios web
Limpiar los datos
• Buscar+Reemplazar: Permite fácilmente buscar
términos en la hoja de cálculo y reemplazarlos por
otros (google docs)
• Open Refine: Permite limpiar, modificar y exportar
bases de datos. Además es gratuita.
4
Análisis de datos
• Pivot Tables Una herramienta simple pero
poderosa que permite hacer y responder preguntas
con los datos.
• R para los usuarios más avanzados, R es un
lenguaje y entorno de programación para el análisis
estadístico. Es gratuito y de software libre.
5
Visualización6
• Con infogram se pueden crear gráficos e infografías
con un par de clicks. La herramienta es gratuita aunque
para usar todas sus opciones se requiere pagar una
cuota.
• CartoDB es ideal para visualizar información
geolocalizada.
• Tableau Public El programa se descarga y offline
permite hacer diferentes tipos de visualizaciones.
• Datawrapper Útil para hacer diferentes tipos de
gráficos, todo de forma gratuita.
• Google Fusion Tables Permite organizar, visualizar y
compartir información organizada en tablas de datos.
Data Pipeline
¿Cómo se implementa?
• Skillshares (online)
• Blog y web
• Data workshops (offline)
• Expedición de datos (online y offline)
• Other events and Data Projects – Collaborations
Expedición de Datos
¡Muchas gracias!
@jalp_ec
@EscuelaDeDatos
@SchoolOfData
10 min
Tarea: Encuentra una página web con una tabla y obtén
información de ella.
http://schoolofdata.org/handbook/recipes/liberating-
html-tables/
http://schoolofdata.org/handbook/recipes/scraper-
extension-for-chrome/
• Una vez que tengas la tabla en tu hoja de cálculo, lo más
seguro es que quieras jugar con los datos o cambiarlos
de hoja. Haz clic en el botón superior izquierdo y
selecciona paste special (pegado especial) y luego paste
values only (pegar sólo valores).
Desafío: Ayuda a liberar el
presupuesto
Tarea: ¡Encuentra un PDF encarcelado que puedas
liberar!
• Por ejemplo, existen muchos PDFs que necesitan tu
ayuda en este link: Budget Library of the
International Budget Partnership.
Liberar el presupuesto
Una vez que liberes tus datos, compártelos con
alguien y ahórrales el penoso trabajo. Incluso los pues
subir al OpenSpending group en Datahub o al
OpenSpending Mailing List , complementado con una
explicación de lo que hiciste.

Data pipeline

  • 1.
    Trabajando con Datos DATA PIPELINE JulioLopez @jalp_ec @EscuelaDeDatos
  • 3.
  • 4.
    Hola Mi nombre esJulio (@jalp_ec), soy de Ecuador tengo 27 años, peso 75 kg (no es cierto) y me encanta andar en bicicleta
  • 5.
    Hola Nombre, País, Edad,Peso, Pasatiempo, Twitter Julio, Ecuador, 27, 75, bicicleta, @mexflow Alvaro, Chile, 200, 90, rock, @redmatriz Daniel, Uruguay, 20, 120, mate, @danielcarranza
  • 6.
    Hola Nombre, País, Edad,Peso, Pasatiempo, Twitter Julio, Ecuador, 27, 75, bicicleta, @mexflow Alvaro, Chile, 18, 90, rock, @redmatriz Daniel, Uruguay, 20, 120, mate, @danielcarranza
  • 7.
    Hola.csv Nombre, País, Edad,Peso, Pasatiempo, Twitter Julio, Ecuador, 27, 75, bicicleta, @mexflow Alvaro, Chile, 18, 90, rock, @redmatriz Daniel, Uruguay, 20, 120, mate, @danielcarranza
  • 9.
    Datos • Dataset: Unacolección de Datos, usualmente el mismo tipo de datos. Ejemplo: Alumnos de este taller; un Álbum de Canciones • Metadata: Datos sobre los Datos. De dónde vienen, cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus nombres, medio en el cual trabajan, sección, rol, desdecuándo. Nombre del álbum, autor, canciones, duración, sello, estilo, etc. • Datos Abiertos: Datos liberados y que cualquiera tiene permitido usar,reusar, construir cosas con ellos y compartir los resultados
  • 10.
    ¿Cómo empezamos atrabajar? El “Data Pipeline” inicia planteándose una pregunta para luego encontrar la información, extraerla, limpiarla, verificarla, analizarla y presentarla. http://es.schoolofdata.org/tag/pipeline/#sth ash.1hteD09x.dpuf
  • 11.
  • 12.
    Comenzamos con unao más preguntas ¿Qué sucede en mi país? ¿En qué se gasta el presupuesto público? ¿Cuántos partidos ganó mi selección? Y así….. 1
  • 13.
    2 Obtener lainformación Algunas fuentes y portales oficiales de datos O haciendo uso de pedidos de acceso a la información HACKEANDO
  • 14.
    Nerd Moment Extracción (Hackeand0).Acá los datos se convierten desde cualquier formato de entrada que se ha adquirido (por ejemplo, archivos XLS, PDF o incluso documentos de texto plano) en una forma que se puede utilizar para su posterior procesamiento y análisis. La mayoría de veces implica cargar los datos en un sistema de base de datos, como MySQL o PostgreSQL. O si eres más c00l MongoDB, Redis, SQLite, etc.
  • 15.
    SCRAPPING • Scraping esun término que, traducido al español, literalmente quiere decir “rascado”. Sin embargo, en este contexto, se refiere a la limpieza y filtro de los datos. • http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de- sitios-web-scraping/#sthash.0qgjKaad.dpuf • ImportHTML en Google Spreadsheets 3 Extraer
  • 16.
    • The Googlespreadsheet formula: =importHTML("","table",N) =importHTML("http://en.wikipedia.org/wiki/List_of_largest_United _Kingdom_settlements_by_population","table",2) - See more at: http://schoolofdata.org/handbook/recipes/liberating-html- tables/#sthash.tDFCZOhd.dpuf IMPORTDATA o IMPORTXML
  • 17.
    Extraer los datos •Tabula Permite extraer tablas de PDFs. • SmallPDF y Nitro Permiten convertir archivos de PDF a csv. La versión gratuita de Nitro permite un máximo de 50 páginas. • Import.io Permite scrappear de manera fácil algunos sitios web
  • 18.
    Limpiar los datos •Buscar+Reemplazar: Permite fácilmente buscar términos en la hoja de cálculo y reemplazarlos por otros (google docs) • Open Refine: Permite limpiar, modificar y exportar bases de datos. Además es gratuita. 4
  • 19.
    Análisis de datos •Pivot Tables Una herramienta simple pero poderosa que permite hacer y responder preguntas con los datos. • R para los usuarios más avanzados, R es un lenguaje y entorno de programación para el análisis estadístico. Es gratuito y de software libre. 5
  • 20.
    Visualización6 • Con infogramse pueden crear gráficos e infografías con un par de clicks. La herramienta es gratuita aunque para usar todas sus opciones se requiere pagar una cuota. • CartoDB es ideal para visualizar información geolocalizada. • Tableau Public El programa se descarga y offline permite hacer diferentes tipos de visualizaciones. • Datawrapper Útil para hacer diferentes tipos de gráficos, todo de forma gratuita. • Google Fusion Tables Permite organizar, visualizar y compartir información organizada en tablas de datos.
  • 21.
  • 22.
    ¿Cómo se implementa? •Skillshares (online) • Blog y web • Data workshops (offline) • Expedición de datos (online y offline) • Other events and Data Projects – Collaborations
  • 23.
  • 24.
  • 25.
    10 min Tarea: Encuentrauna página web con una tabla y obtén información de ella. http://schoolofdata.org/handbook/recipes/liberating- html-tables/ http://schoolofdata.org/handbook/recipes/scraper- extension-for-chrome/ • Una vez que tengas la tabla en tu hoja de cálculo, lo más seguro es que quieras jugar con los datos o cambiarlos de hoja. Haz clic en el botón superior izquierdo y selecciona paste special (pegado especial) y luego paste values only (pegar sólo valores).
  • 26.
    Desafío: Ayuda aliberar el presupuesto Tarea: ¡Encuentra un PDF encarcelado que puedas liberar! • Por ejemplo, existen muchos PDFs que necesitan tu ayuda en este link: Budget Library of the International Budget Partnership.
  • 27.
    Liberar el presupuesto Unavez que liberes tus datos, compártelos con alguien y ahórrales el penoso trabajo. Incluso los pues subir al OpenSpending group en Datahub o al OpenSpending Mailing List , complementado con una explicación de lo que hiciste.