2º Open Data Day en Granada
2014
Introducción al Scraping y presentación de
datos.
https://github.com/renatolrr/OpenDayOslRecycle
r2014
Concepto de scraping
●

Scarping
Definición según Wikipedia: “Web Scraping es
una técnica utilizada mediante programas de
software para extraer información de sitios
web”
Buenas costumbres en scraping.
●

Definir previamente lo que se busca.
Planificar.

●

Copiar web.

●

Conocimientos previos de programación.

●

Conservar fuentes.

●

Guardar los datos utilizando estándares.
Aspectos legales
●

“no estarán autorizadas la extracción y/o
reutilización repetidas o sistemáticas de
partes no sustanciales del contenido de una
base de datos que supongan actos contrarios
a una explotación normal de dicha base o que
causen un perjuicio injustificado a los
intereses legítimos del fabricante”.

Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el Texto Refundido de la Ley de Propiedad Intele
Aspectos legales
●

“no estarán autorizadas la extracción y/o
reutilización repetidas o sistemáticas de
partes no sustanciales del contenido de una
base de datos que supongan actos contrarios
a una explotación normal de dicha base o que
causen un perjuicio injustificado a los
intereses legítimos del fabricante”.

Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el Texto Refundido de la Ley de Propiedad Intele
Otros aspectos
●

Agencia Española de Protección de Datos.

●

Otra legislación.
Planificar
●

Open project

●

Redmine

●

Github

●

Firebug

●

HTML Regex Data Extractor

●

Programación en Perl

●

Programación avanzada en python

●

Desarrollo de software colaborativo con Git
Copia web
●

HTTrack
Descarga:http://www.httrack.com/page/2/en/index.html
Manual:http://www.httrack.com/html/fcguide.html
httrack "http://lujoyglamour.net/" -O "/tmp/www.all.net"
"+*.all.net/*" -v
Scrapy
●

●

Scraping express por Serafín Velez Barrera
Scraping Web Pages with Scrapy - YouTube
Alternativas a Scrapy
●

Mozenda

●

Scraper Wiki

●

DEiXTo

●

Nokogiri

●

http://search.cpan.org/~miyagawa/Web-Scraper-0.37/lib/Web/Scraper.pm

●

http://teusje.wordpress.com/2010/05/02/web-scraping-with-perl/

●

http://blogs.perl.org/users/stas/2013/01/web-scraping-withmodern-perl-part-1.html
Libros
●

Python for Data Analysis: Data Wrangling with Pandas, NumPy, and Ipython

●

Head First Data Analysis: A Learner's Guide to Big Numbers, Statistics, and Good
Datos
Para que?
●

Narrar

●

Estudiar

●

Aprender
Zapatillas y la Mae.
Ejemplo:

●

The Baltimore Sun
Herramientas datos
●

LibreOffice

●

Google refine

●

Tesseract

●

Fusion tables

●

R
OpenDataOslRecycler
●

Recopilación de datos de las campañas
realizadas. Manuel Cogolludo.
Hacia adelante.
Modificar datos para hacer una tabla en
fusion.
Son los datos de uso, utiles para otro uso?

renatolrr@gmail.com

2º open dataday_granada_2014