SlideShare una empresa de Scribd logo
2º Open Data Day en Granada
2014
Introducción al Scraping y presentación de
datos.
https://github.com/renatolrr/OpenDayOslRecycle
r2014
Concepto de scraping
●

Scarping
Definición según Wikipedia: “Web Scraping es
una técnica utilizada mediante programas de
software para extraer información de sitios
web”
Buenas costumbres en scraping.
●

Definir previamente lo que se busca.
Planificar.

●

Copiar web.

●

Conocimientos previos de programación.

●

Conservar fuentes.

●

Guardar los datos utilizando estándares.
Aspectos legales
●

“no estarán autorizadas la extracción y/o
reutilización repetidas o sistemáticas de
partes no sustanciales del contenido de una
base de datos que supongan actos contrarios
a una explotación normal de dicha base o que
causen un perjuicio injustificado a los
intereses legítimos del fabricante”.

Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el Texto Refundido de la Ley de Propiedad Intele
Aspectos legales
●

“no estarán autorizadas la extracción y/o
reutilización repetidas o sistemáticas de
partes no sustanciales del contenido de una
base de datos que supongan actos contrarios
a una explotación normal de dicha base o que
causen un perjuicio injustificado a los
intereses legítimos del fabricante”.

Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el Texto Refundido de la Ley de Propiedad Intele
Otros aspectos
●

Agencia Española de Protección de Datos.

●

Otra legislación.
Planificar
●

Open project

●

Redmine

●

Github

●

Firebug

●

HTML Regex Data Extractor

●

Programación en Perl

●

Programación avanzada en python

●

Desarrollo de software colaborativo con Git
Copia web
●

HTTrack
Descarga:http://www.httrack.com/page/2/en/index.html
Manual:http://www.httrack.com/html/fcguide.html
httrack "http://lujoyglamour.net/" -O "/tmp/www.all.net"
"+*.all.net/*" -v
Scrapy
●

●

Scraping express por Serafín Velez Barrera
Scraping Web Pages with Scrapy - YouTube
Alternativas a Scrapy
●

Mozenda

●

Scraper Wiki

●

DEiXTo

●

Nokogiri

●

http://search.cpan.org/~miyagawa/Web-Scraper-0.37/lib/Web/Scraper.pm

●

http://teusje.wordpress.com/2010/05/02/web-scraping-with-perl/

●

http://blogs.perl.org/users/stas/2013/01/web-scraping-withmodern-perl-part-1.html
Libros
●

Python for Data Analysis: Data Wrangling with Pandas, NumPy, and Ipython

●

Head First Data Analysis: A Learner's Guide to Big Numbers, Statistics, and Good
Datos
Para que?
●

Narrar

●

Estudiar

●

Aprender
Zapatillas y la Mae.
Ejemplo:

●

The Baltimore Sun
Herramientas datos
●

LibreOffice

●

Google refine

●

Tesseract

●

Fusion tables

●

R
OpenDataOslRecycler
●

Recopilación de datos de las campañas
realizadas. Manuel Cogolludo.
Hacia adelante.
Modificar datos para hacer una tabla en
fusion.
Son los datos de uso, utiles para otro uso?

renatolrr@gmail.com

Más contenido relacionado

Similar a 2º open dataday_granada_2014

Web scraping, Codeando México
Web scraping, Codeando MéxicoWeb scraping, Codeando México
Web scraping, Codeando México
Braulio Chavez
 
Taller de Scrapy - Barcelona Activa
Taller de Scrapy - Barcelona ActivaTaller de Scrapy - Barcelona Activa
Taller de Scrapy - Barcelona ActivaDaniel Bertinat
 
Presentacion web scraping
Presentacion web scrapingPresentacion web scraping
Presentacion web scraping
gregorio gomez
 
Cybercamp 2015 - Python, hacking y sec-tools desde las trincheras
Cybercamp 2015 - Python, hacking y sec-tools desde las trincherasCybercamp 2015 - Python, hacking y sec-tools desde las trincheras
Cybercamp 2015 - Python, hacking y sec-tools desde las trincheras
Daniel Garcia (a.k.a cr0hn)
 
Extracción de datos de páginas web con Python (webscraping)
Extracción de datos de páginas web con Python (webscraping)Extracción de datos de páginas web con Python (webscraping)
Extracción de datos de páginas web con Python (webscraping)
Ernesto Crespo
 
Web semantica
Web semanticaWeb semantica
Web semantica
Govani Sanchez
 
Pentesting 101 por Paulino Calderon
Pentesting 101 por Paulino CalderonPentesting 101 por Paulino Calderon
Pentesting 101 por Paulino Calderon
Websec México, S.C.
 
Cómo volarle la peluca a tus usuarios con la velocidad de tu sitio?
Cómo volarle la peluca a tus usuarios con la velocidad de tu sitio?Cómo volarle la peluca a tus usuarios con la velocidad de tu sitio?
Cómo volarle la peluca a tus usuarios con la velocidad de tu sitio?
Martin Siniawski
 
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon GoogleC:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon Googlekelly
 
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon GoogleC:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon Googlekelly
 
Operadores de Búsqueda avanzados en Google
Operadores de Búsqueda avanzados en GoogleOperadores de Búsqueda avanzados en Google
Operadores de Búsqueda avanzados en Google
Esther Checa
 
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon GoogleC:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon Googlekelly
 
Hackingcon Google
Hackingcon GoogleHackingcon Google
Hackingcon Google
kelly
 
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon GoogleC:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon Googlekelly
 
Hackingcon Google
Hackingcon GoogleHackingcon Google
Hackingcon Googlekelly
 
Hackingcon Google
Hackingcon GoogleHackingcon Google
Hackingcon Google
kelly
 
C:\Fakepath\Hackingcon Google
C:\Fakepath\Hackingcon GoogleC:\Fakepath\Hackingcon Google
C:\Fakepath\Hackingcon Googlekelly
 
Socialbro por dentro - Betabeers Córdoba (18/10/2012)
Socialbro por dentro - Betabeers Córdoba (18/10/2012)Socialbro por dentro - Betabeers Córdoba (18/10/2012)
Socialbro por dentro - Betabeers Córdoba (18/10/2012)
betabeers
 
Protección jurídica del software y la controversia doctrinal
Protección jurídica del software y la controversia doctrinalProtección jurídica del software y la controversia doctrinal
Protección jurídica del software y la controversia doctrinal
Daniella Bedoya Ortega
 
Diapos de protección jurídica del software y el derecho de
Diapos de protección jurídica del software y el derecho deDiapos de protección jurídica del software y el derecho de
Diapos de protección jurídica del software y el derecho deHectorchg
 

Similar a 2º open dataday_granada_2014 (20)

Web scraping, Codeando México
Web scraping, Codeando MéxicoWeb scraping, Codeando México
Web scraping, Codeando México
 
Taller de Scrapy - Barcelona Activa
Taller de Scrapy - Barcelona ActivaTaller de Scrapy - Barcelona Activa
Taller de Scrapy - Barcelona Activa
 
Presentacion web scraping
Presentacion web scrapingPresentacion web scraping
Presentacion web scraping
 
Cybercamp 2015 - Python, hacking y sec-tools desde las trincheras
Cybercamp 2015 - Python, hacking y sec-tools desde las trincherasCybercamp 2015 - Python, hacking y sec-tools desde las trincheras
Cybercamp 2015 - Python, hacking y sec-tools desde las trincheras
 
Extracción de datos de páginas web con Python (webscraping)
Extracción de datos de páginas web con Python (webscraping)Extracción de datos de páginas web con Python (webscraping)
Extracción de datos de páginas web con Python (webscraping)
 
Web semantica
Web semanticaWeb semantica
Web semantica
 
Pentesting 101 por Paulino Calderon
Pentesting 101 por Paulino CalderonPentesting 101 por Paulino Calderon
Pentesting 101 por Paulino Calderon
 
Cómo volarle la peluca a tus usuarios con la velocidad de tu sitio?
Cómo volarle la peluca a tus usuarios con la velocidad de tu sitio?Cómo volarle la peluca a tus usuarios con la velocidad de tu sitio?
Cómo volarle la peluca a tus usuarios con la velocidad de tu sitio?
 
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon GoogleC:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
 
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon GoogleC:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
 
Operadores de Búsqueda avanzados en Google
Operadores de Búsqueda avanzados en GoogleOperadores de Búsqueda avanzados en Google
Operadores de Búsqueda avanzados en Google
 
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon GoogleC:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
 
Hackingcon Google
Hackingcon GoogleHackingcon Google
Hackingcon Google
 
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon GoogleC:\Users\Usuario Acadfadp\Documents\Hackingcon Google
C:\Users\Usuario Acadfadp\Documents\Hackingcon Google
 
Hackingcon Google
Hackingcon GoogleHackingcon Google
Hackingcon Google
 
Hackingcon Google
Hackingcon GoogleHackingcon Google
Hackingcon Google
 
C:\Fakepath\Hackingcon Google
C:\Fakepath\Hackingcon GoogleC:\Fakepath\Hackingcon Google
C:\Fakepath\Hackingcon Google
 
Socialbro por dentro - Betabeers Córdoba (18/10/2012)
Socialbro por dentro - Betabeers Córdoba (18/10/2012)Socialbro por dentro - Betabeers Córdoba (18/10/2012)
Socialbro por dentro - Betabeers Córdoba (18/10/2012)
 
Protección jurídica del software y la controversia doctrinal
Protección jurídica del software y la controversia doctrinalProtección jurídica del software y la controversia doctrinal
Protección jurídica del software y la controversia doctrinal
 
Diapos de protección jurídica del software y el derecho de
Diapos de protección jurídica del software y el derecho deDiapos de protección jurídica del software y el derecho de
Diapos de protección jurídica del software y el derecho de
 

Más de Renato Ramirez

Sun position perl6
Sun position perl6Sun position perl6
Sun position perl6
Renato Ramirez
 
Pequeña Introducción a las Expresiones Regulares
Pequeña Introducción a las Expresiones RegularesPequeña Introducción a las Expresiones Regulares
Pequeña Introducción a las Expresiones Regulares
Renato Ramirez
 
Django (pincelada)
Django (pincelada)Django (pincelada)
Django (pincelada)
Renato Ramirez
 
Aprendiendo latex
Aprendiendo latexAprendiendo latex
Aprendiendo latex
Renato Ramirez
 
Introducción a Perl
Introducción a PerlIntroducción a Perl
Introducción a Perl
Renato Ramirez
 
Perl6 regexes workshop perl granada
Perl6 regexes workshop perl granadaPerl6 regexes workshop perl granada
Perl6 regexes workshop perl granadaRenato Ramirez
 
Go y software libre
Go y software libreGo y software libre
Go y software libre
Renato Ramirez
 
Anexo periodismo de datos
Anexo periodismo de datosAnexo periodismo de datos
Anexo periodismo de datosRenato Ramirez
 

Más de Renato Ramirez (8)

Sun position perl6
Sun position perl6Sun position perl6
Sun position perl6
 
Pequeña Introducción a las Expresiones Regulares
Pequeña Introducción a las Expresiones RegularesPequeña Introducción a las Expresiones Regulares
Pequeña Introducción a las Expresiones Regulares
 
Django (pincelada)
Django (pincelada)Django (pincelada)
Django (pincelada)
 
Aprendiendo latex
Aprendiendo latexAprendiendo latex
Aprendiendo latex
 
Introducción a Perl
Introducción a PerlIntroducción a Perl
Introducción a Perl
 
Perl6 regexes workshop perl granada
Perl6 regexes workshop perl granadaPerl6 regexes workshop perl granada
Perl6 regexes workshop perl granada
 
Go y software libre
Go y software libreGo y software libre
Go y software libre
 
Anexo periodismo de datos
Anexo periodismo de datosAnexo periodismo de datos
Anexo periodismo de datos
 

2º open dataday_granada_2014