Este documento resume una presentación sobre scraping realizada en el 2o Open Data Day en Granada en 2014. Explica conceptos básicos de scraping como la definición, buenas prácticas como planificar y conservar fuentes, y aspectos legales. También revisa herramientas para scraping como Scrapy, HTTrack y alternativas. El objetivo final es recopilar y modificar datos de campañas de reciclaje para crear una tabla en Google Fusion.
Jupyter e IPython para manipulación de datosSoftware Guru
Durante SGCE se presentó una herramienta de análisis de datos corriendo en web desde un servidor ARM tipo Raspberry Pi, analizando feeds de twitter en tiempo real.
La herramienta se llama IPython y su plataforma, llamada Jupyter permite ejecutar de forma paralela instancias de Python, Julia y Scala, entre otros lenguajes.
Hablaremos de estas herramientas de software libre como entornos de análisis de datos avanzados capaces de escalar de dispositivos IoT hasta clusters de alto rendimiento capaces de gestionar decenas de servidores bajo la misma plataforma.
Mini clase Intro Programación Python UTN Profesorado 2015Mariano Reingart
Introducción a la programación de computadoras con Python
Presentación del lenguaje de programación Python
Motivaciones y estudios relacionados
Descargas - Instalación
Estructuras básicas (condicionales, ciclos, funciones)
Demostración
Feedback
Bonus track (trabajo de los alumnos con raspberry pi, desarrollo web, niños)
Lawrence berkeley national laboratory sep 2015 - Jupyter Talk
Scientific facilities are increasingly generating large data sets. Next-generation scientific productivity relies on user-friendly tools and efficient, effective and seamless access to resources and data. Traditional approaches to research and software development for science focus on the hardware and software of the machine and do not consider the user. In this talk, I will highlight a different approach to building software for scientific users by including user knowledge in the process. I will illustrate a few example projects where this has been used to date.
GIthub repository: https://github.com/Carreau/talks/tree/master/labtech-2015
Jupyter e IPython para manipulación de datosSoftware Guru
Durante SGCE se presentó una herramienta de análisis de datos corriendo en web desde un servidor ARM tipo Raspberry Pi, analizando feeds de twitter en tiempo real.
La herramienta se llama IPython y su plataforma, llamada Jupyter permite ejecutar de forma paralela instancias de Python, Julia y Scala, entre otros lenguajes.
Hablaremos de estas herramientas de software libre como entornos de análisis de datos avanzados capaces de escalar de dispositivos IoT hasta clusters de alto rendimiento capaces de gestionar decenas de servidores bajo la misma plataforma.
Mini clase Intro Programación Python UTN Profesorado 2015Mariano Reingart
Introducción a la programación de computadoras con Python
Presentación del lenguaje de programación Python
Motivaciones y estudios relacionados
Descargas - Instalación
Estructuras básicas (condicionales, ciclos, funciones)
Demostración
Feedback
Bonus track (trabajo de los alumnos con raspberry pi, desarrollo web, niños)
Lawrence berkeley national laboratory sep 2015 - Jupyter Talk
Scientific facilities are increasingly generating large data sets. Next-generation scientific productivity relies on user-friendly tools and efficient, effective and seamless access to resources and data. Traditional approaches to research and software development for science focus on the hardware and software of the machine and do not consider the user. In this talk, I will highlight a different approach to building software for scientific users by including user knowledge in the process. I will illustrate a few example projects where this has been used to date.
GIthub repository: https://github.com/Carreau/talks/tree/master/labtech-2015
Python, hacking y sec-tools desde las trincheras
Un recorrido por hacking de redes a bajo nivel y protocolos de comunicaciones, con la navaja suiza del bajo nivel: Scapy.
Aprenderemos cómo transformar en herramientas de hacking bien construidas lo que hasta ahora resolvías con scripts para "salir de paso" de esa auditoría que se te está resistiendo.
Crearemos varias herramientas de hacking desde cero, explicando:
- Cómo diseñar y escalar aplicaciones de seguridad,
- Construir aplicaciones re-usables,
- Usar librerías de terceros en nuestro código,
- Generar lineas de comando (CLI) útiles y fáciles de usar,
- Exportar los resultados en JSON, xml o Excel,
- Crear un sistema de plugins sencillo pero potente
Python, hacking y sec-tools desde las trincheras
Un recorrido por hacking de redes a bajo nivel y protocolos de comunicaciones, con la navaja suiza del bajo nivel: Scapy.
Aprenderemos cómo transformar en herramientas de hacking bien construidas lo que hasta ahora resolvías con scripts para "salir de paso" de esa auditoría que se te está resistiendo.
Crearemos varias herramientas de hacking desde cero, explicando:
- Cómo diseñar y escalar aplicaciones de seguridad,
- Construir aplicaciones re-usables,
- Usar librerías de terceros en nuestro código,
- Generar lineas de comando (CLI) útiles y fáciles de usar,
- Exportar los resultados en JSON, xml o Excel,
- Crear un sistema de plugins sencillo pero potente
1. 2º Open Data Day en Granada
2014
Introducción al Scraping y presentación de
datos.
https://github.com/renatolrr/OpenDayOslRecycle
r2014
2. Concepto de scraping
●
Scarping
Definición según Wikipedia: “Web Scraping es
una técnica utilizada mediante programas de
software para extraer información de sitios
web”
3. Buenas costumbres en scraping.
●
Definir previamente lo que se busca.
Planificar.
●
Copiar web.
●
Conocimientos previos de programación.
●
Conservar fuentes.
●
Guardar los datos utilizando estándares.
4. Aspectos legales
●
“no estarán autorizadas la extracción y/o
reutilización repetidas o sistemáticas de
partes no sustanciales del contenido de una
base de datos que supongan actos contrarios
a una explotación normal de dicha base o que
causen un perjuicio injustificado a los
intereses legítimos del fabricante”.
Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el Texto Refundido de la Ley de Propiedad Intele
5. Aspectos legales
●
“no estarán autorizadas la extracción y/o
reutilización repetidas o sistemáticas de
partes no sustanciales del contenido de una
base de datos que supongan actos contrarios
a una explotación normal de dicha base o que
causen un perjuicio injustificado a los
intereses legítimos del fabricante”.
Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el Texto Refundido de la Ley de Propiedad Intele
10. Alternativas a Scrapy
●
Mozenda
●
Scraper Wiki
●
DEiXTo
●
Nokogiri
●
http://search.cpan.org/~miyagawa/Web-Scraper-0.37/lib/Web/Scraper.pm
●
http://teusje.wordpress.com/2010/05/02/web-scraping-with-perl/
●
http://blogs.perl.org/users/stas/2013/01/web-scraping-withmodern-perl-part-1.html
11. Libros
●
Python for Data Analysis: Data Wrangling with Pandas, NumPy, and Ipython
●
Head First Data Analysis: A Learner's Guide to Big Numbers, Statistics, and Good