Scrapy es un framework para extraer datos estructurados de sitios web. Se puede usar para tareas como minería de datos, procesamiento de datos y archivo histórico de información. Scrapy define spiders que navegan y extraen datos de sitios web mediante reglas simples. Los datos extraídos se almacenan en objetos llamados items, que luego pueden procesarse y almacenarse. Scrapy también proporciona herramientas para escalar el scraping de sitios web.
Esta presentación expone algunas de las características más destacadas de la base de datos NoSQL MongoDB, incluyendo al final una sección dedicada al esquema orientado a documentos, y algunos comandos básicos de consulta y actualización.
Tarde Técnica Abirtone. MongoDB. Un pequeño sorbo.Victor Cuervo
Presentación sobre conceptos básicos de MongoDB. Manejo de Arrays en documentos. Programación MongoDB desde la Shell. Y uso de Python+MongoDB = Pymongo.
Presentación sobre cómo utilizar MongoDB en Bluemix, ya sea con el servicio de MongoDB o mediante Compose.io
Inicialmente se muestran un poco las capacidades de MongoDB para luego mostrar dos ejemplos montados mediante Python y Flask
Características Adminsitración SQL Server 2012 Parte 3Julián Castiblanco
Enumera varias de las características de administración de SQL Server 2012 como compresión de tablas, partición, manejo de archivos, filegroups y migraciones entre otras.
Consejos prácticos de programación, trucos y técnicas que se pueden utilizar ahora! Usted está invitado a unirse a los expertos de Embarcadero cada 15 días para tutoriales de 30 minutos sobre el desarrollo de software para Windows, Mac, Android y iOS.
Esta presentación expone algunas de las características más destacadas de la base de datos NoSQL MongoDB, incluyendo al final una sección dedicada al esquema orientado a documentos, y algunos comandos básicos de consulta y actualización.
Tarde Técnica Abirtone. MongoDB. Un pequeño sorbo.Victor Cuervo
Presentación sobre conceptos básicos de MongoDB. Manejo de Arrays en documentos. Programación MongoDB desde la Shell. Y uso de Python+MongoDB = Pymongo.
Presentación sobre cómo utilizar MongoDB en Bluemix, ya sea con el servicio de MongoDB o mediante Compose.io
Inicialmente se muestran un poco las capacidades de MongoDB para luego mostrar dos ejemplos montados mediante Python y Flask
Características Adminsitración SQL Server 2012 Parte 3Julián Castiblanco
Enumera varias de las características de administración de SQL Server 2012 como compresión de tablas, partición, manejo de archivos, filegroups y migraciones entre otras.
Consejos prácticos de programación, trucos y técnicas que se pueden utilizar ahora! Usted está invitado a unirse a los expertos de Embarcadero cada 15 días para tutoriales de 30 minutos sobre el desarrollo de software para Windows, Mac, Android y iOS.
Web framework ligeros y micros en java barcamp 2014Carlos Camacho
Presentación enfocada a mostrar las funcionalidades más importante de los micro framework Spark y Ratpack. Dando una inducción a los conceptos básicos en su utilización del protocolo HTTP y los servicios REST.
Impartida en la segunda edición en el Barcamp 2014, Pontificia Universidad Católica Madre y Maestra (PUCMM), Santiago de los Caballeros, República Dominicana.
Sesión impartida por Alejandro Martín Bailón sobre Metadata Security, La Foca y MetaShield Protector en el evento del décimo aniversario de Informática64. El pasado 1 de Octubre de 2009.
Sistema modular de representación de información para la plataforma de web se...Antonio Lopez
Presentación proyecto final de carrera. Universidad de Lleida, Ingenieria Informática de Sistemas.
El objetivo del proyecto es implementar un sistema de visualización para la plataforma de web semántica Rhizomer. En él se definen tres plugins de visualización diferentes para representar tres tipos de recursos. (recursos geográficos, recursos temporales y recursos audio)
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Actualmente, y debido al desarrollo tecnológico de campos como la informática y la electrónica, la mayoría de las bases de datos están en formato digital, siendo este un componente electrónico, por tanto se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
3. ¿Que es Scrapy?
Scrapy es un framework para el rastreo de
sitios web y extracción de datos
estructurados que pueden ser utilizados
para una amplia gama de aplicaciones,
como ser data mining, procesamiento de
datos o archivo histórico de información.
4. Como nace
Aunque Scrapy fue diseñado originalmente
para captura de imágenes (más
precisamente, web scraping), también se
puede utilizar para extraer los datos
mediante APIs (como Amazon Associates
Web Services) o como un web crawler de
propósito general.
5. Por ejemplo: elige un sitio web
Queremos extraer alguna información de un sitio
web, pero el sitio web no proporciona ninguna API
o mecanismo para acceder a esa información
mediante un programa.
Con Scrapy podemos extraer esa información.
Digamos que queremos extraer la URL, nombre,
descripción de nuevas Oposiciones y Convocatorias
de Empleo Público.
6. Por ejemplo: elige un sitio web
Definir los datos que deseas scrapear
Escribir una araña para extraer los datos
Ejecutar la araña para extraer los datos
Revisar los datos scrapeados
Guardar la información y emplearla donde quieras
7. Características
Simple - diseñado con la simplicidad en mente
Productivo - sólo tiene que escribir las reglas para
extraer los datos de las páginas web y dejar que Scrapy
rastree el sitio web
Rápido y potente - scrapy se utiliza en producción para
scrapear más de 500 sitios completos de ventas a diario
y todo en un mismo servidor
Extensible - proporciona varios mecanismos para
conectar nuevas extensiones sin tener que alterar el
framework
8. Características
Portátil, open source, 100% Python
Muy completo - contiene extensiones para manejo
de cookies, HTTP compression, HTTP
authentication, HTTP cache, restricción de
profundidad, descarga de documentos, etc
Bien documentado y testeado
Cuenta con una comunidad amplia y apoyo
comercial
9. Primeros pasos
Definir entorno:
Se puede ejecutar en Linux, Windows, Mac y BSD
Requerimientos:
Python 2.6 or 2.7
OpenSSL
No usar python-scrapy package para Ubuntu
Para obtener más reciente
Git Repo
10. Conceptos básicos
Command line tool
Scrapy es controlado a traves de un conjunto de comandos y
sub-comandos
Ej generador de proyecto, generador de spiders, crawl, fetch,
check, etc
Items
El objetivo principal de scrapeado es extraer datos
estructurados procedentes de fuentes no estructuradas, por lo
general, las páginas web.
Scrapy proporciona la clase ítem para este propósito. Los ítems
son simples objetos contenedores utilizados para recoger estos
datos.
Spiders
Define como un sitio o un conjunto de sitios va a ser navegado y
scrapeado
11. Conceptos básicos
Selectors
XPathSelector
HtmlXPathSelector
XmlXPathSelector
Item Loaders
A pesar de que los ítems se pueden completar utilizando
su propio diccionario, los cargadores del ítems
proporcionan métodos mas complejos y convenientes
para rellenarlos.
Automatizan algunas tareas comunes como el análisis de
los datos extraídos antes de asignarlos.
12. Conceptos básicos
Item Pipeline
Una vez extraído un ítem, puede pasarse por un Pipeline para
aplicar varios procesos adicionales.
Ej: limpieza de datos HTML, validación de datos (comprobando
que los artículos contienen ciertos campos), comprobación de
duplicados, descarte, almacenamiento, etc
Feed exports
Formatos: JSON, JSON lines, CSV, XML
Storages: Local filesystem, FTP, S3, Standard output
Link Extractors
LinkExtractors son objetos cuyo único propósito es extraer los
enlaces de páginas web (objetos scrapy.http.Response), que
serán seguidos por el crawler.
13. Algunos conceptos avanzados
Usando Firefox para scraping (DOM, XPather, XPath
Checker, Tamper Data, Firecookie)
Usando Firebug para scraping (Xpath)
Ubuntu packages
Jobs: pausar y reanudar crawlers
Descarga de imágenes de ítems (pipeline)
14. Ejemplo caso de uso con Scrapy
Recolección de Oposiciones y Convocatorias de
Empleo Público (www.oposicionesaldia.com)
Recolección de Becas de Estudios
Recolección de Tesis, Documentos, Publicaciones y
Recursos Educativos
15. ScrapingHub
Scrapy Cloud es una plataforma para la
implementación, ejecución y seguimiento de las
arañas Scrapy y un visualizador de los datos
scrapeados
Permite controlar las arañas mediante tareas
programadas, revisar que procesos están corriendo
y obtener los datos scrapeados.
Los proyectos se pueden gestionan desde la API o a
través de su Panel Web.
16. AutoScraping
Autoscraping es una herramienta que le permite
scrapear sitios web sin necesidad de conocimientos
de programación.
Sólo debe elegir las páginas web para scrapear,
definir que campos queremos obtener (ej: nombre,
descripción, título) y el sistema hace el resto.
Está basado íntegramente en la web, por lo que
solo requiere un navegador moderno, sin necesidad
de descargar o instalar nada.
17. ProxyHub
ProxyHub proporciona un HTTP proxy, con un
conjunto de direcciones IP rotativas, diseñado
específicamente para scraping.
Con este servicio, los usuarios de Scrapy no deben
preocuparse mas sobre:
Demoras de descagas
Request concurrentes
User agents
Cookies o referrers para evitar ser baneados
18. Ejemplo caso de uso con AutoScraping
Captura de Daily Deals y ofertas de sitios webs de
e-commerce para Offertazo (www.offertazo.com)