SlideShare una empresa de Scribd logo
WebWeb SScrapingcraping
&&
Marketing onlineMarketing online
¿Que es el Web Scraping?
Web scraping es una técnica utilizada mediante programas de software para extraer información
de sitios web.
El web scraping se enfoca en la transformación de datos sin estructura en la web (como el formato
HTML) en datos estructurados que pueden ser almacenados y analizados en una base de datos
central, en una hoja de cálculo o en alguna otra fuente de almacenamiento.
El web scraping está muy relacionado con la indexación de la web, la cual indexa la información de
la web utilizando un robot y es una técnica universal adoptada por la mayoría de los motores de
búsqueda.
El término web scraping también está relacionado con la automatización de tareas en la Web, la
cual simula la navegación de un humano utilizando un software de computadora.
Alguno de los usos del web scraping son la comparación de precios en tiendas, la monitorización
de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la
integración de datos en sitios webs. También es utilizado para obtener información relevante de un
sitio a través de los rich snippets.
Consultoria Web Scraping
Es importante que si tu empresa va a usar estas tecnicas lo realicen empresas profesionales con
experiencia en el sector de consultoria como la Consultora de web scraping Dataseekers.es
Tecnicas de Web Scraping
Protocolo HTTP: páginas webs estáticas y dinámicas pueden ser obtenidas haciendo peticiones
HTTP al servidor remoto utilizando sockets, etc.
Algoritmos de minería de datos: muchos sitios webs tienen grandes colecciones de páginas
generadas dinámicamente a partir de una base de datos. Datos de la misma categoría aparecen
usualmente en páginas similares mediante un script o una plantilla. En la minería de datos, un
programa detecta estas plantillas en un contexto específico y extrae su contenido.
Aplicaciones para web scraping: existen muchas aplicaciones disponibles que pueden ser
utilizadas para personalizar soluciones de Web Scraping. Estas aplicaciones pudieran reconocer
automáticamente la estructura de cierta página o brindar una interfaz al usuario donde este
pudiera seleccionar los campos que son de interés dentro del documento. De esta forma no es
necesario escribir manualmente código para realizar estas tareas.
«Copiar y pegar» : algunas veces incluso las mejores técnicas de web scraping no pueden
reemplazar la examinación manual de un
humano, y a veces esta puede ser la única vía de
solución cuando el sitio que tenemos en mente
pone ciertas barreras para prevenir que se creen
softwares para realizar tareas automáticas en
este.
Uso de expresiones regulares: una posible vía
para extraer información de páginas webs
pueden ser las expresiones regulares, aunque
comúnmente no se recomienda utilizarlas para
parsear el formato HTML.
Parsers de HTML: Algunos lenguajes, como
XQuery y HTQL pueden ser utilizados para parsear documentos, recuperar y transformar el
contenido de documentos HTML.
Tecnicas de AntiScraping.
En algunos casos administrador de un sitio web puede utilizar
varias técnicas para detener o disminuir los pedidos de los
scrapers. Algunas técnicas incluyen:
Añadir un captcha u otro sistema de verificación manual al sitio
web. No se garantiza el completo bloqueo de los scrapers, pero
mediante esta técnica se dificulta el acceso de los mismos a los
sitios webs.
Deshabilitar cualquier interfaz de programación de aplicaciones
que el sitio web pudiera estar brindando.
bloquear Los bots o scrapers algunas veces declaran quienes son, y gracias a esto pueden ser.
«googlebot» es un ejemplo. Algunos scrapers no hacen distinción entre ellos y un navegador
común.
Monitorear el exceso de tráfico proveniente de cierta IP.
Añadir entradas al fichero robots.txt. Google y otros bots pueden ser detenidos de esta forma.
Bloquear la dirección IP. Esto también bloqueará todos los accesos desde esa misma IP, por lo que
los usuarios no podrán navegar por el sitio web si acceden desde ésta.
Servicios comerciales antibots: algunas empresas ofrecen servicios antibots y antiscraping.
Incrementar el uso de JavaScript y AJAX. De esta forma es más difícil para los scrapers simular las
peticiones como si fueran un navegador común.
Consultoria Antiscraping Data seekers
Es legal el web scraping?
Pero en algunos contextos podria tener dudas El web scraping pudiera ir
en contra de los términos de uso de algunos sitios webs. El
cumplimiento de estos términos no está totalmente claro.
Mientras que la duplicación de expresiones originales puede ser en
muchos casos ilegal, en Estados Unidos la corte dictó en el caso Feist Publications v. Rural
Telephone Service que la duplicación de hechos es permitida. Las cortes de Estados Unidos en
ciertas ocasiones han reconocido que ciertos usos de los scrapers no deberían estar permitidos.
Podría considerarse una computadora como una propiedad personal, y de esta forma el scraper
estaría entrando sin autorización en esta propiedad.
En el caso más conocido, eBay vs Bidder's Edge, la segunda empresa tuvo que parar de realizar
peticiones automáticas al sitio de eBay. En este caso, Bidder's Edge pujaba automáticamente por
ciertos productos en este sitio.
Uno de las principales pruebas de scraping involucró a American Airlines y a una empresa llamada
FareChase. American Airlines ganó esta batalla, haciendo que FareChase parara de vender un
software que le permitía a los usuarios comparar tarifas en linea si el sitio de American Airlines era
incluido. La aerolínea dijo que las búsquedas de FareChase entraban sin autorización en los
servidores cuando recopilaban la información públicamente disponible.
Es una tecnica legal pero se debe realizar con cuidado.
Web interesantes
Webs en relacion con el web scraping
Consultoras marketing online
http://www.paraty.es/
http://www.dataseekers.es/.
Tutoriales
http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-sitios-web-scraping/
https://es.wikipedia.org/wiki/Web_scraping
Herramientas
http://webscraper.io/
http://import.io/
http://scrapy.org/
Presentacion web scraping

Más contenido relacionado

La actualidad más candente

Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
edmaga
 
Machine Learning para Todos
Machine Learning para TodosMachine Learning para Todos
Machine Learning para Todos
MSc Aldo Valdez Alvarado
 
gobierno de datos
gobierno de datosgobierno de datos
gobierno de datos
Jorge Armando Vélez Marín
 
Ventajas y desventajas de las bdoo
Ventajas y desventajas de las bdooVentajas y desventajas de las bdoo
Ventajas y desventajas de las bdoo
Nerhys Palacios
 
UML - Casos de Uso y Diagramas de Clase
UML - Casos de Uso y Diagramas de ClaseUML - Casos de Uso y Diagramas de Clase
UML - Casos de Uso y Diagramas de Clase
Guillermo Díaz
 
Bases de datos jerarquicas
Bases de datos jerarquicasBases de datos jerarquicas
Bases de datos jerarquicas
Alejandro Salazar
 
Ejemplo de Trigger en Mysql
Ejemplo de Trigger en MysqlEjemplo de Trigger en Mysql
Capitulo 10 auditoria en base de datos
Capitulo 10 auditoria en base de datosCapitulo 10 auditoria en base de datos
Capitulo 10 auditoria en base de datos
oamz
 
Ventajas y desventajas mysql
Ventajas y desventajas mysqlVentajas y desventajas mysql
Ventajas y desventajas mysql
Mary Ruiz
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
04071977
 
Metodología orientada a objetos
Metodología orientada a objetosMetodología orientada a objetos
Metodología orientada a objetos
alcrrsc
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
Keopx
 
Ventajas y desventajas de los modelos de bd
Ventajas y desventajas de los modelos de bdVentajas y desventajas de los modelos de bd
Ventajas y desventajas de los modelos de bd
Irene Lorza
 
Desarrollo estructurado
Desarrollo estructuradoDesarrollo estructurado
Desarrollo estructurado
waralivt
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Anyeni Garay
 
Introduccion a las bases de datos
Introduccion a las bases de datosIntroduccion a las bases de datos
Introduccion a las bases de datos
Cristian Salazar C.
 
CRUD html php mysql
CRUD html php mysqlCRUD html php mysql
CRUD html php mysql
Yesith Valencia
 
Couchdb
CouchdbCouchdb
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
Erick Paul Lozada Peñarreta
 
Diseño de bases de datos
Diseño de bases de datosDiseño de bases de datos
Diseño de bases de datos
Jesús Tramullas
 

La actualidad más candente (20)

Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Machine Learning para Todos
Machine Learning para TodosMachine Learning para Todos
Machine Learning para Todos
 
gobierno de datos
gobierno de datosgobierno de datos
gobierno de datos
 
Ventajas y desventajas de las bdoo
Ventajas y desventajas de las bdooVentajas y desventajas de las bdoo
Ventajas y desventajas de las bdoo
 
UML - Casos de Uso y Diagramas de Clase
UML - Casos de Uso y Diagramas de ClaseUML - Casos de Uso y Diagramas de Clase
UML - Casos de Uso y Diagramas de Clase
 
Bases de datos jerarquicas
Bases de datos jerarquicasBases de datos jerarquicas
Bases de datos jerarquicas
 
Ejemplo de Trigger en Mysql
Ejemplo de Trigger en MysqlEjemplo de Trigger en Mysql
Ejemplo de Trigger en Mysql
 
Capitulo 10 auditoria en base de datos
Capitulo 10 auditoria en base de datosCapitulo 10 auditoria en base de datos
Capitulo 10 auditoria en base de datos
 
Ventajas y desventajas mysql
Ventajas y desventajas mysqlVentajas y desventajas mysql
Ventajas y desventajas mysql
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Metodología orientada a objetos
Metodología orientada a objetosMetodología orientada a objetos
Metodología orientada a objetos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Ventajas y desventajas de los modelos de bd
Ventajas y desventajas de los modelos de bdVentajas y desventajas de los modelos de bd
Ventajas y desventajas de los modelos de bd
 
Desarrollo estructurado
Desarrollo estructuradoDesarrollo estructurado
Desarrollo estructurado
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Introduccion a las bases de datos
Introduccion a las bases de datosIntroduccion a las bases de datos
Introduccion a las bases de datos
 
CRUD html php mysql
CRUD html php mysqlCRUD html php mysql
CRUD html php mysql
 
Couchdb
CouchdbCouchdb
Couchdb
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Diseño de bases de datos
Diseño de bases de datosDiseño de bases de datos
Diseño de bases de datos
 

Similar a Presentacion web scraping

Programación Reactiva, Javascript Isomorfo y Meteorjs !
Programación Reactiva, Javascript Isomorfo y Meteorjs !Programación Reactiva, Javascript Isomorfo y Meteorjs !
Programación Reactiva, Javascript Isomorfo y Meteorjs !
ouuyeah
 
MOTORES DE BUSQUEDA Y PÁGINAS WEB
MOTORES DE BUSQUEDA Y PÁGINAS WEBMOTORES DE BUSQUEDA Y PÁGINAS WEB
MOTORES DE BUSQUEDA Y PÁGINAS WEB
Pedrozerpa23
 
Herramientas para tener información sobre un dominio
Herramientas para tener información sobre un dominioHerramientas para tener información sobre un dominio
Herramientas para tener información sobre un dominio
David Fimia Zapata
 
Cloud Computing y SEO.
Cloud Computing y SEO.Cloud Computing y SEO.
Cloud Computing y SEO.
ericaramoss
 
Web Scraping
Web ScrapingWeb Scraping
Introduccion a web analytics
Introduccion a web analyticsIntroduccion a web analytics
Introduccion a web analytics
Rodrigo Villamil V.
 
Presentacion sesion 3 en MPA del CEU por Pablo de Castro
Presentacion sesion 3 en MPA del CEU por Pablo de CastroPresentacion sesion 3 en MPA del CEU por Pablo de Castro
Presentacion sesion 3 en MPA del CEU por Pablo de Castro
Pablo De Castro
 
Herramientas para buscar webs con contenido similar a otra
Herramientas para buscar webs con contenido similar a otraHerramientas para buscar webs con contenido similar a otra
Herramientas para buscar webs con contenido similar a otra
Dinkybueno
 
Microformatos [autoguardado]
Microformatos [autoguardado]Microformatos [autoguardado]
Microformatos [autoguardado]
Rashel Mercedes
 
Ajax
AjaxAjax
Posicionamiento en buscadores y web
Posicionamiento en buscadores   y webPosicionamiento en buscadores   y web
Posicionamiento en buscadores y web
Vanessa Martinez
 
Cloud Computer(Computación En La Nube) Y WEB
Cloud Computer(Computación En La Nube) Y WEBCloud Computer(Computación En La Nube) Y WEB
Cloud Computer(Computación En La Nube) Y WEB
Vanessa Martinez
 
Diseño web
Diseño webDiseño web
Diseño web
valenciaredsocial
 
Patrones Arquitecturales Para Aplicaciones Web
Patrones Arquitecturales Para Aplicaciones WebPatrones Arquitecturales Para Aplicaciones Web
Patrones Arquitecturales Para Aplicaciones Web
guesta7f40
 
Workshop SEO Básico (#eShowM12)
Workshop SEO Básico (#eShowM12)Workshop SEO Básico (#eShowM12)
Workshop SEO Básico (#eShowM12)
Rodrigo.Marketing
 
El proceso de e commerce
El proceso de e commerceEl proceso de e commerce
El proceso de e commerce
edithxita1993
 
El proceso de e commerce exposicion
El proceso de e commerce exposicionEl proceso de e commerce exposicion
El proceso de e commerce exposicion
edgarrucoxxx
 
Base de datos en internet
Base de datos en internetBase de datos en internet
Base de datos en internet
Maria Garces
 
Diseño web
Diseño webDiseño web
Diseño web
valenciaredsocial
 
AJAX
AJAXAJAX
AJAX
phidalgo
 

Similar a Presentacion web scraping (20)

Programación Reactiva, Javascript Isomorfo y Meteorjs !
Programación Reactiva, Javascript Isomorfo y Meteorjs !Programación Reactiva, Javascript Isomorfo y Meteorjs !
Programación Reactiva, Javascript Isomorfo y Meteorjs !
 
MOTORES DE BUSQUEDA Y PÁGINAS WEB
MOTORES DE BUSQUEDA Y PÁGINAS WEBMOTORES DE BUSQUEDA Y PÁGINAS WEB
MOTORES DE BUSQUEDA Y PÁGINAS WEB
 
Herramientas para tener información sobre un dominio
Herramientas para tener información sobre un dominioHerramientas para tener información sobre un dominio
Herramientas para tener información sobre un dominio
 
Cloud Computing y SEO.
Cloud Computing y SEO.Cloud Computing y SEO.
Cloud Computing y SEO.
 
Web Scraping
Web ScrapingWeb Scraping
Web Scraping
 
Introduccion a web analytics
Introduccion a web analyticsIntroduccion a web analytics
Introduccion a web analytics
 
Presentacion sesion 3 en MPA del CEU por Pablo de Castro
Presentacion sesion 3 en MPA del CEU por Pablo de CastroPresentacion sesion 3 en MPA del CEU por Pablo de Castro
Presentacion sesion 3 en MPA del CEU por Pablo de Castro
 
Herramientas para buscar webs con contenido similar a otra
Herramientas para buscar webs con contenido similar a otraHerramientas para buscar webs con contenido similar a otra
Herramientas para buscar webs con contenido similar a otra
 
Microformatos [autoguardado]
Microformatos [autoguardado]Microformatos [autoguardado]
Microformatos [autoguardado]
 
Ajax
AjaxAjax
Ajax
 
Posicionamiento en buscadores y web
Posicionamiento en buscadores   y webPosicionamiento en buscadores   y web
Posicionamiento en buscadores y web
 
Cloud Computer(Computación En La Nube) Y WEB
Cloud Computer(Computación En La Nube) Y WEBCloud Computer(Computación En La Nube) Y WEB
Cloud Computer(Computación En La Nube) Y WEB
 
Diseño web
Diseño webDiseño web
Diseño web
 
Patrones Arquitecturales Para Aplicaciones Web
Patrones Arquitecturales Para Aplicaciones WebPatrones Arquitecturales Para Aplicaciones Web
Patrones Arquitecturales Para Aplicaciones Web
 
Workshop SEO Básico (#eShowM12)
Workshop SEO Básico (#eShowM12)Workshop SEO Básico (#eShowM12)
Workshop SEO Básico (#eShowM12)
 
El proceso de e commerce
El proceso de e commerceEl proceso de e commerce
El proceso de e commerce
 
El proceso de e commerce exposicion
El proceso de e commerce exposicionEl proceso de e commerce exposicion
El proceso de e commerce exposicion
 
Base de datos en internet
Base de datos en internetBase de datos en internet
Base de datos en internet
 
Diseño web
Diseño webDiseño web
Diseño web
 
AJAX
AJAXAJAX
AJAX
 

Más de gregorio gomez

Blogs de turismo
Blogs de turismo Blogs de turismo
Blogs de turismo
gregorio gomez
 
Monuments in barcelona
Monuments in barcelonaMonuments in barcelona
Monuments in barcelona
gregorio gomez
 
Tourism guide of Sanlucar de Barrameda
Tourism guide of Sanlucar de BarramedaTourism guide of Sanlucar de Barrameda
Tourism guide of Sanlucar de Barrameda
gregorio gomez
 
Costa del sol golf in Marbella and hotels
Costa del sol golf in Marbella and hotelsCosta del sol golf in Marbella and hotels
Costa del sol golf in Marbella and hotels
gregorio gomez
 
Visitando la bella y monumental ciudad de segovia y sus monumentos
Visitando la bella y monumental ciudad de segovia y sus monumentosVisitando la bella y monumental ciudad de segovia y sus monumentos
Visitando la bella y monumental ciudad de segovia y sus monumentos
gregorio gomez
 
The fortunate canary islands
The fortunate canary islandsThe fortunate canary islands
The fortunate canary islands
gregorio gomez
 
Visitando la costa del garraf en el sur de barcelona
Visitando la costa del garraf en el sur de barcelonaVisitando la costa del garraf en el sur de barcelona
Visitando la costa del garraf en el sur de barcelona
gregorio gomez
 
Pyrenees, aAran valley, Baqueira, sallent, formigal and other sky resorts
Pyrenees, aAran valley, Baqueira, sallent, formigal and other sky resortsPyrenees, aAran valley, Baqueira, sallent, formigal and other sky resorts
Pyrenees, aAran valley, Baqueira, sallent, formigal and other sky resorts
gregorio gomez
 
La ciudad eterna de roma y la fontana de trevi
La ciudad eterna de roma y la fontana de treviLa ciudad eterna de roma y la fontana de trevi
La ciudad eterna de roma y la fontana de trevi
gregorio gomez
 
Nerja la perla de la costa del sol oriental
Nerja la perla de la costa del sol orientalNerja la perla de la costa del sol oriental
Nerja la perla de la costa del sol oriental
gregorio gomez
 
Benalmadena un paraiso de playas
Benalmadena un paraiso de playasBenalmadena un paraiso de playas
Benalmadena un paraiso de playas
gregorio gomez
 
Porto and north portugal guide
Porto and north portugal guidePorto and north portugal guide
Porto and north portugal guide
gregorio gomez
 
Cannaisez la côte de la Lumière
Cannaisez la côte de la LumièreCannaisez la côte de la Lumière
Cannaisez la côte de la Lumière
gregorio gomez
 
Guia de mijas
Guia de mijasGuia de mijas
Guia de mijas
gregorio gomez
 
La cote sauvage o Costa Brava
La cote sauvage o Costa BravaLa cote sauvage o Costa Brava
La cote sauvage o Costa Brava
gregorio gomez
 
Razones para visitar calella en barcelona
Razones para visitar calella en barcelonaRazones para visitar calella en barcelona
Razones para visitar calella en barcelona
gregorio gomez
 
Monuments of Almeria
Monuments of AlmeriaMonuments of Almeria
Monuments of Almeria
gregorio gomez
 
La gastronomía de las islas canarias
La gastronomía de las islas canarias La gastronomía de las islas canarias
La gastronomía de las islas canarias
gregorio gomez
 
Tarragona y la costa dorada salou cambrils y la pineda
Tarragona y la costa dorada salou cambrils y la pineda  Tarragona y la costa dorada salou cambrils y la pineda
Tarragona y la costa dorada salou cambrils y la pineda
gregorio gomez
 
Turismo en Andorra
Turismo en AndorraTurismo en Andorra
Turismo en Andorra
gregorio gomez
 

Más de gregorio gomez (20)

Blogs de turismo
Blogs de turismo Blogs de turismo
Blogs de turismo
 
Monuments in barcelona
Monuments in barcelonaMonuments in barcelona
Monuments in barcelona
 
Tourism guide of Sanlucar de Barrameda
Tourism guide of Sanlucar de BarramedaTourism guide of Sanlucar de Barrameda
Tourism guide of Sanlucar de Barrameda
 
Costa del sol golf in Marbella and hotels
Costa del sol golf in Marbella and hotelsCosta del sol golf in Marbella and hotels
Costa del sol golf in Marbella and hotels
 
Visitando la bella y monumental ciudad de segovia y sus monumentos
Visitando la bella y monumental ciudad de segovia y sus monumentosVisitando la bella y monumental ciudad de segovia y sus monumentos
Visitando la bella y monumental ciudad de segovia y sus monumentos
 
The fortunate canary islands
The fortunate canary islandsThe fortunate canary islands
The fortunate canary islands
 
Visitando la costa del garraf en el sur de barcelona
Visitando la costa del garraf en el sur de barcelonaVisitando la costa del garraf en el sur de barcelona
Visitando la costa del garraf en el sur de barcelona
 
Pyrenees, aAran valley, Baqueira, sallent, formigal and other sky resorts
Pyrenees, aAran valley, Baqueira, sallent, formigal and other sky resortsPyrenees, aAran valley, Baqueira, sallent, formigal and other sky resorts
Pyrenees, aAran valley, Baqueira, sallent, formigal and other sky resorts
 
La ciudad eterna de roma y la fontana de trevi
La ciudad eterna de roma y la fontana de treviLa ciudad eterna de roma y la fontana de trevi
La ciudad eterna de roma y la fontana de trevi
 
Nerja la perla de la costa del sol oriental
Nerja la perla de la costa del sol orientalNerja la perla de la costa del sol oriental
Nerja la perla de la costa del sol oriental
 
Benalmadena un paraiso de playas
Benalmadena un paraiso de playasBenalmadena un paraiso de playas
Benalmadena un paraiso de playas
 
Porto and north portugal guide
Porto and north portugal guidePorto and north portugal guide
Porto and north portugal guide
 
Cannaisez la côte de la Lumière
Cannaisez la côte de la LumièreCannaisez la côte de la Lumière
Cannaisez la côte de la Lumière
 
Guia de mijas
Guia de mijasGuia de mijas
Guia de mijas
 
La cote sauvage o Costa Brava
La cote sauvage o Costa BravaLa cote sauvage o Costa Brava
La cote sauvage o Costa Brava
 
Razones para visitar calella en barcelona
Razones para visitar calella en barcelonaRazones para visitar calella en barcelona
Razones para visitar calella en barcelona
 
Monuments of Almeria
Monuments of AlmeriaMonuments of Almeria
Monuments of Almeria
 
La gastronomía de las islas canarias
La gastronomía de las islas canarias La gastronomía de las islas canarias
La gastronomía de las islas canarias
 
Tarragona y la costa dorada salou cambrils y la pineda
Tarragona y la costa dorada salou cambrils y la pineda  Tarragona y la costa dorada salou cambrils y la pineda
Tarragona y la costa dorada salou cambrils y la pineda
 
Turismo en Andorra
Turismo en AndorraTurismo en Andorra
Turismo en Andorra
 

Último

- El Cerebro Femenino como se desarrolla
- El Cerebro Femenino como se desarrolla- El Cerebro Femenino como se desarrolla
- El Cerebro Femenino como se desarrolla
BERTILAARTEAGATOLENT1
 
Análisis de Crowdfunding con el maestro Tapia de Artes
Análisis de Crowdfunding con el maestro Tapia de ArtesAnálisis de Crowdfunding con el maestro Tapia de Artes
Análisis de Crowdfunding con el maestro Tapia de Artes
al050121024
 
Encuentra ese factor X que te haga mejorar como SEO #SOB24
Encuentra ese factor X que te haga mejorar como SEO  #SOB24Encuentra ese factor X que te haga mejorar como SEO  #SOB24
Encuentra ese factor X que te haga mejorar como SEO #SOB24
ssuser82c1d6
 
importancia de la organizacion moderna jjj
importancia de la organizacion moderna jjjimportancia de la organizacion moderna jjj
importancia de la organizacion moderna jjj
gallegoscarneronelso
 
Copia de LaHoja_20240527_200357_0000.pptx
Copia de LaHoja_20240527_200357_0000.pptxCopia de LaHoja_20240527_200357_0000.pptx
Copia de LaHoja_20240527_200357_0000.pptx
jcoloniapu
 
Sesión N°10 / Monografía sobre la inteligencia artifical
Sesión N°10 / Monografía sobre la inteligencia artificalSesión N°10 / Monografía sobre la inteligencia artifical
Sesión N°10 / Monografía sobre la inteligencia artifical
Angeles del Rosario Escobar Mendoza
 
TRABAJO APLICACIONES EN INTERNET - Ana cruz tone.pdf
TRABAJO APLICACIONES EN INTERNET - Ana cruz tone.pdfTRABAJO APLICACIONES EN INTERNET - Ana cruz tone.pdf
TRABAJO APLICACIONES EN INTERNET - Ana cruz tone.pdf
anacruztone06
 
ESTUDIANTES BENEFICIARIOS que se suman a los beneficios de la universidad
ESTUDIANTES BENEFICIARIOS que se suman a los beneficios de la universidadESTUDIANTES BENEFICIARIOS que se suman a los beneficios de la universidad
ESTUDIANTES BENEFICIARIOS que se suman a los beneficios de la universidad
jorgejhonatanaltamir1
 
Encuentra ese factor X que te haga mejorar como SEO #SOB24
Encuentra ese factor X que te haga mejorar como SEO  #SOB24Encuentra ese factor X que te haga mejorar como SEO  #SOB24
Encuentra ese factor X que te haga mejorar como SEO #SOB24
MJ Cachón Yáñez
 
SLIDESHARE, qué es, ventajas y desventajas
SLIDESHARE, qué es, ventajas y desventajasSLIDESHARE, qué es, ventajas y desventajas
SLIDESHARE, qué es, ventajas y desventajas
ruthechepurizaca
 
extraccion-de-alcaloides-de-la-planta-de-coca.pdf
extraccion-de-alcaloides-de-la-planta-de-coca.pdfextraccion-de-alcaloides-de-la-planta-de-coca.pdf
extraccion-de-alcaloides-de-la-planta-de-coca.pdf
JENNYMARITZAHUILLCAR
 
Oruam, el pequeño y el gran carismatico mago
Oruam, el pequeño y el gran carismatico magoOruam, el pequeño y el gran carismatico mago
Oruam, el pequeño y el gran carismatico mago
ChichipeSevillaJhost
 
Actividad integradora 6 curso multimedia
Actividad integradora 6 curso multimediaActividad integradora 6 curso multimedia
Actividad integradora 6 curso multimedia
AliiIxh
 
COMO EVOLUCIONO LAS WEB EN PLENO 2024.docx
COMO EVOLUCIONO LAS WEB EN PLENO 2024.docxCOMO EVOLUCIONO LAS WEB EN PLENO 2024.docx
COMO EVOLUCIONO LAS WEB EN PLENO 2024.docx
Jean Apellidos
 
APLICACIONES EN INTERNET-GOOGLE4 XD.docx
APLICACIONES EN INTERNET-GOOGLE4 XD.docxAPLICACIONES EN INTERNET-GOOGLE4 XD.docx
APLICACIONES EN INTERNET-GOOGLE4 XD.docx
jordanovillacorta09
 
aplicaciones de internet Google.20240pdf
aplicaciones de internet Google.20240pdfaplicaciones de internet Google.20240pdf
aplicaciones de internet Google.20240pdf
jordanovillacorta09
 
El uso de las tics en la vida cotidiana y en otros hábitos
El uso de las tics en la vida cotidiana y en otros  hábitosEl uso de las tics en la vida cotidiana y en otros  hábitos
El uso de las tics en la vida cotidiana y en otros hábitos
241560435
 
APLICACIONES DE INTERNET-INFORMATICA.pptx
APLICACIONES DE INTERNET-INFORMATICA.pptxAPLICACIONES DE INTERNET-INFORMATICA.pptx
APLICACIONES DE INTERNET-INFORMATICA.pptx
cpadua713
 
COMUNIDADES DE APRENDIZAJE EN EL CURSO DE APLICACIONES PARA INTERNET
COMUNIDADES DE APRENDIZAJE EN EL CURSO DE APLICACIONES PARA INTERNETCOMUNIDADES DE APRENDIZAJE EN EL CURSO DE APLICACIONES PARA INTERNET
COMUNIDADES DE APRENDIZAJE EN EL CURSO DE APLICACIONES PARA INTERNET
Kevin Aguilar Garcia
 
Documento A4 formas curvas Hoja de papel multicolor_20240615_213856_0000.pdf
Documento A4 formas curvas Hoja de papel multicolor_20240615_213856_0000.pdfDocumento A4 formas curvas Hoja de papel multicolor_20240615_213856_0000.pdf
Documento A4 formas curvas Hoja de papel multicolor_20240615_213856_0000.pdf
sthefannydelgado765
 

Último (20)

- El Cerebro Femenino como se desarrolla
- El Cerebro Femenino como se desarrolla- El Cerebro Femenino como se desarrolla
- El Cerebro Femenino como se desarrolla
 
Análisis de Crowdfunding con el maestro Tapia de Artes
Análisis de Crowdfunding con el maestro Tapia de ArtesAnálisis de Crowdfunding con el maestro Tapia de Artes
Análisis de Crowdfunding con el maestro Tapia de Artes
 
Encuentra ese factor X que te haga mejorar como SEO #SOB24
Encuentra ese factor X que te haga mejorar como SEO  #SOB24Encuentra ese factor X que te haga mejorar como SEO  #SOB24
Encuentra ese factor X que te haga mejorar como SEO #SOB24
 
importancia de la organizacion moderna jjj
importancia de la organizacion moderna jjjimportancia de la organizacion moderna jjj
importancia de la organizacion moderna jjj
 
Copia de LaHoja_20240527_200357_0000.pptx
Copia de LaHoja_20240527_200357_0000.pptxCopia de LaHoja_20240527_200357_0000.pptx
Copia de LaHoja_20240527_200357_0000.pptx
 
Sesión N°10 / Monografía sobre la inteligencia artifical
Sesión N°10 / Monografía sobre la inteligencia artificalSesión N°10 / Monografía sobre la inteligencia artifical
Sesión N°10 / Monografía sobre la inteligencia artifical
 
TRABAJO APLICACIONES EN INTERNET - Ana cruz tone.pdf
TRABAJO APLICACIONES EN INTERNET - Ana cruz tone.pdfTRABAJO APLICACIONES EN INTERNET - Ana cruz tone.pdf
TRABAJO APLICACIONES EN INTERNET - Ana cruz tone.pdf
 
ESTUDIANTES BENEFICIARIOS que se suman a los beneficios de la universidad
ESTUDIANTES BENEFICIARIOS que se suman a los beneficios de la universidadESTUDIANTES BENEFICIARIOS que se suman a los beneficios de la universidad
ESTUDIANTES BENEFICIARIOS que se suman a los beneficios de la universidad
 
Encuentra ese factor X que te haga mejorar como SEO #SOB24
Encuentra ese factor X que te haga mejorar como SEO  #SOB24Encuentra ese factor X que te haga mejorar como SEO  #SOB24
Encuentra ese factor X que te haga mejorar como SEO #SOB24
 
SLIDESHARE, qué es, ventajas y desventajas
SLIDESHARE, qué es, ventajas y desventajasSLIDESHARE, qué es, ventajas y desventajas
SLIDESHARE, qué es, ventajas y desventajas
 
extraccion-de-alcaloides-de-la-planta-de-coca.pdf
extraccion-de-alcaloides-de-la-planta-de-coca.pdfextraccion-de-alcaloides-de-la-planta-de-coca.pdf
extraccion-de-alcaloides-de-la-planta-de-coca.pdf
 
Oruam, el pequeño y el gran carismatico mago
Oruam, el pequeño y el gran carismatico magoOruam, el pequeño y el gran carismatico mago
Oruam, el pequeño y el gran carismatico mago
 
Actividad integradora 6 curso multimedia
Actividad integradora 6 curso multimediaActividad integradora 6 curso multimedia
Actividad integradora 6 curso multimedia
 
COMO EVOLUCIONO LAS WEB EN PLENO 2024.docx
COMO EVOLUCIONO LAS WEB EN PLENO 2024.docxCOMO EVOLUCIONO LAS WEB EN PLENO 2024.docx
COMO EVOLUCIONO LAS WEB EN PLENO 2024.docx
 
APLICACIONES EN INTERNET-GOOGLE4 XD.docx
APLICACIONES EN INTERNET-GOOGLE4 XD.docxAPLICACIONES EN INTERNET-GOOGLE4 XD.docx
APLICACIONES EN INTERNET-GOOGLE4 XD.docx
 
aplicaciones de internet Google.20240pdf
aplicaciones de internet Google.20240pdfaplicaciones de internet Google.20240pdf
aplicaciones de internet Google.20240pdf
 
El uso de las tics en la vida cotidiana y en otros hábitos
El uso de las tics en la vida cotidiana y en otros  hábitosEl uso de las tics en la vida cotidiana y en otros  hábitos
El uso de las tics en la vida cotidiana y en otros hábitos
 
APLICACIONES DE INTERNET-INFORMATICA.pptx
APLICACIONES DE INTERNET-INFORMATICA.pptxAPLICACIONES DE INTERNET-INFORMATICA.pptx
APLICACIONES DE INTERNET-INFORMATICA.pptx
 
COMUNIDADES DE APRENDIZAJE EN EL CURSO DE APLICACIONES PARA INTERNET
COMUNIDADES DE APRENDIZAJE EN EL CURSO DE APLICACIONES PARA INTERNETCOMUNIDADES DE APRENDIZAJE EN EL CURSO DE APLICACIONES PARA INTERNET
COMUNIDADES DE APRENDIZAJE EN EL CURSO DE APLICACIONES PARA INTERNET
 
Documento A4 formas curvas Hoja de papel multicolor_20240615_213856_0000.pdf
Documento A4 formas curvas Hoja de papel multicolor_20240615_213856_0000.pdfDocumento A4 formas curvas Hoja de papel multicolor_20240615_213856_0000.pdf
Documento A4 formas curvas Hoja de papel multicolor_20240615_213856_0000.pdf
 

Presentacion web scraping

  • 2. ¿Que es el Web Scraping? Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web.
  • 3. El web scraping se enfoca en la transformación de datos sin estructura en la web (como el formato HTML) en datos estructurados que pueden ser almacenados y analizados en una base de datos central, en una hoja de cálculo o en alguna otra fuente de almacenamiento. El web scraping está muy relacionado con la indexación de la web, la cual indexa la información de la web utilizando un robot y es una técnica universal adoptada por la mayoría de los motores de búsqueda. El término web scraping también está relacionado con la automatización de tareas en la Web, la cual simula la navegación de un humano utilizando un software de computadora. Alguno de los usos del web scraping son la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs. También es utilizado para obtener información relevante de un sitio a través de los rich snippets.
  • 4. Consultoria Web Scraping Es importante que si tu empresa va a usar estas tecnicas lo realicen empresas profesionales con experiencia en el sector de consultoria como la Consultora de web scraping Dataseekers.es
  • 5. Tecnicas de Web Scraping Protocolo HTTP: páginas webs estáticas y dinámicas pueden ser obtenidas haciendo peticiones HTTP al servidor remoto utilizando sockets, etc. Algoritmos de minería de datos: muchos sitios webs tienen grandes colecciones de páginas generadas dinámicamente a partir de una base de datos. Datos de la misma categoría aparecen usualmente en páginas similares mediante un script o una plantilla. En la minería de datos, un programa detecta estas plantillas en un contexto específico y extrae su contenido. Aplicaciones para web scraping: existen muchas aplicaciones disponibles que pueden ser utilizadas para personalizar soluciones de Web Scraping. Estas aplicaciones pudieran reconocer automáticamente la estructura de cierta página o brindar una interfaz al usuario donde este pudiera seleccionar los campos que son de interés dentro del documento. De esta forma no es necesario escribir manualmente código para realizar estas tareas.
  • 6. «Copiar y pegar» : algunas veces incluso las mejores técnicas de web scraping no pueden reemplazar la examinación manual de un humano, y a veces esta puede ser la única vía de solución cuando el sitio que tenemos en mente pone ciertas barreras para prevenir que se creen softwares para realizar tareas automáticas en este. Uso de expresiones regulares: una posible vía para extraer información de páginas webs pueden ser las expresiones regulares, aunque comúnmente no se recomienda utilizarlas para parsear el formato HTML. Parsers de HTML: Algunos lenguajes, como XQuery y HTQL pueden ser utilizados para parsear documentos, recuperar y transformar el contenido de documentos HTML.
  • 7. Tecnicas de AntiScraping. En algunos casos administrador de un sitio web puede utilizar varias técnicas para detener o disminuir los pedidos de los scrapers. Algunas técnicas incluyen: Añadir un captcha u otro sistema de verificación manual al sitio web. No se garantiza el completo bloqueo de los scrapers, pero mediante esta técnica se dificulta el acceso de los mismos a los sitios webs. Deshabilitar cualquier interfaz de programación de aplicaciones que el sitio web pudiera estar brindando. bloquear Los bots o scrapers algunas veces declaran quienes son, y gracias a esto pueden ser. «googlebot» es un ejemplo. Algunos scrapers no hacen distinción entre ellos y un navegador común.
  • 8. Monitorear el exceso de tráfico proveniente de cierta IP. Añadir entradas al fichero robots.txt. Google y otros bots pueden ser detenidos de esta forma. Bloquear la dirección IP. Esto también bloqueará todos los accesos desde esa misma IP, por lo que los usuarios no podrán navegar por el sitio web si acceden desde ésta. Servicios comerciales antibots: algunas empresas ofrecen servicios antibots y antiscraping. Incrementar el uso de JavaScript y AJAX. De esta forma es más difícil para los scrapers simular las peticiones como si fueran un navegador común. Consultoria Antiscraping Data seekers
  • 9. Es legal el web scraping? Pero en algunos contextos podria tener dudas El web scraping pudiera ir en contra de los términos de uso de algunos sitios webs. El cumplimiento de estos términos no está totalmente claro. Mientras que la duplicación de expresiones originales puede ser en muchos casos ilegal, en Estados Unidos la corte dictó en el caso Feist Publications v. Rural Telephone Service que la duplicación de hechos es permitida. Las cortes de Estados Unidos en ciertas ocasiones han reconocido que ciertos usos de los scrapers no deberían estar permitidos. Podría considerarse una computadora como una propiedad personal, y de esta forma el scraper estaría entrando sin autorización en esta propiedad. En el caso más conocido, eBay vs Bidder's Edge, la segunda empresa tuvo que parar de realizar
  • 10. peticiones automáticas al sitio de eBay. En este caso, Bidder's Edge pujaba automáticamente por ciertos productos en este sitio. Uno de las principales pruebas de scraping involucró a American Airlines y a una empresa llamada FareChase. American Airlines ganó esta batalla, haciendo que FareChase parara de vender un software que le permitía a los usuarios comparar tarifas en linea si el sitio de American Airlines era incluido. La aerolínea dijo que las búsquedas de FareChase entraban sin autorización en los servidores cuando recopilaban la información públicamente disponible. Es una tecnica legal pero se debe realizar con cuidado.
  • 11. Web interesantes Webs en relacion con el web scraping Consultoras marketing online http://www.paraty.es/ http://www.dataseekers.es/. Tutoriales http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-sitios-web-scraping/ https://es.wikipedia.org/wiki/Web_scraping Herramientas http://webscraper.io/ http://import.io/ http://scrapy.org/