SlideShare una empresa de Scribd logo
1 de 28
Descargar para leer sin conexión
Juan Carlos Gonzales Q
SCRAPING & API REST
https://www.facebook.com/elcharlygraf
NO ACCESO
SCRAPING
DATA SCRAPING
Tiene la atención de los periodistas que necesitan
acceder y organizar los datos para reportajes de investigación.
¿Qué es Scraping?
Es un método que nos
permite “extraer datos para
transportarlos a un
formato sencillo” para
analizarlos y cruzarlos con
mayor facilidad.
¿Hay límites para scraping?
¿A qué formatos nos
enfrentamos?
- PDF.
- HTML.
- RTF.
- JPG.
- DOCX.
● Cuando hacemos una búsqueda de datos, muchas veces nos
encontramos con información que está en distintos formatos.
● Las técnicas de scraping nos permiten unificar formatos de datos para
combinarlos y analizarlos luego.
Herramienta para scrapear PDF:
- www.zamzar.com
convierte .pdf’s a x
pdf docentes
Scrapear imágenes
Herramienta para scrapear imágenes:
- www.free-ocr.com
http://www.scielo.org.mx/img/revistas/rmie/v14
n43/a9c1.jpg
Scrapea imágenes.
Herramientas:
- Para desarrolladores:
SCRAPY: https://github.com/scrapy/scrapy/
Mozenda, Scraper wiki, DeiXto, Nokogiri, kimonolabs,
simple_html_dom, etc.
Import.io
¿Qué hacemos con
los datos?
Principalmente
recomiendo usar la
imaginación.
- Manual del periodismo de datos:
http://manual.periodismodedatos.org/
Aspectos Legales
“no estarán autorizadas la extracción y/o reutilización
repetidas o sistemáticas de partes no sustanciales del
contenido de una base de datos que supongan actos
contrarios a una explotación normal de dicha base o que
causen un perjuicio injustificado a los intereses
legítimos del fabricante”.
Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se
aprueba el Texto Refundido de la Ley de Propiedad Intelectual.
WEB SCRAPING
Técnicas utilizadas para obtener datos de sitios web. Podemos hacerlo
mediante el uso de comandos, extensiones, software o scripts.
¿En qué lenguajes?
- PHP
- PYTHON
- RUBI
- JAVASCRIPT
- JAVA
- Cualquiera :)
¿Cómo funciona?
- Script descarga.
- Script de scraping.
- Script de insert BD.
Software de scraping:
HTTrack
Crawlers Buscadores de vínculos, para indexar.
Crawlers Buscadores de vínculos, para indexar.
Facebook
Compartir enlace.
si, es simple :3
Frameworks de scraping
1. Goutte : Es una librería de rastreo web en PHP. Goutte proporciona una agradable API para
rastrear sitios web y extraer los datos de las respuestas ya sea HTML o XML. Ha sido creado con
Symfony2.
2. Guzzle: Es un framework que incluye las herramientas necesarias para crear un cliente robusto de
servicios web. Incluye: descripciones de Servicio para definir las entradas y salidas de una API,
iteradores para recorrer webs paginadas, procesamiento por lotes para el envío de un gran número
de solicitudes de la manera más eficiente posible. También ha sido creado usando Symfony2.
3. Snoopy: Es una clase PHP que simula un navegador web. Automatiza la tarea de recuperar los
contenidos de la página web y la publicación de los formularios
4. PHPCrawl: Es un framework para el rastreo de sitios web usando el lenguaje de programación
PHP, por lo que es conocido como la librería webcrawler o rastreador de PHP.
SI ACCESO
API’S
Interfaz de programación de aplicaciones.
comunicación cliente - servidor.
¿Qué es una API?
WEB IO ANDROID OAUTH
API
REST: Representational State Tranfer (of resources)
¿Qué es REST?
Resources: Sustantivo
- User
- Company
- Etc.
Entities: Entidades
- Juan Carlos
- Laravel Perú {
users: '75'
}
Representation
- Json {
name: 'Juan Carlos',
edad: '23'
}
- Xml
<name>Juan Carlos</name>
- Csv
- Text
¿Para qué usar API REST?
● Exponer datos a otros programas.
● Facilitar el desarrollo del frontend.
● Crear arquitecturas orientadas a servicios.
Json, xml, texto plano...
¿Qué forma tiene la data?
HTTP: Mediante verbos o tipos de peticiones:
Get, Post, Put, Delete, Patch
¿Cual es el canal?
Esto nos devuelve estados:
200 - 299: Todo bien
400 - 499: Error del usuario
500 - 599: Error en el servidor
Las api’s del día a día.
API’S FAMOSAS
● Twitter
● Instagram
● Facebook
● Spotify
● Uber
Seguridad en las API’S
● APIS PÚBLICAS: Acceden por GET.
● APIS PRIVADAS: Necesitan un key & token.

Más contenido relacionado

La actualidad más candente

Como crear aplicaciones basadas en linked data usando lods pea kr
Como crear aplicaciones basadas en linked data usando lods pea krComo crear aplicaciones basadas en linked data usando lods pea kr
Como crear aplicaciones basadas en linked data usando lods pea krAlvaro Graves
 
Busquedas efectivas en el Internet
Busquedas efectivas en el InternetBusquedas efectivas en el Internet
Busquedas efectivas en el InternetBiblioteca Cerezo
 
Web Semántica y Linked Data
Web Semántica y Linked DataWeb Semántica y Linked Data
Web Semántica y Linked DataRafael Ramos
 
Proyecto final de metodología de investigación
Proyecto final de metodología de investigaciónProyecto final de metodología de investigación
Proyecto final de metodología de investigaciónsantiago gallego giraldo
 
Te pique lo que te pique, analiza un SQLite
Te pique lo que te pique, analiza un SQLiteTe pique lo que te pique, analiza un SQLite
Te pique lo que te pique, analiza un SQLiteAlejandro Ramos
 

La actualidad más candente (10)

Como crear aplicaciones basadas en linked data usando lods pea kr
Como crear aplicaciones basadas en linked data usando lods pea krComo crear aplicaciones basadas en linked data usando lods pea kr
Como crear aplicaciones basadas en linked data usando lods pea kr
 
Curs 1.6. Dades Enllaçades (14/02)
Curs 1.6. Dades Enllaçades (14/02)Curs 1.6. Dades Enllaçades (14/02)
Curs 1.6. Dades Enllaçades (14/02)
 
Busquedas en Internet
Busquedas en InternetBusquedas en Internet
Busquedas en Internet
 
Extensiones a un Buscador Web
Extensiones a un Buscador WebExtensiones a un Buscador Web
Extensiones a un Buscador Web
 
Busquedas efectivas en el Internet
Busquedas efectivas en el InternetBusquedas efectivas en el Internet
Busquedas efectivas en el Internet
 
Tarea 2
Tarea 2Tarea 2
Tarea 2
 
¿que es mongodb?
¿que es mongodb?¿que es mongodb?
¿que es mongodb?
 
Web Semántica y Linked Data
Web Semántica y Linked DataWeb Semántica y Linked Data
Web Semántica y Linked Data
 
Proyecto final de metodología de investigación
Proyecto final de metodología de investigaciónProyecto final de metodología de investigación
Proyecto final de metodología de investigación
 
Te pique lo que te pique, analiza un SQLite
Te pique lo que te pique, analiza un SQLiteTe pique lo que te pique, analiza un SQLite
Te pique lo que te pique, analiza un SQLite
 

Destacado

Destacado (10)

Google Analytics API
Google Analytics APIGoogle Analytics API
Google Analytics API
 
Aparisi_Educacion_tecnologica_espectro de señales
Aparisi_Educacion_tecnologica_espectro de señalesAparisi_Educacion_tecnologica_espectro de señales
Aparisi_Educacion_tecnologica_espectro de señales
 
Apis webapps
Apis webappsApis webapps
Apis webapps
 
Apis, como reutilizar contenidos en tu web
Apis, como reutilizar contenidos en tu webApis, como reutilizar contenidos en tu web
Apis, como reutilizar contenidos en tu web
 
API WEB SQL ITParral
API WEB SQL ITParralAPI WEB SQL ITParral
API WEB SQL ITParral
 
OAuth and OpenID
OAuth and OpenIDOAuth and OpenID
OAuth and OpenID
 
Servicios web
Servicios webServicios web
Servicios web
 
SMPP 3.4 Protocol Specification (eng)
SMPP 3.4 Protocol Specification (eng)SMPP 3.4 Protocol Specification (eng)
SMPP 3.4 Protocol Specification (eng)
 
Diferencias de medición entre AdWords y Analytics
Diferencias de medición entre AdWords y AnalyticsDiferencias de medición entre AdWords y Analytics
Diferencias de medición entre AdWords y Analytics
 
Json short manual
Json short manualJson short manual
Json short manual
 

Similar a WEB SCRAPING & API REST

WORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API RESTWORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API RESTBEEVA_es
 
Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)Iniciativa Barcelona Open Data
 
Presentación html5
Presentación html5Presentación html5
Presentación html5aydimdagam
 
Fundamentos tecnologías web
Fundamentos tecnologías webFundamentos tecnologías web
Fundamentos tecnologías webDavid Hurtado
 
Tarea 1.1 siza pamela
Tarea 1.1 siza pamelaTarea 1.1 siza pamela
Tarea 1.1 siza pamelaPamela Siza
 
Pillarsjs una aventura Open Source
Pillarsjs una aventura Open SourcePillarsjs una aventura Open Source
Pillarsjs una aventura Open SourceChelo Quilón Gómez
 
Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...
Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...
Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...SemanticWebBuilder
 
Mada metodología ágil de desarrollo de apis
Mada   metodología ágil de desarrollo de apisMada   metodología ágil de desarrollo de apis
Mada metodología ágil de desarrollo de apisCloudAppi
 
Act1 tecnologiaweb uni1
Act1 tecnologiaweb uni1Act1 tecnologiaweb uni1
Act1 tecnologiaweb uni1fanyto
 
Web framework ligeros y micros en java barcamp 2014
Web framework ligeros y micros en java   barcamp 2014Web framework ligeros y micros en java   barcamp 2014
Web framework ligeros y micros en java barcamp 2014Carlos Camacho
 
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...Ianpierr Miranda
 

Similar a WEB SCRAPING & API REST (20)

WORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API RESTWORKSHOP I: Introducción a API REST
WORKSHOP I: Introducción a API REST
 
Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)Curs 2.8. Utilización Automatizada de Datos Publicos (1)
Curs 2.8. Utilización Automatizada de Datos Publicos (1)
 
Web semantica
Web semanticaWeb semantica
Web semantica
 
Presentación html5
Presentación html5Presentación html5
Presentación html5
 
Fundamentos tecnologías web
Fundamentos tecnologías webFundamentos tecnologías web
Fundamentos tecnologías web
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Tarea 1.1 siza pamela
Tarea 1.1 siza pamelaTarea 1.1 siza pamela
Tarea 1.1 siza pamela
 
Pillarsjs una aventura Open Source
Pillarsjs una aventura Open SourcePillarsjs una aventura Open Source
Pillarsjs una aventura Open Source
 
Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...
Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...
Web Semántica de la teoría a la práctica: lecciones aprendidas en ambientes p...
 
Mada metodología ágil de desarrollo de apis
Mada   metodología ágil de desarrollo de apisMada   metodología ágil de desarrollo de apis
Mada metodología ágil de desarrollo de apis
 
HMSSC
HMSSCHMSSC
HMSSC
 
Gestores de contenido
Gestores de contenidoGestores de contenido
Gestores de contenido
 
Marco conceptual
Marco conceptualMarco conceptual
Marco conceptual
 
Taller iii corte
Taller iii corteTaller iii corte
Taller iii corte
 
Servidor push
Servidor pushServidor push
Servidor push
 
Act1 tecnologiaweb uni1
Act1 tecnologiaweb uni1Act1 tecnologiaweb uni1
Act1 tecnologiaweb uni1
 
Web framework ligeros y micros en java barcamp 2014
Web framework ligeros y micros en java   barcamp 2014Web framework ligeros y micros en java   barcamp 2014
Web framework ligeros y micros en java barcamp 2014
 
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
Proyecto de Aplicación-Implementación de una INTRANET = Colegio Sagrado Coraz...
 

Último

Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfPresentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfymiranda2
 
La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....Aaron Betancourt
 
La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2montoyagabriela340
 
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...OLGAMILENAMONTAEZNIO
 
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETDe Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETGermán Küber
 
Inteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidadInteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidaddanik1023m
 
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfActividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfalejandrogomezescoto
 
Análisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfAnálisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfcastrodanna185
 
Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.marianarodriguezc797
 
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...RaymondCode
 
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosEl diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosLCristinaForchue
 
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfInmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfOBr.global
 
Los mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfLos mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfodalistar77
 
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSPRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSLincangoKevin
 
Matriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxMatriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxPaolaCarolinaCarvaja
 
Carta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfCarta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfangelinebocanegra1
 
VIDEOS DE APOYO.docx E
VIDEOS DE APOYO.docx                                  EVIDEOS DE APOYO.docx                                  E
VIDEOS DE APOYO.docx Emialexsolar
 
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfTENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfJoseAlejandroPerezBa
 

Último (20)

Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfPresentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
 
La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....
 
La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2
 
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
 
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETDe Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
 
Inteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidadInteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidad
 
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfActividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
 
Análisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfAnálisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdf
 
Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.
 
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
 
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosEl diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
 
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfInmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
 
BEDEC Proyecto y obra , novedades 2024 - Xavier Folch
BEDEC Proyecto y obra , novedades 2024 - Xavier FolchBEDEC Proyecto y obra , novedades 2024 - Xavier Folch
BEDEC Proyecto y obra , novedades 2024 - Xavier Folch
 
BEDEC Sostenibilidad, novedades 2024 - Laura Silva
BEDEC Sostenibilidad, novedades 2024 - Laura SilvaBEDEC Sostenibilidad, novedades 2024 - Laura Silva
BEDEC Sostenibilidad, novedades 2024 - Laura Silva
 
Los mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfLos mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdf
 
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSPRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
 
Matriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxMatriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docx
 
Carta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfCarta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdf
 
VIDEOS DE APOYO.docx E
VIDEOS DE APOYO.docx                                  EVIDEOS DE APOYO.docx                                  E
VIDEOS DE APOYO.docx E
 
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfTENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
 

WEB SCRAPING & API REST

  • 1. Juan Carlos Gonzales Q SCRAPING & API REST https://www.facebook.com/elcharlygraf
  • 3. DATA SCRAPING Tiene la atención de los periodistas que necesitan acceder y organizar los datos para reportajes de investigación.
  • 4. ¿Qué es Scraping? Es un método que nos permite “extraer datos para transportarlos a un formato sencillo” para analizarlos y cruzarlos con mayor facilidad.
  • 6. ¿A qué formatos nos enfrentamos? - PDF. - HTML. - RTF. - JPG. - DOCX. ● Cuando hacemos una búsqueda de datos, muchas veces nos encontramos con información que está en distintos formatos. ● Las técnicas de scraping nos permiten unificar formatos de datos para combinarlos y analizarlos luego.
  • 7. Herramienta para scrapear PDF: - www.zamzar.com convierte .pdf’s a x pdf docentes
  • 9. Herramienta para scrapear imágenes: - www.free-ocr.com http://www.scielo.org.mx/img/revistas/rmie/v14 n43/a9c1.jpg Scrapea imágenes.
  • 10. Herramientas: - Para desarrolladores: SCRAPY: https://github.com/scrapy/scrapy/ Mozenda, Scraper wiki, DeiXto, Nokogiri, kimonolabs, simple_html_dom, etc. Import.io
  • 11. ¿Qué hacemos con los datos? Principalmente recomiendo usar la imaginación. - Manual del periodismo de datos: http://manual.periodismodedatos.org/
  • 12. Aspectos Legales “no estarán autorizadas la extracción y/o reutilización repetidas o sistemáticas de partes no sustanciales del contenido de una base de datos que supongan actos contrarios a una explotación normal de dicha base o que causen un perjuicio injustificado a los intereses legítimos del fabricante”. Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el Texto Refundido de la Ley de Propiedad Intelectual.
  • 13. WEB SCRAPING Técnicas utilizadas para obtener datos de sitios web. Podemos hacerlo mediante el uso de comandos, extensiones, software o scripts.
  • 14. ¿En qué lenguajes? - PHP - PYTHON - RUBI - JAVASCRIPT - JAVA - Cualquiera :)
  • 15. ¿Cómo funciona? - Script descarga. - Script de scraping. - Script de insert BD. Software de scraping: HTTrack
  • 16. Crawlers Buscadores de vínculos, para indexar.
  • 17. Crawlers Buscadores de vínculos, para indexar.
  • 20. Frameworks de scraping 1. Goutte : Es una librería de rastreo web en PHP. Goutte proporciona una agradable API para rastrear sitios web y extraer los datos de las respuestas ya sea HTML o XML. Ha sido creado con Symfony2. 2. Guzzle: Es un framework que incluye las herramientas necesarias para crear un cliente robusto de servicios web. Incluye: descripciones de Servicio para definir las entradas y salidas de una API, iteradores para recorrer webs paginadas, procesamiento por lotes para el envío de un gran número de solicitudes de la manera más eficiente posible. También ha sido creado usando Symfony2. 3. Snoopy: Es una clase PHP que simula un navegador web. Automatiza la tarea de recuperar los contenidos de la página web y la publicación de los formularios 4. PHPCrawl: Es un framework para el rastreo de sitios web usando el lenguaje de programación PHP, por lo que es conocido como la librería webcrawler o rastreador de PHP.
  • 22. Interfaz de programación de aplicaciones. comunicación cliente - servidor. ¿Qué es una API? WEB IO ANDROID OAUTH API
  • 23. REST: Representational State Tranfer (of resources) ¿Qué es REST? Resources: Sustantivo - User - Company - Etc. Entities: Entidades - Juan Carlos - Laravel Perú { users: '75' } Representation - Json { name: 'Juan Carlos', edad: '23' } - Xml <name>Juan Carlos</name> - Csv - Text
  • 24. ¿Para qué usar API REST? ● Exponer datos a otros programas. ● Facilitar el desarrollo del frontend. ● Crear arquitecturas orientadas a servicios.
  • 25. Json, xml, texto plano... ¿Qué forma tiene la data?
  • 26. HTTP: Mediante verbos o tipos de peticiones: Get, Post, Put, Delete, Patch ¿Cual es el canal? Esto nos devuelve estados: 200 - 299: Todo bien 400 - 499: Error del usuario 500 - 599: Error en el servidor
  • 27. Las api’s del día a día. API’S FAMOSAS ● Twitter ● Instagram ● Facebook ● Spotify ● Uber
  • 28. Seguridad en las API’S ● APIS PÚBLICAS: Acceden por GET. ● APIS PRIVADAS: Necesitan un key & token.