3. DATA SCRAPING
Tiene la atención de los periodistas que necesitan
acceder y organizar los datos para reportajes de investigación.
4. ¿Qué es Scraping?
Es un método que nos
permite “extraer datos para
transportarlos a un
formato sencillo” para
analizarlos y cruzarlos con
mayor facilidad.
6. ¿A qué formatos nos
enfrentamos?
- PDF.
- HTML.
- RTF.
- JPG.
- DOCX.
● Cuando hacemos una búsqueda de datos, muchas veces nos
encontramos con información que está en distintos formatos.
● Las técnicas de scraping nos permiten unificar formatos de datos para
combinarlos y analizarlos luego.
11. ¿Qué hacemos con
los datos?
Principalmente
recomiendo usar la
imaginación.
- Manual del periodismo de datos:
http://manual.periodismodedatos.org/
12. Aspectos Legales
“no estarán autorizadas la extracción y/o reutilización
repetidas o sistemáticas de partes no sustanciales del
contenido de una base de datos que supongan actos
contrarios a una explotación normal de dicha base o que
causen un perjuicio injustificado a los intereses
legítimos del fabricante”.
Artículo 133 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se
aprueba el Texto Refundido de la Ley de Propiedad Intelectual.
13. WEB SCRAPING
Técnicas utilizadas para obtener datos de sitios web. Podemos hacerlo
mediante el uso de comandos, extensiones, software o scripts.
20. Frameworks de scraping
1. Goutte : Es una librería de rastreo web en PHP. Goutte proporciona una agradable API para
rastrear sitios web y extraer los datos de las respuestas ya sea HTML o XML. Ha sido creado con
Symfony2.
2. Guzzle: Es un framework que incluye las herramientas necesarias para crear un cliente robusto de
servicios web. Incluye: descripciones de Servicio para definir las entradas y salidas de una API,
iteradores para recorrer webs paginadas, procesamiento por lotes para el envío de un gran número
de solicitudes de la manera más eficiente posible. También ha sido creado usando Symfony2.
3. Snoopy: Es una clase PHP que simula un navegador web. Automatiza la tarea de recuperar los
contenidos de la página web y la publicación de los formularios
4. PHPCrawl: Es un framework para el rastreo de sitios web usando el lenguaje de programación
PHP, por lo que es conocido como la librería webcrawler o rastreador de PHP.
26. HTTP: Mediante verbos o tipos de peticiones:
Get, Post, Put, Delete, Patch
¿Cual es el canal?
Esto nos devuelve estados:
200 - 299: Todo bien
400 - 499: Error del usuario
500 - 599: Error en el servidor
27. Las api’s del día a día.
API’S FAMOSAS
● Twitter
● Instagram
● Facebook
● Spotify
● Uber
28. Seguridad en las API’S
● APIS PÚBLICAS: Acceden por GET.
● APIS PRIVADAS: Necesitan un key & token.