Web Crawlers

Las Búsquedas Inteligentes
en las Ciudades del Futuro
Autor(es): • Mtr. Luis Fernando Aguas

Contenidos
• Introducción
• Knowledge Graph
• Búsquedas Inteligentes
• ¿Qué es un Webcrawler?
• Proceso de Webcrawling Inteligente
• Web Crawler- PHP
• Web Crawler aplicado a Redes Sociales
• Perfiles Digitales
• El futuro de las búsquedas

Introducción
• Buscador (motor de búsqueda) es un sistema
informático que busca archivos almacenados en
servidores web gracias a sus “spider” (o Web
crawler).

Knowledge Graph:
• El buscador perfecto debería entender exactamente
lo que quieres decir y debería devolver
exactamente lo que quieres.
• El nuevo concepto de google Knowledge Graph “El
gráfico de conocimiento” es una colección enorme
de personas, lugares y cosas del mundo y la forma
en que están interconectadas entre sí.

Knowledge Graph:
• Resultados de cosas y de conceptos

Knowledge Graph:
• Obtención de mejores resúmenes

Knowledge Graph:
• Profundizar y ampliar resultados

Búsquedas Inteligentes
Cola de
Links
Agentes de descarga (b)
Agente de gestión links (a)
Agentes de proceso (c)
Páginas
WEB
Distancias
(Diccionario de
datos)
Servicios

Búsquedas Inteligentes
Agentes de proceso
Distancias
(Diccionario de
datos)
Servicio de agregado
de palabras (a)
Servicio de agregado
de frases (b)
Servicio de cálculo de
distancias (c)
Proceso por lotes

¿Qué es un Webcrawler?
• Exploran páginas web en forma automática.
• Suelen ser bots.
• Es utilizado por los motores de búsqueda.

Proceso de Webcrawling Inteligente
• Lista inicial de links.
• Exploración de Sitios Web de la lista.
• Extracción de links
• Selección óptima de links
• Carga de nuevos links en la lista inicial

Proceso de Webcrawling Inteligente

Web Crawler- PHP
• Vamos a utilizar la clase
• Luego, agregamos las funciones que vamos a utilizar,
transformamos las URL que necesitamos quitando
caracteres especiales

Web Crawler- PHP
• Rastreamos las URLS Reales

Web Crawler- PHP
• Crawler se ejecuta aquí:

Web Crawler- PHP
• Ejemplo:
• Demo 1
• Rastreo Total

Web Crawler aplicado a Redes
Sociales
• Facebook:
o Nos registramos como desarrollador de aplicaciones
 https://developers.facebook.com/docs/apps
o Creamos un nuevo identificador de la aplicación

Sociales
• Facebook:
o Descargamos Simple Data Pull o el equivalente para python
o En la función principal colocamos, nuestro usuario y password:
1
2
3
4
5
def main():
list_companies = [“usuario", “password"]
graph_url = "https://graph.facebook.com/

Sociales
• Facebook:
o Comenzamos a analizar.
o Simplemente pegamos el APP_SECRET y APP_ID en el enlace
de abajo.
https://graph.facebook.com/usuario/posts/?key=value&access_token=A
PP_ID|APP_SECRET
• Colocando la línea anterior, nos retorna el id real del
usuario

Sociales
• Retorna, la fecha de los posteos en el muro:
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
def scrape_posts_by_date(graph_url, date, post_data):
page_posts = render_to_json(graph_url)
next_page = page_posts["paging"]["next"]
page_posts = page_posts["data"]
collecting = True
for post in page_posts:
for post in page_posts:
try:
current_post = [post["id"], post["message"],
post["created_time"],
post["shares"]["count"]]

Web Crawler aplicados a Redes
Sociales
• Contenido reciente compartido:

Sociales
• Para contar el número de likes:
• En resumen analizando esta técnica, podemos
averiguar cualquier información del usuario en la red
social en cuestión
• Combinando con exploit, se podría hasta hackear.

Sociales
• Video 1.: Facebook Fan
• Video 2.: Recolección Mails – Atomic Email Hunter

Perfiles Digitales
• Ficha personal de cada usuario en función de las
publicaciones en internet (Redes Sociales, etc..)
• Estas publicaciones se relacionan con las emociones,
personalidad, etc.
• Ciertas entidades en el mundo usan estos perfiles
para empleos, análisis psicológico, etc.
• Se usan crawlers para su creación

Perfiles Digitales
Filtrar
AnalizarExtraer
Buscar

Máquinas de Aprendizaje
• Uso tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles
Digitales
• Dar al motor de búsqueda la capacidad de decisión
o Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizaje
o Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e
imágenes.

Máquinas de Aprendizaje
• Sistemas Expertos convencionales:
(algunos) Sistemas Expertos de segunda
generación:
Experiencia Reglas
Ingeniero de
conocimiento
Experiencia Reglas
Algoritmo de
aprendizaje

Google Neural Machine
Translation (GNMT)
• Fue empleada por primera vez para mejorar la
eficiencia de traducciones de una sola frase
• El algoritmo era efectivo con múltiples frases,
reduciendo errores en un 60%
• Los algoritmos convencionales de traducción son
capaces de “recordar”

Cloud Machine Learning Platform
• Máquina de aprendizaje en la nube.
• Creada por google.
• Para muchos de sus servicios como puedan ser en las
búsquedas de imágenes, en las búsquedas por voz
desde la aplicación, en las traducciones y en las
respuestas inteligentes de Inbox.
• El API puede ser usado por los desarrolladores

Cloud Machine Learning Platform

Google Open Images
• Reúne más de 9 millones de enlaces a imágenes que
han sido etiquetadas sobre unas 6.000 categorías.
• Han participado las universidades de Carnegie
Mellon y Cornell.
• Sobre dichas imágenes se han llevado a cabo una
serie de trabajos de investigación.

El futuro de las búsquedas
• Uso de tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles
Digitales
• Dar al motor de búsqueda la capacidad de decisión
o Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizaje
o Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e
imágenes.

Web Crawlers

Recomendados

Recomendados

Más contenido relacionado

Similar a Web Crawlers

Similar a Web Crawlers (20)

Más de Luis Fernando Aguas Bucheli

Más de Luis Fernando Aguas Bucheli (20)

Último

Último (6)

Web Crawlers