2. Contenidos
• Introducción
• Knowledge Graph
• Búsquedas Inteligentes
• ¿Qué es un Webcrawler?
• Proceso de Webcrawling Inteligente
• Web Crawler- PHP
• Web Crawler aplicado a Redes Sociales
• Perfiles Digitales
• El futuro de las búsquedas
3. Introducción
• Buscador (motor de búsqueda) es un sistema
informático que busca archivos almacenados en
servidores web gracias a sus “spider” (o Web
crawler).
4. Knowledge Graph:
• El buscador perfecto debería entender exactamente
lo que quieres decir y debería devolver
exactamente lo que quieres.
• El nuevo concepto de google Knowledge Graph “El
gráfico de conocimiento” es una colección enorme
de personas, lugares y cosas del mundo y la forma
en que están interconectadas entre sí.
9. Búsquedas Inteligentes
Agentes de proceso
Distancias
(Diccionario de
datos)
Servicio de agregado
de palabras (a)
Servicio de agregado
de frases (b)
Servicio de cálculo de
distancias (c)
Proceso por lotes
10. ¿Qué es un Webcrawler?
• Exploran páginas web en forma automática.
• Suelen ser bots.
• Es utilizado por los motores de búsqueda.
11. Proceso de Webcrawling Inteligente
• Lista inicial de links.
• Exploración de Sitios Web de la lista.
• Extracción de links
• Selección óptima de links
• Carga de nuevos links en la lista inicial
13. Web Crawler- PHP
• Vamos a utilizar la clase
• Luego, agregamos las funciones que vamos a utilizar,
transformamos las URL que necesitamos quitando
caracteres especiales
18. Web Crawler aplicado a Redes
Sociales
• Facebook:
o Nos registramos como desarrollador de aplicaciones
https://developers.facebook.com/docs/apps
o Creamos un nuevo identificador de la aplicación
19. Web Crawler aplicado a Redes
Sociales
• Facebook:
o Descargamos Simple Data Pull o el equivalente para python
o En la función principal colocamos, nuestro usuario y password:
1
2
3
4
5
def main():
list_companies = [“usuario", “password"]
graph_url = "https://graph.facebook.com/
20. Web Crawler aplicado a Redes
Sociales
• Facebook:
o Comenzamos a analizar.
o Simplemente pegamos el APP_SECRET y APP_ID en el enlace
de abajo.
https://graph.facebook.com/usuario/posts/?key=value&access_token=A
PP_ID|APP_SECRET
• Colocando la línea anterior, nos retorna el id real del
usuario
21. Web Crawler aplicado a Redes
Sociales
• Retorna, la fecha de los posteos en el muro:
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
def scrape_posts_by_date(graph_url, date, post_data):
page_posts = render_to_json(graph_url)
next_page = page_posts["paging"]["next"]
page_posts = page_posts["data"]
collecting = True
for post in page_posts:
for post in page_posts:
try:
current_post = [post["id"], post["message"],
post["created_time"],
post["shares"]["count"]]
23. Web Crawler aplicados a Redes
Sociales
• Para contar el número de likes:
• En resumen analizando esta técnica, podemos
averiguar cualquier información del usuario en la red
social en cuestión
• Combinando con exploit, se podría hasta hackear.
24. Web Crawler aplicados a Redes
Sociales
• Video 1.: Facebook Fan
• Video 2.: Recolección Mails – Atomic Email Hunter
25. Perfiles Digitales
• Ficha personal de cada usuario en función de las
publicaciones en internet (Redes Sociales, etc..)
• Estas publicaciones se relacionan con las emociones,
personalidad, etc.
• Ciertas entidades en el mundo usan estos perfiles
para empleos, análisis psicológico, etc.
• Se usan crawlers para su creación
28. Máquinas de Aprendizaje
• Uso tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles
Digitales
• Dar al motor de búsqueda la capacidad de decisión
o Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizaje
o Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e
imágenes.
29. Máquinas de Aprendizaje
• Sistemas Expertos convencionales:
(algunos) Sistemas Expertos de segunda
generación:
Experiencia Reglas
Ingeniero de
conocimiento
Experiencia Reglas
Algoritmo de
aprendizaje
31. Búsquedas Inteligentes
Agentes de proceso
Distancias
(Diccionario de
datos)
Servicio de agregado
de palabras (a)
Servicio de agregado
de frases (b)
Servicio de cálculo de
distancias (c)
Proceso por lotes
32. Google Neural Machine
Translation (GNMT)
• Fue empleada por primera vez para mejorar la
eficiencia de traducciones de una sola frase
• El algoritmo era efectivo con múltiples frases,
reduciendo errores en un 60%
• Los algoritmos convencionales de traducción son
capaces de “recordar”
33. Cloud Machine Learning Platform
• Máquina de aprendizaje en la nube.
• Creada por google.
• Para muchos de sus servicios como puedan ser en las
búsquedas de imágenes, en las búsquedas por voz
desde la aplicación, en las traducciones y en las
respuestas inteligentes de Inbox.
• El API puede ser usado por los desarrolladores
35. Google Open Images
• Reúne más de 9 millones de enlaces a imágenes que
han sido etiquetadas sobre unas 6.000 categorías.
• Han participado las universidades de Carnegie
Mellon y Cornell.
• Sobre dichas imágenes se han llevado a cabo una
serie de trabajos de investigación.
37. El futuro de las búsquedas
• Uso de tecnología de inteligencia artificial.
• Aprendizaje automático
• Búsquedas en base a la construcción de Perfiles
Digitales
• Dar al motor de búsqueda la capacidad de decisión
o Las aplicaciones más populares de Google ya cuentan con
máquinas de aprendizaje
o Gmail cuenta con una inteligencia artificial que sugiere posibles
respuestas a un correo electrónico dependiendo de su texto e
imágenes.